专家的水平。
这个模型我将他命名为群星闪耀。”
啊?这还真是大家都没有想到的课题。
这类需求在国外的话,你还能看到,但是在国内,这尼玛也太稀缺了,特定领域,仅限于文科领域的大模型,能派上什么用场?
大家实在是想不到。
对林燃而言,他需要的就是这种,之所以命名为群星闪耀,象征着这个模型未来放在月球背面的时候,能够照亮人类群星。
这么说,当1971年阿美莉卡试图以一己之力脱离布雷顿森林协定的时候,人类经济学家都不知道这意味着什么的时候,群星闪耀能够给予人类指引。
当苏俄陷入困境,在经济上艰难困苦,石油高企过去的时候,有群星闪耀能够告诉他们,到底犯了什么错。
当华国,华国没啥问题。
总之就是群星闪耀。
“我可以简单和大家说一下,你们的工作可能涵盖哪些内容,如果我来做,我会从什么角度着手。
最重要的其实是数据,数据需要聚焦于高质量、特定领域的文本,像哲学的伦理文本,形而上学的著作,社会学的理论研究和实地调查报告,政治学的政策文件、数据文本之类的。
你要找这些,总得知道到哪里去找论文索引,知道到哪里去找开放资源,如果这些不够,要购买的话,到领域期刊去收集数据。
开放的数据收集完,如果需要,再联系综合部去找领域期刊收购他们完整数据库的使用权。
我预计需要确保至少500亿的tokens,来确保专业深度。
确定数据之后要对数据进行清洗吧,要去除噪声重复以及具有偏见的内容。
一些文本也许很热门,有超多引用或者下载,但实际上内容并无价值,这也需要大家来判断。
这是数据阶段要做的工作,在模型开发和训练阶段,你们可以直接用深红来训练,不需要从头开发,直接让工作人员协助你们基于现有模型进行训练。
如果训练结果不满意,需要对模型调整,那么你们可以先自己试试看,有什么不懂的,你们发邮件给我,我安排时间来为大家提出解答。
&nb