本文转自知乎专栏,「深度学习自然语言处理」编辑
我是符尧,是先前《拆解追溯 GPT-3.5 各项能力的起源》这篇文章的作者。我认识 MOSS 的团队,但我跟 MOSS 没有合作关系。从第三方的角度,我想为 MOSS 正名。
先说结论:MOSS 这个模型,是全球(全球,不只是中文)开源界做得最前沿,最彻底,最完备的模型,远远领先基于 LLaMA 做 SFT 的一众模型(如 Alpaca)。MOSS 的意义,是它跑通了除 scaling 之外的几乎全部大模型开发的 pipeline: multi-lingual continue training, data engineering, supervised finetuning, RLHF, tool using, and safety,完成了一个真正意义上的可行性验证。
然后讲为什么 MOSS 好:
1. 跑通除了 scaling 之外的 pipeline
大模型的开发是一个非常复杂的流程,主要分为 scaling 和 alignment。scaling 的目标是建立一个强大的基础模型(比如 Google 540B 的 PaLM),alignment 的目标,是把模型训练得符合人类的期望。Alignment 的本身又包括一系列的子任务,包括:multi-lingual continue training, data engineering, supervised finetuning, RLHF, tool using, and safety.
为什么说 MOSS 是一个可行性验证?因为 MOSS 把上述的 alignment 一系列操作全部跑通了,与之相比:
-
大部分已有的英文社区的开源模型并没有做中文 continue training 这一步,比如 alpaca 就没有做 -
大部分已有的英文社区的开源模型只做到 MOSS 的子集,比如 Alpaca 就只做 data engineering 和 SFT, 或者 ColossalChat,做到了 data engineering + SFT + RL,但没考虑 tool using 和 safety
2. 数据代码全部开源
已有的项目,有些只开源数据,有些只开源模型权重,有些甚至就完全不开源;MOSS 把该跑通的都跑通了,且还把整个 pipeline 开源了
3. 专门为 safety 做了优化
这一点极其重要,因为当前节点,中文社区对于大模型的追逐都倾向于重视能力,忽略安全,但 MOSS 专门为模型安全做了优化,引导模型拥有正确的价值观(MOSS 的一个例子是,当用户要求 MOSS 写一封女儿没考好让人失望的信的时候,MOSS 的回复是一封鼓励女儿下次努力的信)。
然后是关于 MOSS 的一些常见问题的第三方视角的解答:
1. MOSS 的效果没有特别好
这个主要是因为 MOSS 的基础模型是 CodeGen,这个模型本身不大行;如果 MOSS 的基础模型换成 65B 的 LLaMA,它的效果会提升很多
2. MOSS 的数据存在从 GPT 中 distill 的部分
确实,这件事情当前是一个灰色地带;但另外需要注意的事情是,OpenAI 在训练 GPT 的时候,他们自己用了多少并没有得到用户同意的数据,也是一件讲不清楚的事情。GPT 训练的本身用到了特别多开源界的数据,然后回头又不让开源界用它的数据,这件事情似乎并不公平
当然,MOSS 也有其局限性:
1. MOSS 的效果确实没有已有的选手们好
所以 MOSS Scaling 的团队要再加把劲儿!
2. MOSS 并没有跑通推理能力相关的优化
在语言模型的演化中,最具有区分度的一项能力,就是推理能力。随便聊聊这种事情,稍微训练一下大家都能做好,但真的要做复杂任务的时候,大小模型的区分就会非常明显(大模型和小模型具体的区别可以看这个项目)。从这个角度来说,模型跟程序员一样:chitchat is cheap, show me the reasoning
要想让模型推理能力增强,MOSS 的团队可以考虑以下三个操作
-
Scaling up: 基础模型换一个更大的 -
Chain-of-thought finetuning: 用 CoT 的数据做 SFT,具体操作有一些细节,可以看这篇文章[1] -
Process and outcome based reward modeling: 用推理结论的正确与否作为 reward 来做 RL,可以来这篇文章[2]
即使 MOSS 有局限性,我们也应该鼓励,因为:
1. 敏锐的学术判断力
MOSS 的团队在去年 12 月一见到 ChatGPT 之后,马上就集中火力全部开干这一个项目,比很多其他的项目都早且彻底。我个人在去年 12 月的时候跟邱老师聊过,当时邱老师还对 GPT 很懵,但仅仅过了两个月在二月份再跟邱老师聊的时候,他和他的团队就对 GPT 系列的全流程和很多重点环节有着很好的 insight 且当时就做完了 SFT,这个速度远超我的预期
2. 踏实做事的精神
在 2 月份的时候 MOSS 初次内测,有一些机构托我找 MOSS 的一作天祥给 talk,天祥全拒绝了,说要干活,搞完再说
3. 开源精神
MOSS 团队在资源有限的情况下,把能做的都做了,然后把做了的都开源了,开源这件事情在当前大公司逐渐封闭化,中文互联网碎片化的大环境下,尤为重要。
最后还有一些个人观点
-
在 2022 年 12 月,ChatGPT 发布的那一瞬间,全球所有的学校,无论是 Stanford MIT 这样的名校,还是中国一个山旮旯里面随便一个三本,全部回到了同一起跑线上,因为 LLM 的存在让学术界重新洗牌,大家全部从头开始学。在一片抱怨 openai 不开源,抱怨没有卡,抱怨没有数据的声音中,MOSS 开发组选择了当机立断,全速狂飙。四个月之后看阶段性结果,MOSS 的完成度显著高于 Alpaca — 在重新起跑之后,复旦走在了 Stanford 的前面 -
学术界的重新洗牌是一个历史性的机遇:你不会的东西,MIT 也不会。所以在这个时候,能不能把握机遇,做出真正前瞻性的,创造性的学术项目,而不是模仿的,更不是抄 Alpaca 的,是衡量国内学校实力的重要指标 -
舆论应该对国内的学术项目更加鼓励,更加包容,而不是嘲讽。MOSS 就是一个学校的项目,它开始做的时候 LLaMA 还没出来,CodeGen 是他们能跑起来的最大最好的模型(虽然也不咋地),但他们真的把能做的都做了。