大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

大模型2年前 (2023)发布智源社区

1,001 0 0

【论文速读】是OpenBMB发起的大模型论文学习栏目，用 高效的思维导图 形式，带领大家在 10min 内快速掌握一篇 前沿经典 论文。我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的 学术达人 作为主讲人分享 大模型领域论文。

本期论文速读带大家了解前沿的研究者是如何发现大模型（Large Language Model）的涌现能力——Emergent Abilities of Large Language Models (2022.10)，由清华大学计算机系博士研究生胡声鼎进行领读。

B站视频链接：https://www.bilibili.com/video/BV1qX4y1i78J/?spm_id_from=333.999.0.0&vd_source=cd29f4e20ef69babd26f4f34cc7c8b3f

01 作者信息

Jason Wei：Google Research 高级研究员，主要研究大模型 scaling，是inverse scaling 的发现者
Yi Tay：Google Researc 研究员，主要研究大模型 scaling、efficient transformers‍
Percy Liang：Stanford
Jeff Dean ：Google Brain

02 论文简介

关键词 KeyWords

LLMs

Emergent Ability

Scaling

摘要概览 Abstract

下游任务能力在大模型上的不可预测性
不能从小模型的的性能外推
是否能通过继续扩大模型规模来获得更多涌现能力

03 研究设计

涌现现象

通常的涌现现象：系统中的定量变化导致行为的质变。
大模型的涌现现象：能力不存在于较小的模型中，而是存在于较大的模型中。

实验框架

Performance 和 FLOPs（计算量）的关系
Performance 和 Model Parameters 的关系
叠甲：emergent 与很多因素有关，本文指 emergent 现象普遍存在。

‍

04 实验及结果

实验 01

涌现能力在数据集上的实验‍

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

上图 A-H 这些 task 以 fewshot 形式展示过以后都有 emergent
不同模型 emergent scale 不一样
有的 task 只有 540B 的 Palm emerge

‍

实验 02‍

增强语言模型能力的 emerge 现象

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

指令微调（Instruction tuning）、思维链（Chain-of-thought）等增强语言模型能力的方法都有一定程度的涌现
联想：之前的 prompt tuning，parameter efficient tuning，都是某种随着模型规模扩大的涌现

‍‍‍‍‍

05 结果讨论

Emergent 现象的解释

多步能力说

每个子能力达到 90% -> 一无是处

每个子能力达到 95% -> 能完成一些任务了

指标缺陷说
奇怪的现象：交叉熵损失不是 emergent 的，而是在逐步下降

Emergent 的阈值可能会越来越小

更干净的数据，更好的训练技巧，更优秀的模型结构都可以使 Emergent 阈值变小

未来方向

继续扩大模型规模，远未达到上限
一些新结构的 scaling、数据的 scaling
理解 prompt 机制
用更前沿的 task 来指导 emergent
理解 emergence

06 论文贡献

优点

第一次正式提出emergent实验
做了充分的实验表明该现象在各种数据集上广泛存在
甚至验证了一些”方法”的涌现
提出了一些解释该现象的观点,并提出质疑

局限‍‍

没有解释 emerge 现象到底由什么因素导致
实验采用各种不同模型，无法得出哪个计算量级对哪种能力有 emerge

▾ 传送门论文链接

? https://arxiv.org/pdf/2206.07682

▾ 公众号回复「论文速读」

即可获得高清完整版思维导图

我们为读者准备了一份高清思维导图，包括了论文中的重点亮点以及直观的示意图。点击下方名片 关注 OpenBMB ，后台发送“论文速读” ，即可领取论文学习高清思维导图和 FreeMind ！

本期论文速读视频版已发布于 视频号 和 B站（视频讲解比文字阅读更加详细易懂），欢迎大家评论和分享~

以上是本期论文速读的全部内容，后续 OpenBMB 会围绕大模型介绍更多前沿论文，欢迎大家持续关注！‍

除涌现外，还发现了大模型的更多有趣特性？欢迎参与 BMPrinciples 的共建！

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

➤ BMPrinciples

? https://github.com/OpenBMB/BMPrinciples

➤ 加社群/ 提建议/ 有疑问

请找 OpenBMB 万能小助手：

官方网站

https://www.openbmb.org

GitHub

https://github.com/OpenBMB

https://github.com/thunlp

长期开放招聘｜含实习

开发岗 | 算法岗 | 产品岗

交流QQ群

735930538

文章版权归作者所有，未经允许请勿转载。

斯坦福｜基于实时视觉的室内环境机器人导航

智源社区

692

（待会删）yyds，请低调使用！

智源社区

544

CMU & Meta｜逼真生成式3D人脸模型研究

智源社区

662

北大、斯坦福、Pika新研究：“文生图”好过DALL·E 3和SDXL

智源社区

538

CVPR再起争议：IBM中稿论文被指照搬自己承办竞赛第二名的idea

智源社区

637

清华系大模型公司聆心智能发布 CharacterGLM：玩转 AI 角色扮演，6B 模型已开源

智源社区

889

暂无评论

暂无评论...

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

05 结果讨论

谷歌Deepmind｜RoboCat：一个自我改进的机器人代理

Ocean-1：世界上第一个联络中心基金会模型

相关文章

暂无评论

相关文章

热门标签

热门网址