在 2023 年 12 月,第二届 AI 对齐工作坊(Alignment Workshop)在新奥尔良的 NeurIPS 会议期间举办。本次工作坊是由 Adam Gleave 领导的非盈利性研究机构 FAR AI 主办。
工作坊邀请到了来自工业界和学术界150余位AI研究者就 AI 安全和对齐相关的研究主题展开讨论和辩论,从而更好地理解前沿 AI 可能带来的风险,并寻找降低这些风险的策略。工作坊的讲者和参与者有来自OpenAI、Anthropic、Google DeepMind等顶尖业界AI实验室的AGI安全团队成员,也有来自MIT、UC Berkeley、CMU、剑桥大学、牛津大学、Mila等顶尖高校的学者。图灵奖得主Yoshua Bengio在工作坊上做了主旨演讲。
安远AI | 来源
整个工作坊按照AGI安全的研究方向分成了五个主题:对齐问题导论(Introducing Alignment Problems)、监督(Oversight)、鲁棒性和泛化(Robustness and Generalization)、可解释性(Interpretability)、治理(Governance),以下是所有讲者与演讲主题一览(加粗为长演讲,其余为短演讲): 安远 AI 的技术项目经理段雅文受邀参与了本次工作坊。本文是工作坊总结系列推文的第一篇文章。总结了来自Yoshua Bengio(Mila)、Adam Gleave(FAR AI)和Owain Evans(Oxford)的主旨演讲。
PART 1 主旨演讲 – Yoshua Bengio: Towards Quantitative Safety Guarantees and Alignment
PART 2 Adam Gleave – AGI Safety: Risks and Research Directions[2]
讲者介绍:Adam Gleave 是非盈利研究机构 FAR AI 的联合创始人和 CEO,FAR AI团队主要关注的研究方向有:对抗鲁棒性、价值对齐和大模型评测等。Adam Gleave 在 UC Berkeley的人类兼容人工智能中心(Center for Human-Compatible AI)完成 AI 博士学位,他的导师是著名的 AI 研究者斯图尔特·罗素(Stuart Russell)。Adam曾在 Google DeepMind 与 Jan Leike 和 Geoffrey Irving 合作进行AI对齐方面的研究,并曾在剑桥大学与 Zoubin Ghahramani 和 Christian Steinruecken 合作。 关于什么:演讲介绍了AGI安全的历史沿革和风险研判,并将整个工作坊的主题分成了监督(Oversight)、鲁棒性(Robustness)、可解释性(Interpretability)、治理(Governance)四类研究方向。 对于AI风险的判断,Gleave引用了Sharkey et al. 2023在《A Causal Framework for AI Regulation and Auditing》中对于AI风险的描述,强调了当AI系统拥有更大的能力和更广泛的授权(affordance)时,风险会增加。 Gleave强调了两种大规模风险:滥用风险(恶意或鲁莽使用AI造成伤害)与失控AI(AI自主追求未对齐的目标)并列出了AGI安全的四个研究方向:监督(Oversight)、鲁棒性(Robustness)、可解释性(Interpretability)、治理(Governance)。
监督(Oversight)研究试图明确系统应如何行动以满足设计者设定的目标。
鲁棒性(Robustness)研究试图确保系统在一系列设置中能够可靠地满足设计规范。
可解释性(Interpretability)研究试图使人类理解系统的能力和局限性。
治理(Governance)研究试图协调系统训练和部署的安全标准。
PART 3 Owain Evans – Out-of-context Reasoning in LLMs[3]
讲者介绍:Owain Evans目前正在领导一个位于美国加州伯克利的AI安全研究组。他的研究兴趣包括AI对齐和AGI风险。他目前关注大模型的态势感知(situational awareness)与欺骗能力,以及AI系统的真实性和诚实性。他曾在牛津大学的未来人类研究所进行AI对齐研究,并在MIT获得PhD学位。他关于AI安全的工作包括:逆转诅咒(Reversal Curse)[4](中文解读)、TruthfulQA等。 关于什么:Evans在演讲中研究的核心概念叫做“上下文外推理”(Out-of-context Reasoning;OOCR)。这种能力指的是“在不使用思维链(Chain-of-Thought)的情况下进行逻辑推理并得出结论的能力”,这种推理方式与“上下文内推理”(in-context)相对。 一般来说我们会以“上下文内推理”(in-context)的形式使用LLM。我们把一系列前提条件(premises)放在上下文窗口内,并可能使用思维链提示模型将多步推理才能解决的问题分解成单步推理,以自然语言的形式显式地一步步得到结论。但OOCR想要研究的是把这些前提条件放在多个训练数据中,是否能在不使用思维链的情况下直接得到结论? 实证结果:团队于2023年9月发布的文章《Taken out of context: On measuring situational awareness in LLMs》[5]设计了实验测试了当前模型的初始OOCR能力。 另外作者也做了拓展实验,发现更大的模型倾向于在这些需要 OOCR 才能完成的任务上表现得更好,但是总体的提升相对于其他涌现的能力还不足。多步推理相对于单步推理更加困难。 团队还发现一些简单的OOCR能力处于完全失败的状态。一个经典的例子是逆转诅咒(Reversal Curse)(中文解读)。简单来说,作者把LLM在生成的“A是B”的事实数据上微调,然后问LLM“B是什么?”,作者发现LLM回答不出来。 因此作者发现:自回归的大型语言模型(LLMs)不能进行任何依赖于反转前提顺序的OOCR。即使尝试了扩大模型规模、数据增强和其他方法,都没有任何帮助。 为何重要:假设模型的 OOCR 能力很强,并且随着模型规模增大而变强,那么未来的模型可能会在不使用思维链的情况下,积累新知识和新结论;模型可能会积累隐藏的策略和规划(比如操控和欺骗人类);模型也可能会猜测出人类从训练数据中排除的事实(例如:如何制造武器以及关于模型本身的知识)。相反的,如果模型的 OOCR 能力不足且难以拓展,那么 LLM 的知识只会局限于人类的知识、自蒸馏和思维链设置的推理边界。为了保证安全,我们就也可以用其他模型监测思维链的步骤来阻止可疑的步骤。 参考资料[1] Yoshua Bengio: Towards Quantitative Safety Guarantees and Alignment: https://www.alignment-workshop.com/nola-2023[2] Adam Gleave – AGI Safety: Risks and Research Directions: https://www.alignment-workshop.com/nola-talks/adam-gleave-agi-safety-risks-and-research-directions[3] Owain Evans – Out-of-context Reasoning in LLMs: https://www.alignment-workshop.com/nola-talks/owain-evans-out-of-context-reasoning-in-llms[4] 逆转诅咒(Reversal Curse): https://arxiv.org/abs/2309.12288[5] 《Taken out of context: On measuring situational awareness in LLMs》: https://arxiv.org/abs/2309.00667