ICML 2022 | 探索语言模型的最佳架构和训练方法

智源社区2年前 (2023)发布智源社区

888 0 0

作者：朱耀明

摘自：https://zhuanlan.zhihu.com/p/529067099

本文介绍两篇发表于 ICML 2022 的论文，研究者都主要来自于 Google。两篇论文都是很实践性的分析论文。和常见的论文在模型做创新不一样，两篇论文都是针对现有 NLP 语言模型的架构和训练方法、探索其在不同场景下的优劣并总结出经验规律。

在这里笔者优先整理一下两篇论文的主要实验结论：

1. 第一篇论文发现了虽然 encoder-decoder 占据了机器翻译的绝对主流，但在模型参数量较大时，合理地设计语言模型 LM 可以使其与传统的 encoder-decoder 架构做机器翻译任务的性能不相上下；且 LM 在 zero-shot 场景下、在小语种机器翻译上性能更好、在大语种机器翻译上也具有 off-target 更少的优点。

2. 第二篇论文发现在不做 finetuning 的情况下，Causal decoder LM 架构+full language modeling 训练在 zero-shot 任务上表现最好；而在有多任务 prompt finetuning 时，则是 encoder-decoder 架构+masked language modeling 训练有最好的 zero-shot 性能。

论文1：Examining Scaling and Transfer of Language Model Architectures for Machine Translation

链接：https://arxiv.org/abs/2202.00528

论文2：What Language Model Architecture and PretrAIning Objective Work Best for Zero-Shot Generalization?

链接：https://arxiv.org/abs/2204.05832

阅读详细内容