【标题】Offline RL for Natural Language Generation with Implicit Language Q Learning
【作者团队】Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine
【发表日期】2022.6.5
【论文链接】https://arxiv.org/pdf/2206.11871.pdf
【推荐理由】大型语言模型从文本语料库中提取广泛的知识。但在完成用户指定的任务时,它们可能不一致。这个问题可以通过在管理的数据集上进行监督学习或通过强化学习对此类模型进行微调来解决。本文提出了一种新颖的离线RL激励方法,即隐式语言Q学习(ILQL),其设计用于语言模型,将传统RL算法灵活的效用优化框架与监督学习利用现有数据的能力及其简单性和稳定性相结合。并基于动态规划,在学习价值函数中融合了价值保守主义和隐式数据集支持约束,然后用于指导语言模型生成以实现效用最大化。除了对ILQL进行实证验证外,还对离线RL在自然语言生成环境中有用的情况进行了详细的实证分析,展示了它如何比以前的端到端对话方法更有效的效用优化器,以及它如何基于主观判断有效优化高方差奖励函数,例如,是否将评论标记为有毒言论的示例。