SLiC-HF: Sequence Likelihood Calibration with Human Feedback
Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
[Google Deepmind & Google Research]
SLiC-HF:基于人工反馈的序列似然校准
通过利用人工反馈数据进行序列似然校准,SLiC-HF方法提供了一种简单高效的方式来提升语言模型性能。
要点:
-
动机:通过学习人工反馈来对齐语言模型与人类偏好,提高模型性能。
-
方法:介绍了一种称为SLiC-HF的方法,利用序列似然校正(SLiC)从人工反馈数据中有效学习偏好信息,并展示了如何使用来自其他模型的反馈数据进行训练。
-
优势:SLiC-HF相比于之前的方法,更简单、更高效,能显著提高基于监督微调的基准模型性能,并且在实际应用中更易于实现和微调。
https://arxiv.org/abs/2305.10425
.
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...