大模型
参数数量非常庞大的深度神经网络或其他机器学习模型。
通过自弈和从AI反馈中学习的上下文学习提高语言模型谈判能力
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata[Universi...
关于大型语言模型的争论和局限
以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法,围绕完美语言建模可以达到人类智能程度这一主题:玩这个游戏意味着要解决AI...
谷歌|SLiC-HF方法反馈矫正有效信息
基于人工反馈的序列似然校准:通过利用人工反馈数据进行序列似然校准:SLiC-HF方法提供了一种简单高效的方式来提升语言模型性能,通过学习人工反馈来对齐语言...
谷歌&斯坦福|DoReMi方法优化预训练数据领域的混合比例,加速大模型语言训练
这篇论文旨在解决语言模型预训练中数据混合比例对性能的影响问题,利用分组分布式鲁棒优化(Group DRO)训练小型代理模型来生成领域权重(混合比例)。该方法...
Stability AI发布DreamStudio的开源版本
Stability AI正在发布DreamStudio的开源版本,这是该公司AI图像生成器模型Stable Diffusion的商业接口。制作DreamStudio的开源版本对稳定性人工智能有好处”它...
70 款 ChatGPT 插件评测(含样例分析)
开发者仅使用自然语言就可以开发ChatGPT插件。
CodeT5+:非常灵活的、面向代码理解和生成的开放大型代码语言模型
面向代码理解和生成的开放大型代码语言模型,现有的代码大型语言模型在架构和预训练任务方面存在限制:无法灵活适应不同的下游代码任务“并在某些任务上达到最...
StructGPT:基于迭代的阅读-推理框架(IRR)让LLMs在结构化数据上推理
本文旨在研究如何在大型语言模型中统一提高其在结构化数据上的零-shot推理能力,使用迭代阅读-推理(IRR)的方式来解决基于结构化数据的问答任务:StructGPT...
微软|PICL预训练上下文能力,比大型语言模型表现更好
该论文旨在通过提出一种新的框架PICL来增强语言模型的上下文学习能力。该论文的关键思路是通过在通用纯文本语料库上使用简单的语言建模目标来对模型进行预训...
复杂推理:大语言模型的北极星能力
这意味着复杂任务很可能是大型和小型语言模型的关键差异因素”复杂推理为基于语言模型构建大量应用程序提供了机会,我们将仔细分析讨论如何让大语言模型拥有强...