大模型
参数数量非常庞大的深度神经网络或其他机器学习模型。
AudioGPT:理解和生成语音、音乐、声音和说话人头像
以处理复杂的音频信息和支持口头对话:在多轮对话中展现出强大的音频理解和生成能力。这篇论文的目标是解决当前大型语言模型(LLMs)无法处理复杂音频信息或...
复旦大学 MOSS 大模型今日开源:超 100 万条对话训练数据
成为国内首个插件增强的开源对话语言模型。打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径,基座模型在约110万多轮对话数据上微调得到:基...
CMU & Meta|逼真生成式3D人脸模型研究
提出一种3D可控生成人脸模型的方法。结合了2D人脸生成模型和语义人脸处理,能编辑具有细节的3D渲染人脸,Meta],2D人脸模型难以准确分离面部属性:限制了其编辑...
实用指南|ChatGPT及其他大语言模型实用综述,Yann LeCun转发
旨在帮助他们在下游自然语言处理(NLP)任务中使用大语言模型(LLM),本文从模型、数据和下游任务的角度提供了关于LLM使用的讨论和见解,从而使这些模型在各种NL...
Stability AI发布Vicuna,第一个开源RLHF聊天机器人
为聊天调整语言模型所创造的用户体验一直是一个热门话题:这些聊天模型的成功得益于两种训练范式,虽然在建立帮助训练这类模型的开源框架方面做出了巨大的努...
斯坦福:别太迷信大模型涌现能力,那是度量选择结果
大模型的涌现与任务的评价指标强相关,它们不能通过简单地推断小规模模型的性能改进来预测。因为涌现的能力预示着更大的模型可能有一天会在没有警告的情况下...
大型语言模型能否成为人类评估的替代品?
本文探讨使用大型语言模型(LLMs)是否可以作为评估自然语言处理模型的替代方法,作者探索了使用LLMs评估文本质量的潜力,本文的新意在于提出了使用LLMs进行...
Unlimiformer:具有无限长度输入的长距离Transformer模型
这篇论文的目标是解决Transformer模型输入长度受限的问题。因为Transformer需要关注输入中的每个标记,Unlimiformer的关键思路是使用k最近邻索引来代替传统的...
北大|全面评估ChatGPT的信息抽取能力:性能、可解释性、校准和忠实度的评估
本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测,针对于7个细粒度信息抽取任务和14个数据集,从模型性能、可解释性、校准度和忠实度这四个角度,ChatGPT...
高效训练多模态大模型(BLIP-2)|OpenBMB论文速读第 6 期
【论文速读】是OpenBMB发起的大模型论文学习栏目,我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的学术达人 作为主讲人分享大模型领域的论...