智源社区
Anthropic|基于影响函数的大型语言模型泛化研究
将以下内容总结出150个字的摘要,只返回摘要结果。 Studying Large Language Model Generalization with Influence Functions Roger Grosse, Juhan Bae, Cem...
AI大模型训练背后,一条数据产业链正在形成
本文探讨了海量数据在新的AI浪潮中的重要性,以及数据作为未来的关键生产要素所面临的问题。据统计,数据要素所能释放的数字经济潜力将无比巨大,然而,数据...
大模型Agent能力全面评测,清华伯克利发布AgentBench,AK高赞论文
将以下内容总结出150个字的摘要,只返回摘要结果。 AgentBench: 评估LLMs作为Agent的能力 标题:AgentBench: Evaluating LLMs as Agents 机构:清华大学、俄...
文档布局分析的图方法
本文提出了一种新的文档布局分析方法,将PDF页面表示为结构化的图,并引入一种轻量图神经网络模型GLAM,实现了与最先进模型的竞争性能,同时具有更小的模型大...
斯坦福“大型语言模型”课程
斯坦福大型语言模型课程涵盖了自然语言处理领域中的大规模预训练语言模型,这些模型已成为各种任务中最先进的系统基础。该课程将教授学生有关大型语言模型建...
Google DeepMind|指导图像描述模型生成更具体的描述
本文提出了两种策略来引导图像描述模型生成更具体的描述:无分类器引导和语言模型引导。通过微调自回归描述模型,实现了无分类器的引导,以估计描述的条件和...
清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
2023年7月,清华大学PACMAN实验室发布稀疏大模型训练系统SmartMoE,支持用户一键实现MoE模型分布式训练,达到开源MoE训练系统领先性能。同时,PACMAN实验室在...
Thespian: 多角色扮演游戏代理
本文提出了一种名为「演员智能体」的框架,它可以学习模仿多个角色,并使用一个软提示来指导它在什么时候扮演哪个角色。该智能体在多角色学习和 few-shot 学...
哥伦比亚大学|使用 Transformers 预测大脑活动
研究者使用通用的Transformer编码器-解码器模型将图像映射到fMRI响应,以预测人类观看自然场景时的大脑活动。使用自监督方法训练编码器模型,解码器使用不同...
如何微调Transformer《How to fine-tune a Transformer?》
将以下内容总结出150个字的摘要,只返回摘要结果。 但这在今天仍然有用——许多人发现微调变形金刚是出了名的棘手,也许这里的一些观察结果会有所帮助。 我们...