标签:大模型
文档布局分析的图方法
本文提出了一种新的文档布局分析方法,将PDF页面表示为结构化的图,并引入一种轻量图神经网络模型GLAM,实现了与最先进模型的竞争性能,同时具有更小的模型大...
斯坦福“大型语言模型”课程
斯坦福大型语言模型课程涵盖了自然语言处理领域中的大规模预训练语言模型,这些模型已成为各种任务中最先进的系统基础。该课程将教授学生有关大型语言模型建...
Google DeepMind|指导图像描述模型生成更具体的描述
本文提出了两种策略来引导图像描述模型生成更具体的描述:无分类器引导和语言模型引导。通过微调自回归描述模型,实现了无分类器的引导,以估计描述的条件和...
清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
2023年7月,清华大学PACMAN实验室发布稀疏大模型训练系统SmartMoE,支持用户一键实现MoE模型分布式训练,达到开源MoE训练系统领先性能。同时,PACMAN实验室在...
Thespian: 多角色扮演游戏代理
本文提出了一种名为「演员智能体」的框架,它可以学习模仿多个角色,并使用一个软提示来指导它在什么时候扮演哪个角色。该智能体在多角色学习和 few-shot 学...
哥伦比亚大学|使用 Transformers 预测大脑活动
研究者使用通用的Transformer编码器-解码器模型将图像映射到fMRI响应,以预测人类观看自然场景时的大脑活动。使用自监督方法训练编码器模型,解码器使用不同...
如何微调Transformer《How to fine-tune a Transformer?》
将以下内容总结出150个字的摘要,只返回摘要结果。 但这在今天仍然有用——许多人发现微调变形金刚是出了名的棘手,也许这里的一些观察结果会有所帮助。 我们...
OpenBMB 对齐技术 UltraLM 登顶斯坦福 Alpaca-Eval 开源模型榜单
最近,UltraLM-13B 在斯坦福大学 Alpaca-Eval 榜单中位列 开源模型榜首,是 唯一一个得分在 80 以上的开源模型。 ChatGPT 之后,开源社区内复现追赶 ChatGPT ...
能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型
最近,清华大学 NLP实验室、面壁智能、知乎联合在OpenBMB开源多模态大模型系列VisCPM ,评测显示, VisCPM 在中文多模态开源模型中达到最佳水平。 VisCPM 是...
CPM-Bee 开源满月|已飞入数十家企业,欢迎更多商用申请
我们同时开放了商业使用的授权申请通道。超过40家企业已被授权对CPM-Bee 10B开源大模型进行合法有效的商业使用。商用申请方包括同方知网数字出版技术股份有限...