大模型

参数数量非常庞大的深度神经网络或其他机器学习模型。

文档布局分析的图方法

本文提出了一种新的文档布局分析方法,将PDF页面表示为结构化的图,并引入一种轻量图神经网络模型GLAM,实现了与最先进模型的竞争性能,同时具有更小的模型大...

斯坦福“大型语言模型”课程

斯坦福大型语言模型课程涵盖了自然语言处理领域中的大规模预训练语言模型,这些模型已成为各种任务中最先进的系统基础。该课程将教授学生有关大型语言模型建...

Google DeepMind|指导图像描述模型生成更具体的描述

本文提出了两种策略来引导图像描述模型生成更具体的描述:无分类器引导和语言模型引导。通过微调自回归描述模型,实现了无分类器的引导,以估计描述的条件和...

清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练

2023年7月,清华大学PACMAN实验室发布稀疏大模型训练系统SmartMoE,支持用户一键实现MoE模型分布式训练,达到开源MoE训练系统领先性能。同时,PACMAN实验室在...

Thespian: 多角色扮演游戏代理

本文提出了一种名为「演员智能体」的框架,它可以学习模仿多个角色,并使用一个软提示来指导它在什么时候扮演哪个角色。该智能体在多角色学习和 few-shot 学...

哥伦比亚大学|使用 Transformers 预测大脑活动

研究者使用通用的Transformer编码器-解码器模型将图像映射到fMRI响应,以预测人类观看自然场景时的大脑活动。使用自监督方法训练编码器模型,解码器使用不同...

如何微调Transformer《How to fine-tune a Transformer?》

将以下内容总结出150个字的摘要,只返回摘要结果。 但这在今天仍然有用——许多人发现微调变形金刚是出了名的棘手,也许这里的一些观察结果会有所帮助。 我们...

一家380亿美元的数据巨头,要掀起企业「AI 化」革命

如何用更快的速度让大模型和现有产品整合,也可以直接使用自然语言查询和分析数据,企业将大模型部署到云端数据库将越来越容易。直接使用成品大模型工具分析...

马里兰大学等|指令微调的可利用性研究

研究了如何通过在训练数据中注入特定的指令遵循示例,来利用指令微调技术改变大型语言模型(LLM)的行为。攻击者可以通过注入提及目标内容的训练示例,提出一个...

高清还原你大脑中的画面

尤其是文本到图像生成方面取得了重大突破:这种「思维到图像」的生成方式有着广阔的应用前景。利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生...
1 2 3 4 5 6 15