大模型
参数数量非常庞大的深度神经网络或其他机器学习模型。
神经网络重建3D物体,英伟达发布Neuralangelo|CVPR 2023
?智源社区日报关注订阅? Digital Renaissance: NVIDIA Neuralangelo Research Reconstructs 3D Scenes 英伟达团队提出Neuralangelo,从2D视频重建3D大规模场...
阿联酋猎鹰Falcon 40B模型开源,冲顶Huggingface大模型榜首
?智源社区日报关注订阅? Falcon LLM是一个基础性的大型语言模型(LLM),在一万亿个令牌上训练了400亿个参数。TII现已发布猎鹰LLM——40B型号。该模型仅使用GPT...
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频...
伯克利|适用于长上下文大模型的分块并行Transformer
解决自注意力机制和大型前馈网络在Transformer中带来的内存需求问题,并且比之前的内存高效方法能处理2至4倍更长的序列,在语言建模和强化学习任务上进行的大...
透过神经科学视角探讨人工意识的可行性
透过神经科学视角探讨人工意识的可行性,对大型语言模型是否具有意识进行系统神经科学角度的探讨。采用系统神经科学的方法:从大型语言模型的结构、输入特征...
Google DeepMind|更大、更好、更快:具有人类水平效率的人类水平Atari游戏
实现在Atari 100K基准测试中超越人类水平的性能,同时提高计算效率和样本利用率,介绍了一种基于价值估计的强化学习智能体(BBF),通过扩展用于价值估计的神经...
陈丹琦等|微调语言模型内存高效的零阶优化器MeZO,内存减少多达12倍
本文旨在介绍一种用于fine-tuning语言模型(LM)的低内存优化器——MeZO。本文提出了一个用于微调语言模型(LM)的内存高效的零阶优化器(MeZO)。MeZO采用经典...
艾伦研究院|SwiftSage:面向复杂交互式任务基于快思考和慢思考的生成式智能体
面向复杂交互式任务基于快思考和慢思考的生成式智能体,旨在优化复杂互动推理任务的行动规划。SWIFTSAGE结合了行为克隆和大型语言模型(LLM)提示的优势,SWIFT...
免费书|LangChain和LlamaIndex项目实践:将大型语言模型应用于现实世界
一本介绍如何利用LangChain和LlamaIndex项目以及OpenAI GPT-3和ChatGPT API解决一系列有趣问题的书,像GPT-3这样的大型语言模型(LLM)和像LangChain这样的基...
北大|思维链如何释放语言模型的隐藏能力
思维链提示(CoT)是大模型涌现中最神秘的现象之一,尤其在解决数学推理和决策问题中取得了惊艳效果。北大的几位研究者证明了CoT在实现大语言模型(LLM)推理...