Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System
解决问题:论文旨在解决大型语言模型无法处理长文本输入的问题,提出了一种名为自控记忆系统(SCM)的解决方案,以实现无限长度的输入容量。
Xinnian Liang , Bing Wang , Hui Huang , Shuangzhi Wu
北航、ByteDance AI Lab、哈尔滨工业大学
https://arxiv.org/pdf/2304.13343.pdf
关键思路:论文的关键思路是通过SCM系统解决大型语言模型无法处理长文本输入的问题。SCM系统由三个关键模块组成:语言模型代理、记忆流和记忆控制器。其中,语言模型代理迭代处理超长输入,并将所有历史信息存储在记忆流中。记忆控制器提供长期记忆(存档记忆)和短期记忆(闪存)给代理,以生成精确和连贯的响应。控制器确定应激活哪些来自存档记忆的记忆,并如何将它们合并到模型输入中。与当前领域的研究相比,该论文的思路在于提出了一种新的解决方案,可以在不修改或微调任何LLMs的情况下,使其能够处理超长文本。
其他亮点:论文提供了一个测试集,用于评估LLMs在处理长文档方面的能力。实验结果表明,SCM系统使得LLMs能够处理超长文本,而且在不经过优化的情况下,实现了与ChatGPT相当的多轮对话能力,并在涉及超长文档摘要或长期对话的场景中优于ChatGPT。此外,该论文的代码已经在GitHub上开源。
相关研究:近期的其他相关研究包括:
- “XLNet: Generalized Autoregressive Pretraining for Language Understanding”,由Zhilin Yang等人在卡内基梅隆大学提出。
- “Reformer: The Efficient Transformer”,由Nikita Kitaev等人在Google Research提出。
- “Longformer: The Long-Document Transformer”,由Iz Beltagy等人在Allen Institute for AI提出。
论文摘要:本文提出了自控制记忆系统(Self-Controlled Memory,SCM)来解决大规模语言模型(LLMs)无法处理超长输入的问题。SCM系统由语言模型代理、记忆流和记忆控制器三个关键模块组成。语言模型代理迭代地处理超长输入并将所有历史信息存储在记忆流中。记忆控制器为代理提供长期记忆(存档记忆)和短期记忆(闪存记忆),以生成精确和连贯的响应。控制器确定应激活哪些来自存档记忆的记忆以及如何将它们合并到模型输入中。
SCM系统可以与任何LLMs集成,使它们能够处理超长文本而无需进行任何修改或微调。实验结果表明,我们的SCM系统使得LLMs能够实现多轮对话能力,这些模型本身并未针对多轮对话进行优化,其效果可与ChatGPT相媲美,并在超长文档摘要或长期对话场景中优于ChatGPT。此外,我们将提供一个测试集,涵盖常见的长文本输入场景,以评估LLMs处理长文档的能力。