Loading...

热门

ICLR 2022 | 基于对抗自注意力机制的预训练语言模型

智源社区3年前 (2023)发布智源社区

1,021 0 0

ICLR 2022 | 基于对抗自注意力机制的预训练语言模型

论文名称：

Adversarial Self-Attention For Language Understanding

论文来源：

ICLR 2022

论文链接：

https://arxiv.org/pdf/2206.12608.pdf

本文提出了 Adversarial Self-Attention 机制（ASA），利用对抗训练重构 transformer 的注意力，使模型在被污染的模型结构中得到训练。

尝试解决的问题：

大量的证据表明，自注意力可以从 allowing bias 中获益，allowing bias 可以将一定程度的先验（如 masking，分布的平滑）加入原始的注意力结构中。这些先验知识能够让模型从较小的语料中学习有用的知识。但是这些先验知识一般是任务特定的知识，使得模型很难扩展到丰富的任务上。
adversarial trAIning 通过给输入内容添加扰动来提升模型的鲁棒性。作者发现仅仅给 input embedding 添加扰动很难 confuse 到 attention maps. 模型的注意在扰动前后没有发生变化。

为了解决上述问题，作者提出了 ASA，具有以下的优势：

最大化 empirical training risk，在自动化构建先验知识的过程学习得到biased（or adversarial）的结构。
adversial 结构是由输入数据学到，使得 ASA 区别于传统的对抗训练或自注意力的变体。
使用梯度反转层来将 model 和 adversary 结合为整体。
ASA 天然具有可解释性。

# 智源社区 # 自然语言处理 # AI # transformer # 自然语言处理 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

大模型LLA的这个点确实容易出稿！领，200+论文写作资料

智源社区

629

UC Berkeley | 通过潜在意图从被动数据中进行强化学习

智源社区

918

离散扩散模型的引导方法：基于引导离散扩散的蛋白质设计

智源社区

861

谷歌&斯坦福｜DoReMi方法优化预训练数据领域的混合比例，加速大模型语言训练

智源社区

1,748

谷歌｜面向弱监督学习的局部增强

智源社区

940

AI 转写 – 离线语音转文字

Ai导航

1,508

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2026 Ai导航鄂ICP备2023001728号