The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit
L Noci, C Li, M B Li, B He, T Hofmann, C Maddison, D M. Roy
[ETH Zurich & University of Toronto & University of Oxford]
The Shaped Transformer:无限深度和宽度限制下的注意力模型
-
动机:随着Transformer模型的成功,本文研究了一个修改过的基于Softmax的注意力模型在无限深度和宽度比例限制下的协方差矩阵。目标是通过对应的随机微分方程(SDE)来检查网络的稳定性。 -
方法:修改了Transformer的注意力机制,使得Softmax输出在identity里居中,并通过一个与宽度相关的温度参数来缩放Softmax logits。通过模拟证明了SDE对应的有限大小模型的描述非常准确。 -
优势:这种修改的注意力机制成功地防止了协方差结构的退化,这是深度注意力模型中的一个著名问题。此外,这种方法还提供了对网络超参数如何影响协方差矩阵的理解。
通过修改Transformer的注意力机制,并通过随机微分方程(SDE)来检查网络的稳定性,成功防止了协方差结构的退化,这是深度注意力模型中的一个著名问题。
论文:https://arxiv.org/abs/2306.17759
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...