The Shaped Transformer：无限深度和宽度限制下的注意力模型

552 0 0

The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

L Noci, C Li, M B Li, B He, T Hofmann, C Maddison, D M. Roy
[ETH Zurich & University of Toronto & University of Oxford]

动机：随着Transformer模型的成功，本文研究了一个修改过的基于Softmax的注意力模型在无限深度和宽度比例限制下的协方差矩阵。目标是通过对应的随机微分方程(SDE)来检查网络的稳定性。
方法：修改了Transformer的注意力机制，使得Softmax输出在identity里居中，并通过一个与宽度相关的温度参数来缩放Softmax logits。通过模拟证明了SDE对应的有限大小模型的描述非常准确。
优势：这种修改的注意力机制成功地防止了协方差结构的退化，这是深度注意力模型中的一个著名问题。此外，这种方法还提供了对网络超参数如何影响协方差矩阵的理解。

通过修改Transformer的注意力机制，并通过随机微分方程(SDE)来检查网络的稳定性，成功防止了协方差结构的退化，这是深度注意力模型中的一个著名问题。

论文：https://arxiv.org/abs/2306.17759

The Shaped Transformer：无限深度和宽度限制下的注意力模型