奥斯陆大学：Li Meng | 基于Swin-Transformer的深度强化学习

强化学习2年前 (2023)发布智源社区

648 0 0

【标题】Deep Reinforcement Learning with Swin Transformer

【作者团队】Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad

【发表日期】2022.6.30

【论文链接】https://arxiv.org/pdf/2206.15269.pdf

【推荐理由】Transformers是利用多层自注意力头的神经网络模型。注意力在transformers中实现为“key”和“query”的上下文嵌入。Transformers近年来在自然语言处理任务上表现出了优异的性能。Swin-Transformer将图像像素分割成小块，并在固定大小的（移位）窗口内应用局部自注意力操作。决策转换器已成功地将转换器应用于离线强化学习，并表明来自 Atari 游戏的随机游走样本足以让智能体学习优化行为。然而在线强化学习与transformers结合起来更具挑战性。本文探讨了不修改强化学习策略，而仅将卷积神经网络架构替换为 Swin Transformer 的自注意力架构的可能性。该目标是改变智能体看待世界的方式，而非智能体规划世界的方式。并在街机学习环境中对49个游戏进行了实验。结果表明，在强化学习中使用 Swin Transformer 在街机学习环境中的大多数游戏中取得了显着更高的评估分数。故在线强化学习可以从利用空间令牌嵌入的自我注意中受益。

奥斯陆大学：Li Meng | 基于Swin-Transformer的深度强化学习