《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL & Double Deep Q-Network

强化学习2年前 (2023)发布智源社区

770 0 0

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第52期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL & Double Deep Q-Network

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

论文推荐

本次推荐了15篇强化学习领域的相关论文，主要介绍了将卷积神经网络架构替换为 Swin Transformer 的自注意力架构以提高评估分数、通过强化学习集成语言学习与对比学习进行无人机Mapless导航高效决策、基于交易单一资产的 Double Deep Q-Network 算法对金融领域智能体行为形成初步见解、基于强化学习确定最佳电动汽车充电位置、基于深度强化学习开发增强的自我感知驾驶推荐系统，以促进修订交通管理关键控制器的政策措施、通过深度 Q 网络 (DQN) 与 Advantage Actor-Critic (A2C) 算法根据交通状况做出动态决策、基于多智能体深度强化学习（MDRL）模型以解决多智能体系统中的目标定位问题、通过新型的循环神经单元 STP 神经元 (STPN)以最大限度地提高效率和计算能力等。

标题：Deep Reinforcement Learning with Swin Transformer(奥斯陆大学：Li Meng | 基于Swin-Transformer的深度强化学习)

简介：Transformers是利用多层自注意力头的神经网络模型。注意力在transformers中实现为“key”和“query”的上下文嵌入。Transformers近年来在自然语言处理任务上表现出了优异的性能。Swin-Transformer将图像像素分割成小块，并在固定大小的（移位）窗口内应用局部自注意力操作。决策转换器已成功地将转换器应用于离线强化学习，并表明来自 Atari 游戏的随机游走样本足以让智能体学习优化行为。然而在线强化学习与transformers结合起来更具挑战性。本文探讨了不修改强化学习策略，而仅将卷积神经网络架构替换为 Swin Transformer 的自注意力架构的可能性。该目标是改变智能体看待世界的方式，而非智能体规划世界的方式。并在街机学习环境中对49个游戏进行了实验。结果表明，在强化学习中使用 Swin Transformer 在街机学习环境中的大多数游戏中取得了显着更高的评估分数。

论文链接：https://arxiv.org/pdf/2206.15269.pdf

阅读详情

标题：Depth-CUPRL: Depth-Imaged Contrastive Unsupervised Prioritized Representations in Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles（FURG : Junior C. de Jesus | Depth-CUPRL：无人机Mapless导航强化学习中的深度图像对比无监督优先表示）

简介：强化学习通过原始像素成像和连续控制任务在视频游戏中表现出了令人印象深刻的性能。然而，RL在高维观察（如原始像素图像）中表现不佳。普遍认为，基于物理状态的RL策略（如激光传感器测量）比像素学习提供了更有效的样本结果。本文提出了一种从深度图估计中提取信息的新方法，以教会RL代理执行无人机的mapless导航。并且提出了强化学习中的深度成像对比无监督优先表示法（Depth-CUPRL），该方法通过优先回放记忆来估计图像的深度。并将学习语言和对比学习相结合，解决了基于图像的学习语言问题。通过对无人机（UAV）结果的分析，可以得出结论，本文的深度CUPRL方法对于决策是有效的，并且在mapless导航能力方面优于最先进的基于像素的方法。

论文链接：https://arxiv.org/pdf/2206.15211.pdf

阅读详情

标题：Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning（University of Toronto:Anthony Coache | 深度强化学习的条件可诱导动态风险度量）

简介：本文提出了一种新的框架来解决风险敏感强化学习（RL）问题，其中智能体优化了时间一致的动态频谱风险度量。基于条件可诱导性的概念，该方法构造了（严格一致的）评分函数，在估计过程中用作惩罚因子。主要贡献有三个方面：（i）设计了一种有效的方法，用深度神经网络估计一类动态谱风险测度，（ii）证明这些动态谱风险测度可以用深度神经网络近似到任何任意精度，以及（iii）开发一种风险敏感的演员-评论家算法，该算法使用完整剧集并且不需要任何额外的嵌套转换。并将概念上改进的强化学习算法与嵌套模拟方法进行了比较，并在两种情况下说明了其性能：模拟数据和真实数据上的统计套利和投资组合分配。

论文链接：https://arxiv.org/pdf/2206.14666.pdf

阅读详情

标题：Traffic Management of Autonomous Vehicles using Policy Based Deep Reinforcement Learning and Intelligent Routing（巴基斯坦工程与应用科学学院 (PIEAS)：Anum Mushtaq | 基于策略的深度强化学习和智能路由的自动驾驶汽车交通管理）

简介：深度强化学习（DRL）使用多种非结构化数据，使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车 (AV) 的智能交通系统 (ITS) 为基于策略的 DRL 提供了绝佳的场所。深度学习架构解决了传统算法的计算挑战，并有助于在现实世界中采用和自动驾驶汽车 (AV) 。AV实施中的主要挑战是，若无可靠有效的管理，它可能会加剧道路上的交通拥堵。考虑到每辆车的整体效果，并使用高效可靠的技术，以优化交通流管理和减少拥堵。故本文提出了智能交通控制系统，以处理交叉口和交叉口后面的复杂交通拥堵场景。通过基于DRL的信号控制系统，该系统根据当前十字路口的拥堵情况动态调整交通信号。为解决交叉口后面道路的拥堵问题，本文使用了重新路由技术来平衡道路网络上的车辆负载。通过打破了数据孤岛，将来自传感器、探测器、车辆和道路的所有数据结合使用，以实现可持续的结果。最后使用SUMO微型模拟器进行模拟。结果表明了该方法具有重要意义。

论文链接：https://arxiv.org/pdf/2206.14608.pdf

阅读详情

标题：DistSPECTRL: Distributing Specifications in Multi-Agent Reinforcement Learning Systems（普渡大学:Joe Eappen | DistSPECTRL：多智能体强化学习系统中的分发规范）

简介：虽然在为通用网络物理系统指定和学习目标方面取得了显着进展，但将此类方法应用于分布式多智能体系统仍然面临重大挑战。其中包括需要 (a) 制作规范原语，允许局部和全局目标的表达和相互作用，(b) 驯服状态和动作空间中的爆炸以实现有效学习，以及 (c)最小化协调频率和参与全局目标的参与者集。为此，本文提出允许局部和全局目标的自然组合，用于指导多智能体系统的训练的新框架。该技术能够学习表达策略，允许智能体以无协调的方式操作局部目标，同时使用分散的通信协议来执行全局通信协议。实验结果支持本文的想法，即使用规范引导学习可以有效地实现复杂的多智能体分布式规划问题。

论文链接：https://arxiv.org/pdf/2206.13754.pdf

阅读详情

标题：Applications of Reinforcement Learning in Finance — Trading with a Double Deep Q-Network（ZHAW:Frensi Zejnullahu | 强化学习在金融交易中的应用——双深度Q网络交易）

简介：本文提出了一种用于交易单一资产的 Double Deep Q-Network 算法，即 E-mini S&P 500 连续期货合约。通过使用经过验证的设置作为具有多个扩展的环境的基础。该交易智能体的功能不断扩展，以包括商品等附加资产，从而产生了四种模型。还应对环境条件，包括成本和危机。该交易智能体首先接受特定时间段的训练，并在新数据上进行测试，并与作为基准（市场）的多头持有策略进行比较。通过分析各种模型之间的差异以及相对于环境的样本内/样本外性能。实验结果表明，交易智能体遵循适当的行为。它可以根据不同的情况调整其策略，例如在存在交易成本时更广泛地使用中性头寸。此外，资产净值超过基准，智能体在测试集中的表现优于市场。最后使用 DDQN 算法提供对金融领域智能体行为的初步见解。该研究结果可用于进一步的开发。

论文链接：https://arxiv.org/pdf/2206.14267.pdf

阅读详情

标题：An optimization planning framework for allocating multiple distributed energy resources and electric vehicle charging stations in distribution networks（金山大学: Kayode E. Adetunji|配电网多分布式能源和电动汽车充电站优化配置规划框架）

简介：电池储能系统(BESS)和其他无源电子单元的采用，以改善电网性能和缓解可再生能源电力的高可变性的影响。因此，制定了规划框架以将这些装置最佳地分配到配电网络。然而，目前的规划机制没有考虑到规划框架中不同分配装置的相对影响。本文提出新综合规划框架，在配电网中分配 DG 装置、 BESS 装置和电动汽车充电站(EVCS)设施，同时优化其技术、经济和环境效益。其采用重组技术，通过迭代中动态更新 DG 和 BESS 装置的位置，生成更多的解。引入了基于强化学习的算法来协调电动汽车充电，该算法提出了与其他机组相关的最佳电动汽车充电位置。针对寻找较大解空间所带来的复杂性，提出了多阶段混合优化方案来产生最优分配变量。进一步发展了基于分类的多目标框架，以同时优化多个目标函数。

论文链接：https://www.sciencedirect.com/sdfe/reader/pii/S0306261922008339/pdf

阅读详情

标题：Deep Reinforcement Learning for Personalized Driving Recommendations to Mitigate Aggressiveness and Riskiness: Modeling and Impact Assessment（雅典国家技术大学: Eleni G. Mantouka |用于减轻攻击性和风险的个性化驾驶建议的深度强化学习：建模和影响评估）

简介：大多数驾驶推荐和辅助系统，例如高级驾驶辅助系(ADAS)，通常是根据普通驾驶员的行为设计的。然而，可以适应不同驾驶风格并识别个人需求和偏好的个性化驾驶系统可能是提高驾驶员敏感性和采用更安全驾驶习惯的关键。本文使用深度强化学习算法开发了增强的自我感知驾驶推荐系统，该系统产生个性化的驾驶推荐，以提高驾驶安全性，同时尊重个人驾驶风格和偏好。通过微观模拟评估应用该推荐系统的影响；调查结果显示，如果所有司机都听从建议，道路安全有了显著改善，交通流量特性发生了一些微小变化。本文输出可能在先进的主动巡航控制系统的框架内有用，可用于开发强化的行为模型，甚至促进修订利用驾驶行为作为交通管理关键控制器的政策措施。

论文链接：https://www.sciencedirect.com/sdfe/reader/pii/S0968090X22002029/pdf

阅读详情

标题：Understanding via Exploration: Discovery of Interpretable Features With Deep Reinforcement Learning（中南大学: Jiawen Wei |通过探索理解: 发现具有深度强化学习的可解释特征）

简介：通过交互来理解环境已经成为人类掌握未知系统最重要的智力活动之一。众所周知，深度强化学习 (DRL) 在许多应用中通过类似人类的探索和利用来实现有效控制。深度神经网络(DNN)的不透明特性往往隐藏了与控制相关的关键信息，这对于理解目标系统是必不可少的。本文首先提出了新的在线特征选择框架，即基于双世界的注意特征选择(D-AFS) ，以识别输入对整个控制过程的贡献。与大多数 DRL 中使用的世界不同，D-AFS 同时具有现实世界和具有扭曲特性的虚拟世界。新引入的基于注意力的评估(AR)模块实现了从现实世界到虚拟世界的动态映射。现有的 DRL 算法只需稍加修改，就可以在双重世界中学习。通过分析 DRL 在两个世界中的响应，D-AFS 可以定量地识别各个特征对控制的重要性。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9810174

阅读详情

标题：The flying sidekick traveling salesman problem with stochastic travel time: A reinforcement learning approach（田纳西大学: Zeyu Liu |随机旅行时间的无人机与卡车联合运输问题：一种强化学习方法）

简介：作为一种新颖的城市配送方式，卡车-无人机协同作业越来越受欢迎，卡车走旅行推销员路线，无人机从卡车上起飞，将包裹运送到附近的客户。将此问题称为飞行伙伴旅行商问题（FSTSP），并提出了许多算法来解决它。然而，很少有研究考虑到路网行驶时间的随机性。本文将 FSTSP 扩展为随机旅行时间，并将问题表述为马尔可夫决策过程 (MDP)。该模型使用强化学习 (RL) 算法解决，包括深度 Q 网络 (DQN) 和 Advantage Actor-Critic (A2C) 算法，以克服维度灾难。使用被广泛接受为基准的人工生成数据集，实验表明强化学习算法在近似优化算法中表现良好。在具有随机行程时间的 FSTSP 上，强化学习算法获得灵活的策略，根据道路上不同的交通状况做出动态决策。

论文链接：https://www.sciencedirect.com/sdfe/reader/pii/S1366554522002034/pdf

阅读详情

标题：Data efficient reinforcement learning and adaptive optimal perimeter control of network traffic dynamics（香港理工大学: C. Chen|数据高效的强化学习和网络流量动态的自适应最优周界控制）

简介：现有的数据驱动和反馈流量控制策略没有考虑实时数据测量的异构性。传统的交通控制强化学习（RL）方法缺乏数据效率，收敛缓慢，极容易受到内生不确定性的影响。本文提出了基于整体强化学习 (IRL) 的方法来学习宏观交通动态，以实现自适应最优周界控制。主要贡献：（a）开发了具有离散增益更新的连续时间控制，以适应离散时间传感器数据。(b) 为了降低采样复杂度并更有效地使用可用数据，将经验重放 (ER) 技术引入 IRL 算法。(c) 所提出的方法以“无模型”的方式放宽了对模型校准的要求，通过数据驱动的 RL 算法实现了对建模不确定性的鲁棒性并提高了实时性能。(d) 基于 IRL 的算法的收敛性和受控交通动态的稳定性得到理论证明。最优控制律被参数化，然后通过神经网络 (NN) 进行逼近，从而降低了计算复杂度。

论文链接：https://www.sciencedirect.com/sdfe/reader/pii/S0968090X22001929/pdf

阅读详情

标题：Clustering Experience Replay for the Effective Exploitation in Reinforcement Learning（电子科技大学: Min Li|强化学习中有效利用的聚类经验回放）

简介：强化学习通过不同决策产生的转换经验来训练智能体做出决策。故大多强化学习通过统一采样重放探索过的转换。但是其很容易忽略最后探索的转换。另一种方法是通过训练中的估计误差来定义每个转换的优先级，然后根据优先级重放转换。但它只更新在当前训练时间步长重播的转换的优先级，因此优先级较低的转换将被忽略。本文提出了聚类体验回放CER以有效地利用隐藏在当前培训中所有探索过的过渡中的经验。CER 通过基于时间划分的分治框架对转换进行聚类和重放。首先，它将整个训练过程分为几个阶段。其次，在每个阶段结束时，它使用k-means对该阶段探索的过渡进行聚类。最后，它构造了一个条件概率密度函数，以确保在当前训练中能够充分地重播各种转换。

论文链接：https://www.sciencedirect.com/science/article/pii/S0031320322003569

阅读详情

标题：Target localization using Multi-Agent Deep Reinforcement Learning with Proximal Policy Optimization（康考迪亚大学: Ahmed Alagha|使用具有近端策略优化的多智能体深度强化学习进行目标定位）

简介：目标定位是指根据传感智能体（机器人、无人机）收集的传感数据读数来识别目标位置，调查某个感兴趣的区域。现有的解决方案依赖于通过融合和分析收集的感官数据或预定义和数据驱动的调查路径。其存在适应性问题，因为增加环境的复杂性和动态性需要进一步的重新建模和监督。本文提出了几种多智能体深度强化学习（MDRL）模型来解决多智能体系统中的目标定位问题。将Actor-Critic 结构与卷积神经网络 (CNN) 一起使用，并使用近端策略优化 (PPO) 进行了优化。智能体的观察数据被建模为二维热图，捕获所有智能体的位置和传感器读数。智能体间的合作是使用基于团队的奖励来诱导的，并通过使用用于分散执行的集中学习方法确保智能体数量的可扩展性，而通过图像下采样和高斯滤波器实现观察大小的可扩展性。

论文链接：https://www.sciencedirect.com/science/article/pii/S0167739X22002266

阅读详情

标题：Utility Theory for Sequential Decision Making（麦吉尔大学: Ahmed Alagha| ICML 2022: 顺序决策的效用理论）

简介：冯诺依曼-摩根斯坦 (VNM) 效用定理表明，在某些合理性公理下，决策被简化为最大化某些效用函数的期望。本文将无记忆偏好会以每次转换奖励和未来回报的乘法因子的形式产生效用，以激发了马尔可夫决策过程（MDPs）的泛化，在智能体的回报上具有这种结构，即仿射奖励MDPs。为了恢复 MDP 中常用的标量奖励累积总和，需要对偏好进行更强的约束。更强的约束简化了目标寻求智能体的效用函数，其形式为状态的某些函数的差，作者称之为势函数。本文的充要条件通过在 VNM 理性公理中添加一个公理，揭开了强化学习中理性智能体设计基础的奖励假设的神秘面纱，并激发了涉及顺序决策的 AI 研究的新方向。

论文链接：https://arxiv.org/pdf/2206.13637.pdf

阅读详情

标题：Short-Term Plasticity Neurons Learning to Learn and Forget（华为&伦敦大学学院: Hector Garcia Rodriguez| ICML 2022: 短时可塑性神经元学习和遗忘）

简介：短期可塑性 (STP) 是一种在大脑皮层突触中存储衰减记忆的机制。本文提出了一种新型的循环神经单元，即 STP 神经元 (STPN)。其关键机制是突触具有状态，通过突触内的自循环连接随时间传播。这个公式可以通过时间的反向传播来训练可塑性，从而在短期内形成一种学习和遗忘的形式。 STPN 优于所有经过测试的替代方案，即 RNN、LSTM、其他具有快速权重和可微可塑性的模型。并在强化学习 (RL) 以及关联检索、迷宫探索、Atari 视频游戏和 MuJoCo 机器人等任务中都证实了这一点。此外，本文计算出，在神经形态或生物电路中，STPN 可最大限度地减少模型间的能量消耗，因为它会动态抑制单个突触。基于这些，生物 STP 可能是一个强大的进化吸引子，可以最大限度地提高效率和计算能力。

论文链接：https://arxiv.org/pdf/2206.14048.pdf

阅读详情

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

请扫描下方二维码加入。

《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL & Double Deep Q-Network