《强化学习周刊》第51期：PAC、ILQL、RRL&无模型强化学习集成于微电网络格控制：综述与启示

图神经网络2年前 (2023)发布智源社区

598 0 0

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第49期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

《强化学习周刊》第51期：PAC、ILQL、RRL&无模型强化学习集成于微电网络格控制：综述与启示

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

论文推荐

本次推荐了15篇强化学习领域的相关论文，主要介绍了新颖的隐式语言Q学习方法（ILQL）以实现语言模型生成效用最大化、通过深度强化学习信道接入（DLCA）协议以提高网络效用、基于DRL辅助的FL方法（DearFSAC）以预测精确的短期公用事业电力需求、通过大脑启发的元学习框架用于抑制认知控制以减少取消动作过程所需的延迟时间、基于DRL使微型游泳机器人能够自我学习有效的运动步态、通过有效且新颖的基于多智能体深度强化学习 (MADRL) 方法，解决联合虚拟网络功能 (VNF) 布局和路由 (P&R)及综述了微电网控制及其与无模型强化学习（MFRL）的融合方面存在的问题及研究展望等。

标题：Offline RL for Natural Language Generation with Implicit Language Q Learning(UC Berkeley：Charlie Snell | 基于隐式语言Q学习的自然语言生成离线RL)

简介：大型语言模型从文本语料库中提取广泛的知识。但在完成用户指定的任务时，它们可能不一致。这个问题可以通过在管理的数据集上进行监督学习或通过强化学习对此类模型进行微调来解决。本文提出了一种新颖的离线RL激励方法，即隐式语言Q学习（ILQL），其设计用于语言模型，将传统RL算法灵活的效用优化框架与监督学习利用现有数据的能力及其简单性和稳定性相结合。并基于动态规划，在学习价值函数中融合了价值保守主义和隐式数据集支持约束，然后用于指导语言模型生成以实现效用最大化。除了对ILQL进行实证验证外，还对离线RL在自然语言生成环境中有用的情况进行了详细的实证分析，展示了它如何比以前的端到端对话方法更有效的效用优化器，以及它如何基于主观判断有效优化高方差奖励函数，例如，是否将评论标记为有毒言论的示例。

论文链接：https://arxiv.org/pdf/2206.11871.pdf

阅读详情

标题：Multi-Access Point Coordination for Next-Gen Wi-Fi Networks Aided by Deep Reinforcement Learning（University of Washington :Hao Yin | 深度强化学习辅助下一代Wi-Fi网络的多接入点协调）

简介：企业中的Wi-Fi（以重叠Wi-Fi单元为特征）构成了下一代网络的设计挑战。最近启动的IEEE 802.11be（Wi-Fi 7）工作组的标准化工作重点关注媒体访问控制层的重大变化，这些更改强调了接入点（AP）在无线资源管理（RRM）中的作用，以协调信道访问，因为它与分布式协调功能（DCF）的冲突概率很高，尤其是在密集重叠的Wi-Fi网络中。本文提出了由集中AP控制器（APC）辅助的多AP协调系统结构。并通过深度强化学习信道接入（DLCA）协议，以取代DCF中的二进制指数退避机制，以支持AP之间的协调来提高网络吞吐量。随后提出了一种贪心算法来保持多个AP之间的比例公平性（PF）。通过仿真，验证了DLCA协议在密集重叠Wi-Fi网络中的性能具有很强的稳定性，其网络吞吐量分别比共享传输机会（SH-TXOP）和请求发送/清除发送（RTS/CTS）等基线高10%和3%，考虑比例公平性的网络效用分别高28.3%和13.8%。

论文链接：https://arxiv.org/pdf/2206.11378.pdf

阅读详情

标题：PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning（乔治·华盛顿大学 : Hanhan Zhou | PAC：多智能体强化学习中具有反事实预测的辅助价值因子分解）

简介：随着价值函数分解方法的发展，多智能体强化学习（MARL）取得了重大进展。由于单调性，它允许通过最大化因式分解的每个智能体的效用来优化联合动作值函数。本文表明，在部分可观察的MARL问题中，智能体对其自身动作的排序可能会对可表示函数类施加并发约束（跨不同状态），从而在训练过程中导致显著的估计错误。为此提出了PAC，通过最佳联合行动选择的反事实预测生成的辅助信息的新框架，为价值函数因式分解提供了明确的帮助。提出了一种基于变分推理的信息编码方法，用于从估计基线收集反事实预测并进行编码。为了实现去中心化执行，还从最大熵MARL框架中导出了因式分解的每个智能体策略。在多智能体捕食者-食饵和一组星际争霸II微观管理任务上评估了所提出的PAC。研究表明在所有基准上，PAC的结果都优于最先进的基于价值和基于策略的多智能体强化学习算法。

论文链接：https://arxiv.org/pdf/2206.11420.pdf

阅读详情

标题：Recursive Reinforcement Learning(University of Colorado Boulder : Mateo Perez | 循环强化学习)

简介：循环是有限描述潜在无限对象的基本范式。由于最先进的强化学习（RL）算法无法直接对循环进行推理，它们必须依靠实践者的创造力来设计环境的合适“平面”表示。由此产生的手动特征构造和近似非常繁琐且容易出错；它们缺乏透明度妨碍了可扩展性。为此，本文提出能够在环境中计算最优策略的 RL 算法，这些环境被描述为可以循环调用彼此的马尔可夫决策过程 (MDP) 的集合。每个组成MDP都有几个入口和出口点，对应于这些调用的输入和输出值。这些循环MDP（或RMDP）在表达上等价于概率下推系统（调用堆栈扮演下推堆栈的角色），并且可以使用循环过程调用对概率程序进行建模。最后引入了循环Q学习——RMDPs的一种无模型RL算法，并证明了它在温和的假设下收敛于有限、单出口和确定性多出口RMDPs。

论文链接：https://arxiv.org/pdf/2206.11430.pdf

阅读详情

标题：Reinforcement Learning under Partial Observability Guided by Learned Environment Models（Silicon Austria Labs (SAL):Edi Muˇskardin | 学习环境模型引导下的部分可观察性强化学习）

简介：在实际应用中，很少能够假设系统环境的完全可观测性，尽管这些知识对于确定无功控制系统与其环境的精确交互非常重要。因此，本文提出了一种在部分可观测环境中进行强化学习的方法。虽然假设环境行为类似于具有已知离散动作的部分可观测马尔可夫决策过程，但假设不知道其结构或转移概率。该方法将Q-学习与IoAlergia相结合，通过从RL代理的事件中学习环境的MDP模型，可以在部分可观察域中启用RL，而无需显式的额外内存来跟踪先前的交互，以处理部分可观察性产生的歧义。相反，通过模拟学习环境模型上的新经验来跟踪探索的状态，以抽象环境状态的形式为RL提供额外的观察。在评估中，本文报告了该方法的有效性及其与六种具有循环神经网络和固定记忆的最新深度RL技术相比的良好性能。

论文链接：https://arxiv.org/pdf/2206.11708.pdf

阅读详情

标题：Deep Reinforcement Learning-Assisted Federated Learning for Robust Short-term Utility Demand Forecasting in Electricity Wholesale Markets（电子科大 : Chenghao Huang | 电力批发市场短期电力需求预测的深度强化学习辅助联合学习）

简介：短期负荷预测（STLF）在电力交易市场的运行中发挥着重要作用。考虑到对数据隐私的日益关注，最近研究中，联合学习（FL）越来越多地被用于为公用事业公司（UCs）训练STLF模型。本文提出了一种DRL辅助的FL方法，即缺陷感知联合软演员-评论家（DearFSAC），用于为PPs稳健地训练精确的STLF模型，以预测精确的短期公用事业电力需求。首先。仅使用历史负载数据和时间数据设计了基于长-短期记忆（LSTM）的STLF模型。此外，考虑到缺陷发生的不确定性，采用深度强化学习（DRL）算法，通过减轻缺陷导致的模型退化来辅助FL。此外，为了更快地收敛FL训练，设计了一个自动编码器，用于降维和上传模型的质量评估。在模拟中，通过2019年赫尔辛基UCs的真实数据上验证了该方法。结果表明，无论是否出现缺陷，DearFSAC都优于所有其他方法。

论文链接：https://arxiv.org/pdf/2206.11715.pdf

阅读详情

标题：AnyMorph: Learning Transferable Polices By Inferring Agent Morphology（卡内基梅隆大学: Brandon Trabucco| ICML 2022:通过推断智能体形态来学习可转移策略）

简介：强化学习的典型方法包括对每种新形态从零开始为特定智能体量身定制的训练策略。近期研究在具有类似任务目标的多个智能体上训练的形态不可知策略是否可以在无需再训练的情况下转移到具有未知形态的新智能体上，从而消除策略再训练。其需要以前的方法使用手工设计的新试剂形态描述。本文提出了一种数据驱动的方法，直接从强化学习目标学习形态学的表示，而不是手工设计这种描述。该算法是首个强化学习算法，它可以训练一个策略来推广到新的智能体形态，而不需要预先描述智能体的形态。通过在智能体不可知控制的标准基准上评估了该方法，并在新智能体的零触发泛化方面改进了当前的技术状态。其在没有明确描述形态学的情况下获得了良好的性能。

论文链接：https://arxiv.org/pdf/2206.12279.pdf

阅读详情

标题：Multi-Agent Deep Reinforcement Learning for Cost- and Delay-Sensitive Virtual Network Function Placement and Routing（北京邮电大学: Shaoyang Wang|用于成本和延迟敏感的虚拟网络功能放置和路由的多智能体深度强化学习）

简介：本文提出了一种有效且新颖的基于多智能体深度强化学习 (MADRL) 的方法，用于解决联合虚拟网络功能 (VNF) 布局和路由 (P&R)，其中同时包含具有不同需求的多个服务请求。服务请求的差异化需求反映在它们的延迟和成本敏感因素上。首先构造一个 VNF P&R 问题来联合最小化服务延迟和资源消耗成本的加权和，这是 NP 完全的。然后，联合 VNF P&R 问题被解耦为两个迭代子任务：放置子任务和路由子任务。每个子任务由多个并发的并行顺序决策过程组成。通过调用深度确定性策略梯度方法和多智能体技术，设计了一个 MADRL-P&R 框架来执行这两个子任务。提出了新的联合奖励和内部奖励机制来匹配布局和布线子任务的目标和约束。本文还提出了基于参数迁移的模型再训练方法来处理不断变化的网络拓扑。

论文链接：https://arxiv.org/pdf/2206.12146.pdf

阅读详情

标题：Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning（清华大学: Yunfei Li| ICML 2022:稀疏奖励目标条件强化学习的阶段性自我模仿减少）

简介：将监督学习 (SL) 的能力用于更有效的强化学习 (RL) 方法是最近的趋势。本文提出新颖的阶段性方法，通过交替在线监督学习和离线强化学习来解决稀疏奖励目标条件问题。在在线阶段，执行 RL 训练并收集推出数据，在离线阶段，对数据集中的那些成功轨迹执行监督学习。为了提高样本效率，在在线阶段采用了额外的技术，包括减少任务以生成更可行的轨迹和基于价值差异的内在奖励来缓解稀疏奖励问题。该算法被称为 PhAsic 自我模仿减少 (PAIR)。在稀疏奖励目标条件机器人控制问题（包括具有挑战性的堆叠任务）上，PAIR 大大优于非阶段性强化学习和阶段性监督学习基线。 PAIR 是第一个从零开始学习堆叠 6 个立方体且只有 0/1 成功奖励的强化学习方法。

论文链接：https://arxiv.org/pdf/2206.12030.pdf

阅读详情

标题：World Value Functions: Knowledge Representation for Learning and Planning（金山大学: Geraud Nangue Tasse|世界价值函数：学习和规划的知识表示）

简介：本文提出了世界价值函数（WVFs），面向目标的通用价值函数，它代表了如何不仅解决给定的任务，而且解决智能体环境中任何其他达到目标的任务。其通过为智能体配备一个内部目标空间来实现的，该目标空间定义为它经历终端转换的所有世界状态。然后智能体可以修改标准任务奖励来定义自己的奖励函数，这可证明它会驱动它学习如何实现所有可达到的内部目标，以及在当前任务中这样做的价值。本文展示了 WVF 在学习和规划方面的两个主要优点。特别是在给定学习的 WVF下，智能体可以通过简单地估计任务的奖励函数来计算新任务中的最优策略。此外，本文表明 WVF 还隐式编码环境的转换动态，因此可用于执行规划。实验结果表明，WVFs 可以比常规值函数更快地学习，而它们推断环境动态的能力可以用来整合学习和规划方法，以进一步提高样本效率。

论文链接：https://arxiv.org/pdf/2206.11940.pdf

阅读详情

标题：Improving de novo molecular design with curriculum learning（查尔姆斯理工大学: Jeff Guo|利用课程式学习改进新型分子设计）

简介：强化学习是一个强大的范例，已在多个领域受到欢迎。然而，应用强化学习可能会以智能体和环境之间的多重交互为代价。当来自环境的单个反馈速度缓慢或计算代价高昂，导致长时间的非生产力时，这种代价尤其明显。课程式学习通过安排一系列日益复杂的任务提供了一个合适的替代方案，目的是降低学习的整体成本。本文展示课程式学习在药物发现中的应用。并在 REINVENT 新设计平台上实现了课程式学习，并将其应用于不同复杂度的分子设计问题。结果显示，与以策略为基础的标准强化学习相比，学习速度加快，并对产出质量产生了积极影响。

论文链接：

https://www.nature.com/articles/s42256-022-00494-4?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata

阅读详情

标题：Brain-inspired meta-reinforcement learning cognitive control in conflictual inhibition decision-making task for artificial agents（SSSUP: Federica Robertazzi|人工智能体冲突抑制决策任务中的脑启发元强化学习认知控制）

简介：人类实际情景中的冲突和意想不到的变化可能不利于人工智能体执行任务，从而影响其性能。本文提出了大脑启发的元学习框架，用于抑制认知控制，i)利用 Doya 提出的神经调节理论中的元学习原则，ii)依赖于包含人脑中分布式学习系统的完善的神经结构，iii)提出元学习超参数的优化规则，模拟大脑中主要神经递质的动态。并在两个著名的任务: NoGo 和停止信号范式中测试了一种人工智能体抑制动作指令。经过短暂的学习阶段后，人工智能体学会了对等待信号做出反应，从而通过不断调整学习超参数，成功地抑制了两个任务中的马达指令。并全局准确性、正确抑制显著提高，减少了取消动作过程所需的延迟时间。

论文链接：https://www.sciencedirect.com/science/article/pii/S0893608022002350

阅读详情

标题：Energy saving evaluation of an energy efficient data center using a model-free reinforcement learning approach（新加坡国立大学: Muhammad Haiqal Bin Mahbod|采用无模型强化学习方法评估能源效益数据中心的节能情况）

简介：为了降低冷却能耗，建议数据中心提高服务器进气温度设定点。本文证明了使用浮动设定点与降低温度值的热带气候减少数据中心的总体能源消耗，而不是以静态方式提高温度。通过将深度强化学习算法应用于混合数据中心模型，该模型是从一个高效的数据中心收集数据建立的。以产生了一个最优的控制策略，使能源消耗成本最小化，同时在所需的一组操作约束条件下操作。本文评估控制策略的行为，以说明节能的确切来源。深度强化学习算法通过不断与建立的数据中心模型进行交互而学习，而不需要事先了解数据中心。该算法在数据中心的全负载和部分负载配置下进行训练。测试结果表明，在一个已经具有冷却效率的数据中心中，通过有针对性的冷却供应，有效节省能源。

论文链接：https://www.sciencedirect.com/sdfe/reader/pii/S0306261922007309/pdf

阅读详情

标题：Gait switching and targeted navigation of microswimmers via deep reinforcement learning（SCU: Zonghao Zou|通过深度强化学习进行微型游泳机器人的步态切换和目标导航）

简介：微型游泳机器人在运动步态之间切换，实现复杂的导航策略，如奔跑和翻滚，以探索它们的环境和搜索特定的目标。这种通过自适应步态转换进行目标导航的能力对于开发能够以自主方式执行复杂生物医学任务(如靶向药物输送和显微外科手术)的智能人工微型游泳机器人尤为理想。本文使用深度强化学习的方法，使模型微型游泳机器人能够自我学习有效的运动步态，包括平移、旋转和组合运动。人工智能(AI)驱动的游泳机器人可以在各种运动步态之间自适应地切换，以导航到目标位置。多模式导航策略使人想起微型游泳机器人采用的步态转换行为。研究结果表明，这些 AI 驱动的微型游泳机器人在不可预测的、复杂的流体环境中具有巨大的应用潜力。

论文链接：https://www.nature.com/articles/s42005-022-00935-x.pdf

阅读详情

标题：Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer（UFRGS : Lucas N. Alegre|ICML 2022: 作为最优策略转移基础的乐观线性支持和后继特征）

简介：在许多现实世界的应用中，强化学习(RL)智能体可能必须解决多个任务，每个任务通常通过奖励函数建模。如果奖励函数是线性表示的，并且智能体已经学习了一组针对不同任务的策略，那么可以利用后续特性(SFs)来组合这些策略，并为新问题找到合理的解决方案。本文介绍了一种新的算法来解决这个限制。它允许 RL 智能体组合现有的策略，并直接为任意的新问题确定最佳策略，而不需要与环境进行任何进一步的交互。首先在假设下证明了系统功能语言学习者所解决的迁移学习问题等同于在 RL 中学习优化多目标的问题。然后，引入了乐观线性支持算法的基于 SF 的扩展来学习一组策略，这些策略的 SF 形成一个凸覆盖集。实验表明此方法在离散和连续领域的价值函数逼近下都优于最先进的竞争算法。

论文链接：https://arxiv.org/pdf/2206.11326.pdf

阅读详情

研究综述

标题：无模型强化学习与微电网络控制的融合：综述与启示

简介：由于新兴的大规模分布式能源（DER）和先进的控制技术，微电网面临着挑战和机遇。本文综述了微电网控制及其与无模型强化学习（MFRL）的融合。从六个不同的角度开发了微电网控制的高级研究图，然后是底层模块化控制块，说明了电网跟随（GFL）和电网形成（GFM）逆变器的配置。然后，介绍了主流MFRL算法，并解释了如何将MFRL集成到现有的控制框架中。并总结了MFRL的应用指南，进而讨论了现有控制框架下的三种融合方法，即模型识别和参数调整、补充信号生成和控制器替换。最后，充分讨论了在微电网控制中采用MFRL的基本挑战以及解决这些问题的相应见解。

论文链接：https://arxiv.org/pdf/2206.11398.pdf

阅读详情

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

请扫描下方二维码加入。