在使用函数逼近的高效在线强化学习中，普适覆盖条件的可证明益处

强化学习2年前 (2023)发布智源社区

571 0 0

Provable benefits of general coverage conditions in efficient online RL with function approximation

解决问题：本篇论文旨在探讨使用覆盖条件在在线强化学习中的潜力和效用，以实现更高效的样本利用率和更好的遗憾界。同时，研究表明即使在给定MDP结构的情况下，良好的覆盖条件仍然有助于获得更快的遗憾界。

关键思路：本文的关键思路是探索更多可能的覆盖条件，并研究它们在在线强化学习中的潜力和效用。相比于当前领域的研究，本文提出的$L^p$浓度性、密度比实现性和部分/全覆盖条件的权衡等新概念可以帮助实现更高效的样本利用率和更好的遗憾界。

其他亮点：本文使用了探索性离线数据，并证明在覆盖条件下，可以实现在线强化学习的统计和计算效率保证。此外，本文还探讨了覆盖条件在线性MDP等特定情况下的应用。本文的实验设计详细，但未提及是否开源代码。值得深入研究的工作包括更多覆盖条件的探索和更广泛的应用场景研究。

关于作者：本文的主要作者是Fanghui Liu、Luca Viano和Volkan Cevher。他们分别来自瑞士洛桑联邦理工学院和意大利都灵理工大学。他们之前的代表作包括Fanghui Liu在强化学习和机器学习领域的多篇论文，Luca Viano在机器学习和计算机视觉领域的多篇论文，以及Volkan Cevher在压缩感知和机器学习领域的多篇论文。

相关研究：近期的相关研究包括“Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion”（作者：Tianhe Yu、Yi Mao、Yi Ren，机构：南京大学）、“Efficient Exploration via State Marginal Matching”（作者：Yi Mao、Tianhe Yu、Yi Ren，机构：南京大学）等。

论文摘要：本文研究了一种新的在线强化学习（RL）方法，该方法使用一定的覆盖条件（最初来自离线RL）代替对马尔科夫决策过程（MDPs）的标准结构假设，就足以确保样本高效保证。本文的重点在于挖掘更多可能的和更一般的覆盖条件，并研究它们在高效在线RL中的潜力和效用。我们确定了更多的概念，包括$L^p$集中性的变体、密度比实现性以及部分/全部覆盖条件的权衡，这些概念也可以有益于样本高效的在线RL，实现改进的遗憾上界。此外，如果使用探索性离线数据，在我们的覆盖条件下，可以为在线RL实现统计和计算高效的保证。此外，即使MDP结构已经给出，例如线性MDP，我们也阐明了好的覆盖条件仍然有助于获得比$\widetilde{O}(\sqrt{T})$更快的遗憾上界，甚至是对数级别的遗憾。这些结果为在高效在线RL中使用一般的覆盖条件提供了很好的理由。