强化学习

是机器学习的范式和方法论之一,是智能体与环境不断交互,从而不断强化自己的决策能力的过程

FURG : Junior C. de Jesus | Depth-CUPRL:无人机Mapless导航强化学习中的深度图像对比无监督优先表示

【推荐理由】强化学习通过原始像素成像和连续控制任务在视频游戏中表现出了令人印象深刻的性能。RL在高维观察(如原始像素图像)中表现不佳。基于物理状态的R...

金山大学|世界价值函数:学习和规划的知识表示

【推荐理由】本文提出了世界价值函数(WVFs),这是一种面向目标的通用价值函数。而且解决智能体环境中任何其他达到目标的任务,这是通过为智能体配备一个内...

强化学习图鉴|你与最优策略之间,可能还差一本离线强化学习秘籍

离线强化学习是利用预先收集的大规模静态数据集来训练强化学习智能体的关键,探讨了离线强化学习的训练过程以及其和类似概念的异同。同时本文也解释了经典强...

电子科技大学|强化学习中有效利用的聚类经验回放

【推荐理由】强化学习通过利用不同决策产生的转换经验来训练智能体做出决策。大多数强化学习方法通​​过统一采样重放探索过的转换。很容易忽略最后探索的转换...

强化学习之父Richard Sutton论文:追寻智能决策者的通用模型

本文的想法是通过提出关于决策者的观点来加强和深化这一前提,这种观点在心理学、人工智能、经济学、控制理论和神经科学中具有实质性和广泛的应用,我称之为...

香港理工大学|数据高效的强化学习和网络流量动态的自适应最优周界控制

//www.sciencedirect.com/sdfe/reader/pii/S0968090X22001929/pdf【推荐理由】现有的数据驱动和反馈流量控制策略没有考虑实时数据测量的异构性。传统的交通控...

清华大学|稀疏奖励目标条件强化学习的阶段性自我模仿减少

【推荐理由】将监督学习 (SL) 的能力用于更有效的强化学习 (RL) 方法是最近的趋势,本文提出了一种新颖的阶段性方法,通过交替在线监督学习和离线强化学习来...

奥斯陆大学:Li Meng | 基于Swin-Transformer的深度强化学习

【论文链接】https”【推荐理由】Transformers是利用多层自注意力头的神经网络模型”Transformers近年来在自然语言处理任务上表现出了优异的性能。决策转换器已...

SSSUP|人工智能体冲突抑制决策任务中的脑启发元强化学习认知控制

//www.sciencedirect.com/science/article/pii/S0893608022002350【推荐理由】人类实际情景中的冲突和意想不到的变化可能不利于人工智能体执行任务,应用于强...

麦吉尔大学| ICML 2022: 顺序决策的效用理论

决策被简化为最大化某些效用函数的期望,本文将这些公理扩展到越来越结构化的顺序决策设置。并确定相应效用函数的结构,无记忆偏好会以每次转换奖励和未来回...
1 4 5 6 7 8