通过奖励建模实现可扩展的智能体对齐
将强化学习算法应用于现实场景的障碍之一是缺乏合适的奖励函数,一定程度上是因为无法明确表述用户对任务目标的理解,从而能够以符合用户意图的方式解决复杂...
悉尼科技大学 | 通过交互式提示进行高效的多模式融合
【推荐理由】文章提出了一种高效灵活的多模态融合方法,可以实现与其他几种多模态大模型微调方法相当的性能。【摘要】大规模预训练技术已经将计算机视觉和自...
强化学习如何用于医学影像?埃默里大学最新《强化学习医学影像分析》综述,阐述最新RL医学影像分析概念、应用、挑战与未来方向
医学影像分析的任务是协助医生对病变或解剖结构进行定性和定量分析,许多机器学习方法被用于加速和自动化图像分析过程。在医学图像分析中使用强化学习的尝试...
DeepMind|用深度强化学习让双足机器人学习敏捷足球技能
研究用深度强化学习让低成本人形机器人具备复杂的和安全的移动技能,在模拟器中使用深度强化学习训练一个20个活动关节的人形机器人玩简化版足球游戏:使用高...
在使用函数逼近的高效在线强化学习中,普适覆盖条件的可证明益处
本篇论文旨在探讨使用覆盖条件在在线强化学习中的潜力和效用。本文的关键思路是探索更多可能的覆盖条件。本文提出的$L^p$浓度性、密度比实现性和部分/全覆盖...
Insight Time预告|决策大模型:一种通过无标签视频预训练的方法
其研究方向为计算机视觉和强化学习,了解决策AI大模型训练的基本原理:掌握大模型训练的监督、自监督学习技术应用于序列决策任务的创新思路,了解大型通用模型...
《强化学习周刊》第52期:Depth-CUPRL、DistSPECTRL & Double Deep Q-Network
本期周刊整理了强化学习领域相关的最新论文推荐及研究综述,可以扫描文末的二维码加入强化学习社区群。您已经完成《强化学习周刊》订阅啦;以后智源社区会自动...
清华大学车辆学院李升波|强化学习,让自动驾驶汽车自我进化,越开越好
清华大学车辆与运载学院李升波教授分享了题为《混合型强化学习及其高级别自动驾驶应用》的主题报告。该报告主要探讨了如何将强化学习应用于自动驾驶汽车的问...
Yann LeCun新论文:构建自动智能体之路
Yann LeCun发布了他的最新论文:这篇论文提炼了我过去5年或10年对人工智能前景前景的大部分思考。这基本上是我计划做的事情,机器如何学会推理和计划?机器如...
卡内基梅隆大学|AnyMorph:通过推断智能体形态来学习可转移策略
【推荐理由】强化学习的典型方法包括针对每一种新形态从零开始为特定智能体量身定制的训练策略。最近的工作旨在通过研究在具有类似任务目标的多个智能体上训...