强化学习
是机器学习的范式和方法论之一,是智能体与环境不断交互,从而不断强化自己的决策能力的过程
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
本文介绍了计算机视觉中的目标检测任务,与图像分类/识别任务不同,目标检测需要模型给出目标的位置和大小信息。目标检测在CV三大任务中处于关键地位。
优化 | 面向协作多智能体强化学习的完全去中心化算法框架
协作多智能体强化学习(MARL)是实现群体智能的重要手段,已成为人工智能重要研究方向。MARL在交互式、复杂的合作多智能体环境中表现出了显著的性能,例如多...
CVPR 2023 冠军解决方案,零样本异常分割新突破!
CVPR2023冠军解决方案已经实现了零样本异常分割的新突破。本文介绍了Pytorch训练营,以及CV各大方向专栏和各个部署框架的最全教程。此外,还有CV全栈指导班、...
CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割
CVPR 2023的一篇论文介绍了无监督跨模态医学图像分割的领域适应方法。该论文提出了一种体积型的UDA框架,包括具体实现、Unpaired图像转换、体积自训练和伪标...
深度学习系统化学习路线图发布了
2023上半年,作者花费六个月时间,系统化整理归纳了深度学习在工业视觉、机器视觉、智能智造行业应用的关键知识点,并基于此构建了一个深度学习系统化学习路...
找到时序方向idea的方法
本课程介绍了时间序列预测的重要性和应用领域,包含前沿科研和比赛实战,总时长15小时,0.01元即可全部解锁。此外,还提供14个方向88篇时序顶会论文的免费领...
社区供稿 | 基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历
RLHF (基于人类反馈的强化学习) 分为三步:SFT (有监督的微调)、RM (基于奖励的建模)、IL (交互学习)。SFT使用正常的指令或对话样本来训练模型的基础对话、听...
无模型强化学习与微网格控制的融合:综述与启示
【论文链接】https。【推荐理由】由于新兴的大规模分布式能源(DER)和先进的控制技术,本文综述了微电网控制及其与无模型强化学习(MFRL)的融合,从六个不...
华为&伦敦大学学院| ICML 2022: 短时可塑性神经元学习和遗忘
【论文链接】https。【推荐理由】短期可塑性 (STP) 是一种在大脑皮层突触中存储衰减记忆的机制。本文提出了一种新型的循环神经单元,其关键机制是突触具有状...
UC Berkeley:Charlie Snell | 基于内隐语言Q学习的自然语言生成离线RL
【推荐理由】大型语言模型从文本语料库中提取广泛的知识,这个问题可以通过在管理的数据集上进行监督学习或通过强化学习对此类模型进行微调来解决。本文提出...