智源社区
文本纠错实践:恶意短信变体字还原、鲁棒性过滤与文本纠错竞赛概述与简单变体实现
文本纠错是自然语言处理中的重要任务,其作用在于纠正文本中的错误表述,以避免对后续语义产生影响。文本中的常见错误类型包括少字、多字和错字等。例如,将“...
NeurIPS 2023 | 认知层级下的群体动作预测
本文解读了NeurIPS 2023会议上北京大学计算机视觉与数字艺术课题组发表的论文《认知层级下的社交动作预测》。该论文探讨了人类在预测他人动作和规划自身动作...
社招|美团RLHF招人啦!
该岗位要求有机器学习基础,对强化学习感兴趣,负责整体优化LLM强化学习链路,包括数据探索和增强、奖励模型优化、RL策略迭代和效果评估等,不断提高算法效率...
OpenAI 深夜变天,Sam Altman 被踢出局,原 CTO 暂代临时 CEO
OpenAI宣布,经过审查程序后,Sam Altman离开公司,首席技术官Mira Murati暂代CEO职位。同时,GPT-4 Turbo和GPT-3.5-Turbo-1106模型正式上线Azure OpenAI服务。
突发!奥特曼被解雇,OpenAI董事会内讧
OpenAI突发公告,宣布领导层换届。由于高层内讧,Sam Altman被董事会解雇,不再担任CEO。董事会认为他在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的...
使用 PPO 算法进行 RLHF 的 N 步实现细节
本文介绍了 RLHF/ChatGPT 的研究现状,并尝试复现了 OpenAI 在 2019 年开源的原始 RLHF 代码库。虽然该代码库具有 “tensorflow-1.x” 的特性,但它的评估和基...
一些RLHF的平替汇总
RLHF是一种玄学的学习方法,效果因系统链路太长自由度太高而难以控制,但由于自由度高、以目标为导向的学习范式和标注成本低等优点,业内认为其效果潜力大。O...
耶鲁、交大提出“专家会诊”多智能体框架, 使用ChatGPT解决临床推理问题
研究者提出了一个名为多学科协作(Multi-disciplinary Collaboration, MC)的临床领域框架,旨在揭示医学智能模型的内在临床知识并提升其推理能力。LLMs在医疗...
OpenAI神秘Q*项目解密!诞生30+年「Q学习」算法引全球网友终极猜想
OpenAI最新项目Q*(Q-Star)已经展现出人工通用智能的雏形,引起了广泛关注。许多人开始研究“Q学习”(Q-learning),这是一种来自1992年的技术,突然成为了热...
Google DeepMind|强化学习中的概率推断
本文提出了一种基于贝叶斯处理的强化学习方法VAPOR,通过计算状态-动作对在最优策略下的后验概率来生成有效的探索策略。VAPOR方法具有与其他算法的强连接,并...