机器学习 | 第 6 页

「对齐」太强是坏事？人大最新研究：完美正样本反而会损害「图对比学习」

人民大学最新研究发现，数据增强可以提升图对比学习在下游任务的泛化能力，但会减弱其在上游性能。由于数据规模增大和标签信息缺失，自监督方法在图结构数据...

智源社区

1年前 (2023)

Datawhale举办首届AI4S Cup学习赛！

本文是关于第二届全球人工智能技术创新大赛的介绍。该比赛由中国人工智能学会和中国计算机学会主办，旨在促进人工智能技术的创新和应用。比赛分为四个主题：...

智源社区

1年前 (2023)

突发！OpenAI创始人兼CEO被开除！

OpenAI宣布领导层换届，CEO Sam Altman被解雇。董事会认为他在与他们沟通中不够坦诚，阻碍了他们履行职责的能力。这一决定让人意外，因为OpenAI的ChatGPT发布...

智源社区

1年前 (2023)

文本纠错实践：恶意短信变体字还原、鲁棒性过滤与文本纠错竞赛概述与简单变体实现

文本纠错是自然语言处理中的重要任务，其作用在于纠正文本中的错误表述，以避免对后续语义产生影响。文本中的常见错误类型包括少字、多字和错字等。例如，将“...

智源社区

1年前 (2023)

NeurIPS 2023 | 认知层级下的群体动作预测

本文解读了NeurIPS 2023会议上北京大学计算机视觉与数字艺术课题组发表的论文《认知层级下的社交动作预测》。该论文探讨了人类在预测他人动作和规划自身动作...

强化学习

1年前 (2023)

社招｜美团RLHF招人啦！

该岗位要求有机器学习基础，对强化学习感兴趣，负责整体优化LLM强化学习链路，包括数据探索和增强、奖励模型优化、RL策略迭代和效果评估等，不断提高算法效率...

强化学习

1年前 (2023)

OpenAI 深夜变天，Sam Altman 被踢出局，原 CTO 暂代临时 CEO

OpenAI宣布，经过审查程序后，Sam Altman离开公司，首席技术官Mira Murati暂代CEO职位。同时，GPT-4 Turbo和GPT-3.5-Turbo-1106模型正式上线Azure OpenAI服务。

强化学习

1年前 (2023)

使用 PPO 算法进行 RLHF 的 N 步实现细节

本文介绍了 RLHF/ChatGPT 的研究现状，并尝试复现了 OpenAI 在 2019 年开源的原始 RLHF 代码库。虽然该代码库具有 “tensorflow-1.x” 的特性，但它的评估和基...

强化学习

1年前 (2023)

一些RLHF的平替汇总

RLHF是一种玄学的学习方法，效果因系统链路太长自由度太高而难以控制，但由于自由度高、以目标为导向的学习范式和标注成本低等优点，业内认为其效果潜力大。O...

强化学习

1年前 (2023)

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

OpenAI最新项目Q*（Q-Star）已经展现出人工通用智能的雏形，引起了广泛关注。许多人开始研究“Q学习”（Q-learning），这是一种来自1992年的技术，突然成为了热...

强化学习

1年前 (2023)

标签：机器学习

「对齐」太强是坏事？人大最新研究：完美正样本反而会损害「图对比学习」

Datawhale举办首届AI4S Cup学习赛！

突发！OpenAI创始人兼CEO被开除！

文本纠错实践：恶意短信变体字还原、鲁棒性过滤与文本纠错竞赛概述与简单变体实现

NeurIPS 2023 | 认知层级下的群体动作预测

社招｜美团RLHF招人啦！

OpenAI 深夜变天，Sam Altman 被踢出局，原 CTO 暂代临时 CEO

使用 PPO 算法进行 RLHF 的 N 步实现细节

一些RLHF的平替汇总

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

站点公告

最新文章

随机网址

热门标签