Loading...

热门

社招｜美团RLHF招人啦！

强化学习1年前 (2023)发布智源社区

550 0 0

欢迎ML基础扎实、对RLHF感兴趣的小伙伴投递！1-N年经验都欢迎！

岗位职责

负责LLM强化学习链路整体优化，包括数据探索与增强、奖励模型优化、RL策略迭代及效果评估等，持续提升算法的效率与效果；
强化学习技术前瞻探索，包括但不限于离线强化学习、环境模型学习、约束强化学习等方向；
开展大语言模型在搜索、推荐、广告等业务场景中的应用并实现业务目标。

岗位基本需求

一年以上相关工作经验，具备NLP、搜索、推荐、广告等至少其一领域的算法优化和业务实践；
扎实的算法基础，熟悉强化学习、自然语言处理和机器学习技术，对技术开发及应用有热情；
熟悉Python、Java等至少一种编程语言，具有良好的编程能力和扎实的数学理论基础；
熟悉Tensorflow、PyTorch等深度学习框架并有实际项目经验；
关注行业前沿进展，对技术开发及应用有热情，有自己的想法并乐于挑战自我；
良好的沟通能力和跨团队协作能力，能够梳理繁杂的工作并建立有效机制，推动上下游配合完成目标。

具备以下者优先

具备RL算法优化和项目实践经验，熟悉DQN、PPO、MCQ等强化学习算法，能够基于实际业务问题优化算法；
在ICML、KDD、SIGIR、WWW、ICLR等顶级会议或期刊上发表过论文者优先。获得过国际或国内赛事奖项者优先；
有大语言模型算法优化和大规模分布式RL框架优化经验优先。

岗位亮点

能够接触到海量的用户数据，良好的技术氛围和技术牛人；
能够触达丰富的业务，具备技术挑战，使用技术手段解决业务中的实际问题。

联系方式

lirumei at meituan.com

# 强化学习 # 智源社区 # 强化学习 # 机器学习 # 视觉

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

再看知识图谱增强大模型问答范式

智源社区

355

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

智源社区

391

清华大学车辆学院李升波|强化学习，让自动驾驶汽车自我进化，越开越好

智源社区

986

斯坦福??????-?-??????，迭代生成草图

智源社区

542

技能 | 三种主流的深度学习模型部署框架

智源社区

544

【ECCV-2020】通过最小化逆动力学分歧来实现从观察中模仿学习 Consensus-Aware Visual-Semantic Embedding for Image-Text Matching

智源社区

600

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2025 Ai导航鄂ICP备2023001728号