Loading...

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

强化学习1年前 (2023)发布 智源社区
425 0 0

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

对这次分享主题感兴趣的小伙伴,欢迎在文末留言提问

我们会收集有价值的问题,请嘉宾在直播中亲自解答。

诚邀您填写以下问卷,分享关于直播的宝贵意见!

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

『运筹OR帷幄』TechTalk NO. 41:

主题当A/B实验平台遇上强化学习

嘉宾彭天翼 哥伦比亚大学商学院决策风险与运筹系助教教授(拟入职)

关键词

  • 技术:A/B测试;实验干扰(interference);Off-Policy Evaluation;强化学习

  • 应用:抖音;共享汽车

时间2023 年 9 月 3 号(周日)北京时间 早上 10:00

本期TechTalk简介:

主题:当A/B实验平台遇上强化学习

内容简介:

在当今互联网时代,A/B测试已被奉为评估算法效果的黄金标准。然而,Interference问题(即不同实验单元相互影响的现象)却一直是A/B测试中的一大挑战。这一问题的存在使得业界投入巨大资金构建的实验平台的测试结果变得不再可靠。为了克服Interference问题,我们提出了一种基于强化学习框架的创新方案,用于重新审视A/B测试。该方案通过求解强化学习中的Q值的差分来估计treatment effect,因此我们将其命名为“Difference-in-Q”(简称DQ)estimator。从理论角度看,我们发现DQ在bias-variance trade-off方面表现出色:一方面,DQ显著减少了传统estimator的bias;另一方面,DQ的variance较任何unbias estimator都可以实现指数级的缩减。我们与抖音公司合作,将DQ应用于大规模商业场景,在初步测试中,其均方误差减少了超过99%。同时,在商业级共享汽车模拟器中,DQ也展现出了卓越的性能。在本次演讲中,我将介绍DQ的理论与实践,并探讨下一代智能实验平台的设计与展望。

嘉宾介绍:

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

彭天翼

哥伦比亚大学商学院决策风险与运筹系助教教授(拟入职)。他于2023年取得麻省理工学院博士学位,2017年毕业于清华大学姚班。现于Cimulate.AI担任首席人工智能研究员。他的研究兴趣聚焦于生成式人工智能,强化学习,和因果推断。他喜欢关注前沿理论问题在实际问题中的应用,并曾与字节跳动,百威啤酒,the Broad Institute等公司展开合作。他曾获得INFORMS Daniel H. Wagner实践卓越奖,Applied Probability Society Best Student Prize,RMP Jeff McGill Student Paper Award,和MSOM Best Student Prize Finalist。

相关资料

[1] Farias, Vivek, Andrew Li, Tianyi Peng, and Andrew Zheng. “Markovian interference in experiments.” *Advances in Neural Information Processing Systems* 35 (2022): 535-549.

[2] Farias, Vivek F., Hao Li, Tianyi Peng, Xinyuyang Ren, Huawei Zhang, and Andrew Zheng. “Correcting for Interference in Experiments: A Case Study at Douyin.” *Accepted by RecSys 2023.*

直播地址

关注下方公众号,后台回复 TechTalk ,可获取直播地址和往期录播资源~
直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

往期直播及相关推文:

专访|华人运筹学新星、MIT博士生 彭天翼:协助全球最大啤酒生产集团进行销售决策

OM | 美团配送A/B评估体系建设与实践

初识滴滴交易策略之一:交易市场

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

嘉宾招募:

直播组诚邀各位嘉宾坐客直播间参与Tech talk,分享您的经验与故事!无论您是来自学界还是业界,甚至代表个人,只要您有经验,有技术,爱分享,爱OR|DS|AI,『运筹OR帷幄』直播间都欢迎您的到来!

『运筹OR帷幄』嘉宾招募

直播系列嘉宾招募令

微信公众号后台回复

加群:加入全球华人OR|AI|DS社区硕博微信学术群

资料:免费获得大量运筹学相关学习资料

人才库:加入运筹精英人才库,获得独家职位推荐

电子书:免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书,持续更新中ing…

加入我们:加入「运筹OR帷幄」,参与内容创作平台运营

知识星球:加入「运筹OR帷幄」数据算法社区,免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动,与数百位签约大V进行在线交流

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

文章须知

文案:Ano、谢倩

责任编辑:谢倩、唐懿、陆彬

美编:Amy Wang

技术:小王

微信编辑:疑疑

文章由『运筹OR帷幄』原创发布

如需转载请在公众号后台获取转载须知

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

关注我们 

       FOLLOW US

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」

直播预告 [周日上午10点]|哥大 彭天翼:当A/B实验平台遇上强化学习 「TechTalk 41」
© 版权声明

相关文章

暂无评论

暂无评论...