对这次分享主题感兴趣的小伙伴,欢迎在文末留言提问,
我们会收集有价值的问题,请嘉宾在直播中亲自解答。
诚邀您填写以下问卷,分享关于直播的宝贵意见!
『运筹OR帷幄』TechTalk NO. 41:
主题:当A/B实验平台遇上强化学习
关键词:
-
技术:A/B测试;实验干扰(interference);Off-Policy Evaluation;强化学习
-
应用:抖音;共享汽车
本期TechTalk简介:
主题:当A/B实验平台遇上强化学习
在当今互联网时代,A/B测试已被奉为评估算法效果的黄金标准。然而,Interference问题(即不同实验单元相互影响的现象)却一直是A/B测试中的一大挑战。这一问题的存在使得业界投入巨大资金构建的实验平台的测试结果变得不再可靠。为了克服Interference问题,我们提出了一种基于强化学习框架的创新方案,用于重新审视A/B测试。该方案通过求解强化学习中的Q值的差分来估计treatment effect,因此我们将其命名为“Difference-in-Q”(简称DQ)estimator。从理论角度看,我们发现DQ在bias-variance trade-off方面表现出色:一方面,DQ显著减少了传统estimator的bias;另一方面,DQ的variance较任何unbias estimator都可以实现指数级的缩减。我们与抖音公司合作,将DQ应用于大规模商业场景,在初步测试中,其均方误差减少了超过99%。同时,在商业级共享汽车模拟器中,DQ也展现出了卓越的性能。在本次演讲中,我将介绍DQ的理论与实践,并探讨下一代智能实验平台的设计与展望。
嘉宾介绍:
彭天翼
相关资料
[1] Farias, Vivek, Andrew Li, Tianyi Peng, and Andrew Zheng. “Markovian interference in experiments.” *Advances in Neural Information Processing Systems* 35 (2022): 535-549.
[2] Farias, Vivek F., Hao Li, Tianyi Peng, Xinyuyang Ren, Huawei Zhang, and Andrew Zheng. “Correcting for Interference in Experiments: A Case Study at Douyin.” *Accepted by RecSys 2023.*
直播地址
往期直播及相关推文:
专访|华人运筹学新星、MIT博士生 彭天翼:协助全球最大啤酒生产集团进行销售决策
OM | 美团配送A/B评估体系建设与实践
初识滴滴交易策略之一:交易市场
嘉宾招募:
直播组诚邀各位嘉宾坐客直播间参与Tech talk,分享您的经验与故事!无论您是来自学界还是业界,甚至代表个人,只要您有经验,有技术,爱分享,爱OR|DS|AI,『运筹OR帷幄』直播间都欢迎您的到来!
『运筹OR帷幄』嘉宾招募
直播系列嘉宾招募令
微信公众号后台回复
加群:加入全球华人OR|AI|DS社区硕博微信学术群
资料:免费获得大量运筹学相关学习资料
人才库:加入运筹精英人才库,获得独家职位推荐
电子书:免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书,持续更新中ing…
加入我们:加入「运筹OR帷幄」,参与内容创作平台运营
知识星球:加入「运筹OR帷幄」数据算法社区,免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动,与数百位签约大V进行在线交流
文章须知
文案:Ano、谢倩
责任编辑:谢倩、唐懿、陆彬
美编:Amy Wang
技术:小王
微信编辑:疑疑
文章由『运筹OR帷幄』原创发布
如需转载请在公众号后台获取转载须知
关注我们
FOLLOW US