直播预告 [周日上午10点]｜哥大彭天翼：当A/B实验平台遇上强化学习「TechTalk 41」

强化学习2年前 (2023)发布智源社区

536 0 0

对这次分享主题感兴趣的小伙伴，欢迎在文末留言提问，

我们会收集有价值的问题，请嘉宾在直播中亲自解答。

诚邀您填写以下问卷，分享关于直播的宝贵意见！

直播预告 [周日上午10点]｜哥大彭天翼：当A/B实验平台遇上强化学习「TechTalk 41」

『运筹OR帷幄』TechTalk NO. 41：

主题：当A/B实验平台遇上强化学习

嘉宾：彭天翼哥伦比亚大学商学院决策风险与运筹系助教教授（拟入职）

关键词：

技术：A/B测试；实验干扰(interference)；Off-Policy Evaluation；强化学习
应用：抖音；共享汽车

时间：2023 年 9 月 3 号（周日）北京时间早上 10：00

本期TechTalk简介：

主题：当A/B实验平台遇上强化学习

内容简介：

在当今互联网时代，A/B测试已被奉为评估算法效果的黄金标准。然而，Interference问题（即不同实验单元相互影响的现象）却一直是A/B测试中的一大挑战。这一问题的存在使得业界投入巨大资金构建的实验平台的测试结果变得不再可靠。为了克服Interference问题，我们提出了一种基于强化学习框架的创新方案，用于重新审视A/B测试。该方案通过求解强化学习中的Q值的差分来估计treatment effect，因此我们将其命名为“Difference-in-Q”（简称DQ）estimator。从理论角度看，我们发现DQ在bias-variance trade-off方面表现出色：一方面，DQ显著减少了传统estimator的bias；另一方面，DQ的variance较任何unbias estimator都可以实现指数级的缩减。我们与抖音公司合作，将DQ应用于大规模商业场景，在初步测试中，其均方误差减少了超过99%。同时，在商业级共享汽车模拟器中，DQ也展现出了卓越的性能。在本次演讲中，我将介绍DQ的理论与实践，并探讨下一代智能实验平台的设计与展望。

嘉宾介绍：

直播预告 [周日上午10点]｜哥大彭天翼：当A/B实验平台遇上强化学习「TechTalk 41」

彭天翼

哥伦比亚大学商学院决策风险与运筹系助教教授（拟入职）。他于2023年取得麻省理工学院博士学位，2017年毕业于清华大学姚班。现于Cimulate.AI担任首席人工智能研究员。他的研究兴趣聚焦于生成式人工智能，强化学习，和因果推断。他喜欢关注前沿理论问题在实际问题中的应用，并曾与字节跳动，百威啤酒，the Broad Institute等公司展开合作。他曾获得INFORMS Daniel H. Wagner实践卓越奖，Applied Probability Society Best Student Prize，RMP Jeff McGill Student Paper Award，和MSOM Best Student Prize Finalist。

相关资料

[1] Farias, Vivek, Andrew Li, Tianyi Peng, and Andrew Zheng. “Markovian interference in experiments.” *Advances in Neural Information Processing Systems* 35 (2022): 535-549.

[2] Farias, Vivek F., Hao Li, Tianyi Peng, Xinyuyang Ren, Huawei Zhang, and Andrew Zheng. “Correcting for Interference in Experiments: A Case Study at Douyin.” *Accepted by RecSys 2023.*

直播地址

关注下方公众号，后台回复 TechTalk ，可获取直播地址和往期录播资源~