丨目录:
· 摘要
· 背景
· 问题定义与MDP建模
· CBRL: 课程引导的贝叶斯强化学习框架
· 实验
· 总结与展望
· 参考文献
1. 摘要
实时广告竞价(Real-Time Bidding, RTB)是互联网在线广告中的核心问题之一,也是实现流量高效分配和广告定向投放的重要机制之一。为了在RTB中获得期望的广告投放效果,商家广告主通常需要采用竞价策略来满足多样化的需求。其中投入产出比(Return-on-Investment,ROI)约束是效果类广告主非常关注的一类诉求。我们发现,由于 ROI 非单调下降的特点,以及 ROI 约束与优化目标间常出现的跷跷板效应,约束竞价问题中 ROI 约束常难以满足。这一点在市场环境多变且存在外部博弈的投放场景上尤为显著和棘手。过去的工作由于通常假设市场环境相对稳定不变,其所设计的竞价策略难以在非稳态和部分观测下的广告市场中平衡好约束和目标最大化之间的权衡。本文探讨了非稳态市场下的 ROI 约束广告竞价问题。我们提出了部分可观测约束的 MDP 建模方式,利用了示性函数不引入额外参数地处理约束条件,开发了一个由课程引导的贝叶斯强化学习(Curriculum-Guided Bayesian Reinforcement Learning,以下简称CBRL)框架来数据驱动地学习竞价策略,该方法能够在非稳态的广告市场中,自适应地调节约束条件和目标之间的权衡。大量的实验结果验证了该方法在稳定性、学习效率、分布内和分布外泛化能力上的优越表现。基于该项工作整理的论文已经发表在 KDD 2022,欢迎感兴趣的同学阅读交流。
论文:ROI-Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning
下载(点击↓阅读原文):https://dl.acm.org/doi/abs/10.1145/3534678.3539211
2. 背景
实时广告竞价(RTB[1])已经成为互联网流量商业化的重要渠道之一,它服务于大量效果类广告主,其每日吞吐流量可以超过万亿级。在 RTB 中,每一条流量均会触发一次用户的广告展现机会,不同的商家通过程序化出价代理(programmatic buying agents)参与到广告展现触发的在线拍卖中。在这样实时在线的序列化广告竞价过程中,广告主的诉求通常是最大化目标投放效果并且满足预算等金融性约束。在各种需求中,效果类广告主关注的一类诉求通常是投入产出比(ROI)约束。ROI 计算了单位成本的(各种类型的)回报,例如单位成本的点击数(Click per Cost, CPC)等,可以直观地反映金融资源的使用效率。
ROI 约束下的竞价问题具有一些独特的挑战。一方面,ROI 分子上的效用和分母上的成本可以以不同的速率变化,因此 ROI 是非单调的,而过去针对预算约束竞价问题设计的方法(详见[2]的调研)基于预算单调性导出的pacing策略往往不适合直接用于处理 ROI 约束。另一方面,由于效用与成本随出价提高而增长的速率不同,ROI 约束与最大化目标之间通常存在跷跷板效应,而这一现象在市场环境多变且存在外部博弈的站外投放场景尤为显著和棘手。尽管近期有一些工作[3]提出通过引入额外超参数来显式地控制约束目标权衡,但是它们通常假设静态或者相对稳定的市场环境,所设计的算法无法适用于更加动态变化的市场环境。更为严峻地是,广告主仅能通过扣费来感知市场的变化(例如对手策略的变化、媒体拍卖机制的变化),使得竞价策略难以针对性地调整。
针对这样非稳态市场下的 ROI 约束竞价问题,我们提出了一个部分观测约束的 MDP 建模,并且介绍了一种采用硬间隔来处理非单调约束的方法。该方法利用示性函数来处理约束条件,并开发了一个课程引导的贝叶斯强化学习(Curriculum-Guided Bayesian Reinforcement Learning,简称CBRL)框架来进行高效的策略学习以及约束目标权衡的自适应控制。我们在工业场景真实数据的不同问题设定上验证了 CBRL 在稳定性、学习效率、分布内和分布外泛化能力的优越表现。
3. 问题定义与MDP建模
3.1 ROI-Constrained Bidding

本文研究的 ROI 约束竞价问题(ROI-Constrained Bidding, RCB)具体指,在确定的时间