▐ 摘要
大规模博弈环境中的决策智能是人工智能领域内的重要研究方向,对实际应用具有深远影响。然而,由于缺乏全面且真实的博弈环境及相关数据集,这一领域的进展受到了限制。为了解决这一问题,本文提出了一种基于在线广告行业的自动出价决策问题的Benchmark,并命名为AuctionNet。AuctionNet包括一个大规模广告竞拍环境、基于该环境预生成的数据集以及几种基础出价决策算法的效果评估。广告竞拍环境通过深度生成式模型生成广告流量数据,旨在缩小仿真环境与现实问题之间的差距,同时避免敏感数据暴露的风险。数据集中包含了48个不同出价智能体相互竞价的日志,可帮助出价模型更好的训练。这个数据集共有5亿条记录,共计80GB。AuctionNet已应用于NeurIPS 2024竞赛,为1500支队伍提供了近万次准确、公正的算法效果评估,并帮助选手研发更多元、创新性的解决方案。AuctionNet不仅适用于广告拍卖中的出价决策算法研究,也适用于大型博弈场景的决策智能算法研究。
论文:AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games
作者:Kefan Su, Yusen Huo, Zhilin Zhang, Shuai Dou, Chuan Yu, Jian Xu, Zongqing Lu, Bo Zheng
发表会议:NeurIPS 2024 Datasets and Benchmarks Track(Spotlight)
论文下载:https://arxiv.org/abs/2412.10798
代码地址:https://github.com/alimama-tech/AuctionNet
1. 引言
在人工智能领域,大规模博弈中的决策问题是一个基础性的研究方向。在大规模博弈中,智能体需要在竞争环境下,在特定约束条件下做出正确的决策以实现其目标。智能决策的研究进展对广泛的现实应用产生了深远影响。在线广告是其中一种代表性的应用。其市场规模在2023年超过6000亿美元。这一领域需要在大规模博弈中运用复杂的决策技术。具体来说,在线广告系统主要通过流量拍卖的方式实现广告投放。而自动出价技术是衍生于这一场景的一项重要技术。如图1所示,自动出价的智能体代表广告主对大量持续到来的广告流量进行出价,目标是在满足特定约束条件(如投资回报率ROI)的前提下实现效益最大化。

大规模广告拍卖中的出价决策是大规模博弈决策的一个典型例子。然而,研究人员通常只能有限地访问到真实的大规模广告竞拍环境,这一现状会对该领域的研究造成阻碍。尽管业界已经有了部分工作旨在为研究者提供一个仿真环境,但此类仿真环境大都无法对广告系统中的复杂的流量分布及博弈行为进行很好的描述,且可扩展性不足,无法很好支持研究者对问题进行广泛的研究。
在本文中,我们提出了AuctionNet——源自真实在线广告平台的大规模广告出价决策基准。AuctionNet由三个部分组成:广告竞拍环境、基于该环境的预生成数据集以及对几种基线出价决策算法的性能评估。具体来说,该环境通过多个模块的交互,有效地复制了真实世界广告竞价的完整性和复杂性:广告流量生成模块基于深度生成式模型。这种方法可以缩小模拟数据和真实世界数据之间的差距,同时降低敏感数据暴露的风险;出价模块实现了使用不同决策算法训练的多样化;拍卖机制模块基于广义二价(GSP)拍卖机制,同时也允许根据需要定制拍卖机制。为了促进研究并提供对博弈环境的深入了解,我们还基于该环境预生成了一个大型数据集。该数据集包含48个不同的智能体相互竞争的轨迹,总计超过5亿条记录,大小达80GB。作为AuctionNet的一部分,我们还提供了线性规划、强化学习和生成式模型等基线算法在出价决策方面的性能评估。
2. 问题建模
在本文中,我们使用部分可观测随机博弈(POSG)来构建这个问题。在POSG中, = 表示一个元组,其中 表示所有智能体的集合, 为时间范围,即一个周期所对应的时间步数, 表示状态空间, 为动作空间, 为转移概率, 表示折扣因子,表示观测空间, 表示对每个智能体 从状态到观测的映射, 是所有智能体的联合奖励函数, 是每个智能体 的个体奖励函数,其中 是所有智能体的联合动作。
具体来说,在一个时间步内的交互过程如下:状态 由预算 、广告流量特征 、广告主特征 (如行业类别)以及相应的价值矩阵 组成,其中 表示广告流量 对智能体 的价值。智能体 的观察值 仅包含状态 中的部分信息,即智能体 可能不知道其他智能体的预算。基于自动出价领域的已有结论,智能体对流量的出价可以被表示为一个出价系数与流量价值的乘积。因此,在这个时间步内智能体对所有广告流量的出价为 ,其中是这个时间步长内的广告流量数量。给定所有智能体的出价,根据拍卖机制的决定,智能体将收到拍卖结果,其中当且仅当智能体赢得流量时,。智能体只会从赢得的流量中获得奖励并付出成本,即奖励以及成本。因此下一个时间步的预算,其中是展示对智能体的成本。
以典型的自动出价场景为例,根据上述定义,从智能体的角度来看,优化目标如下:
其中 ,,, 是智能体 的预算,表示内积。在实现的时候,我们构造,因此优化公式中的目标与 是相同的。
对于更复杂的场景,我们可以添加CPA约束以确保预算的有效利用。上述决策制定公式可以轻松扩展到各种现实场景中。
3. 广告竞拍环境
为了全面展示真实世界在线广告平台中的大规模博弈,我们开发了一个广告竞拍环境。为了规范自动出价过程,我们将一段时期内的广告流量划分为个决策时间步。根据目标,自动出价智能体在每个时间步依次进行出价,利用第步的结果和之前的历史信息来改进第步的策略。这种设计理念使智能体能够持续优化其出价策略,以适应不断变化的环境。在每个时间步内,所有广告流量都是独立且并行执行的。完成竞价后,环境会为智能体计算出最终得分。
这个环境通过广告流量生成模块、竞价模块和广告拍卖模块的相互作用,有效地复现了真实世界中广告拍卖的完整性和复杂性。为了更好地模拟现实中的大规模拍卖,环境中输入了大量的广告流量,并配置了数十个出价智能体。这些广告流量是通过深度生成式模型产生的,以此减少模拟环境与现实之间的差距,同时避免敏感数据泄露的风险。这些代理配备了多样化且复杂的自动竞价算法。
3.1 流量生成模块
广告流量生成模块的目标是生成与真实在线广告数据相似的多样化广告流量。如图2所示,该模块的核心是深度生成式模型。我们使用了潜在扩散模型(LDM)的方法来生成广告流量。LDM在潜在空间中添加噪声并使用扩散模型进行去噪,然后通过编码器和解码器从潜在空间生成数据。具体来说,LDM在训练过程中使用编码器将广告流量特征映射到潜在向量,并使用解码器重构这个特征。在生成时,LDM从正态分布中采样一个随机潜在向量,然后基于这个向量生成广告流量特征。令为广告流量特征数据的空间,其中是原始数据的维度,是广告流量的数量。令为潜在空间()。编码器和解码器分别表示为和,其中和是参数。编码器的功能是获取原始数据的潜在表征,即,其中且是潜在表征。在实践中,应用重参数化技巧以确保该操作在反向传播期间是可微的。
给定潜在表征 ,解码器负责从 重构原始数据,即 。除了重构之外,潜在分布 需要逼近标准高斯分布 。因此,编码器和解码器的损失函数如下:
其中 是重构损失, 是潜在分布的正则化损失。
LDM在潜在空间中使用扩散模型来生成潜在变量。扩散模型背后的思想是向原始数据添加高斯噪声以获得服从 的变量,并从 开始去噪来进行生成。
给定一个潜在变量 ,我们将其经过 次迭代后的噪声版本表示为 。扩散模型包含一个用于预测噪声的网络 ,其损失函数可以表示为:
其中, 是 的潜在空间嵌入, 是从集合 中均匀采样得到的。网络 是扩散模型中唯一可学习的组件,它通过基本操作实现了添加噪声和去噪的过程。
对于给定的广告流量特征 ,我们还需要确定这个广告流量与对应广告主类别信息 和时间信息 相结合的价值,其中 是与 相关联的真实数据中的广告主信息。我们使用多头注意力机制(Multi-head Attention, MHA)作为信息整合的网络架构。让 表示价值预测模块, 表示在特定时间步骤下,针对特定广告主的广告流量特征 的预测价值。价值预测模型的损失函数如下:
其中 是与 相关联的记录中广告流量的真实价值。
3.2 出价模块
出价模块复现了广告主之间的动态竞争。每个广告主都有不同的广告目标,并使用独立的自动出价智能体,同时对其竞争对手的策略并不了解。研究人员可以控制环境中的部分智能体,而其他智能体则保持不受控制。这种设置可以更好地反映现实世界在线广告中复杂且动态的博弈过程。
3.3 拍卖机制模块
广告拍卖模块的任务是根据智能体对广告流量的所有出价来确定赢家和中标价格。根据不同的拍卖规则,智能体的成本会有所不同。基于常见的GSP拍卖,获胜者会以第二高的出价而非最高出价来支付。为了方便研究人员进行研究,拍卖模块内部支持包括GSP在内的多种主流拍卖规则。此外,研究人员可以使用拍卖模块的接口设计特定的拍卖规则以满足他们的研究目的。
此外,环境中实现了多坑的属性。多坑源于工业应用,意味着单个广告流量可能有多个广告坑位用于展示。具有较高曝光率的广告坑位对广告主来说更有价值。假设广告位数量为,那么拍卖模块将把个广告位分配给出价最高的个出价者,这些出价者将根据广告位不同的曝光率获得不同的价值。总的来说,多广告位特性增加了最优出价策略的复杂性,因为曝光率作为折扣因子同时影响成本和价值。
4. 预生成数据集
为了更好地证明生成的数据能够反映真实世界数据的特性,我们对广告流量生成模块本身的有效性进行了验证。广告流量生成模块包含两个组成部分:特征生成式模型和价值预测模型。我们进行了实验来验证这些模型的有效性。
我们随机抽样了10万个真实世界在线广告数据点,并与10万个生成的数据点进行比较。首先,我们使用PCA(主成分分析)来可视化真实数据和生成数据之间的相似性。3D PCA结果如图3所示。为了更好地展示,我们在3D空间中使用了六个不同的视角。我们观察到生成的数据在3D空间中与原始数据重叠。此外,生成的数据点在3D空间中形成了四个主要的独立簇,这与真实世界的数据点类似。这些可视化结果表明,生成的数据总体上与真实世界的数据相似。
为了进一步比较这两个数据集,我们研究了两个数据集中身份信息和消费行为信息的数值分布。实证结果如图4所示。对比真实数据和生成数据中个人信息相关特征的取值分布:可以发现在年龄、会员等级、偏好的手机价格区间等具体的特征上,生成数据的分布和真实数据的分布虽然略有差异,但在大体上仍是相似的。
在图5中,我们对比了真实数据和生成数据中消费行为相关特征的取值分布:在统计消费行为的相关特征上,我们可以发现生成数据和真实数据都呈现出“长尾分布”,即绝大部分消费者的消费行为都比较稀疏,而存在小部分的消费者消费行为较为频繁,这也符合相关行业观察到的现实规律。
实验结果表明,生成数据在总体上与真实数据相似。
该数据集源自博弈环境中生成的数据,其中多个自动出价智能体相互竞争。我们已经预先生成了大规模的博弈数据,以帮助研究人员更深入地了解竞价系统。这些数据可用于对环境建模和有效训练自动出价智能体。
数据集包含21个广告投放周期,每个周期包含超过500,000个广告流量,并被分为48个步骤。每个流量都包含出价最高的前48个智能体(注:真实世界的数据表明,48个智能体可以确保自动出价智能体训练时的竞争压力)。
数据集包含超过5亿条记录,总计80GB大小。每条记录包含预测价值、出价、拍卖和展示结果等信息。
5. 评估
基线算法的性能对比
在实验部分,论文评估了多种基线算法在AuctionNet环境中的性能,包括PID Controller、Online LP、IQL、BC和Decision Transformer。值得注意的是,我们使用了论文中的原始算法,并没有在自动出价任务对这些方法做特殊的优化。实验结果如图6所示。为了更好地说明问题,我们将所有基线方法的性能用启发式基线Abid的平均周期奖励进行归一化。因此,在基础任务中,Abid的平均相对性能为。Online LP取得了最佳性能,这可能是因为它相对稳健,无需为自动出价任务进行特殊适应就能取得良好效果。虽然IQL、BC等方法的表现不如Online LP,但我们观察业界有在这些算法基础上针对自动出价问题提出了一些新的解法(如AIGB)并有显著效果提升,证明了这类方法具有巨大的优化潜力。此外,在目标CPA任务中所有基线方法的奖励下降是由于超出约束而产生的CPA惩罚所致。
6. 在NeurIPS比赛上的应用
AuctionNet 被应用于 🔗NeurIPS 2024 竞赛“Auto-Bidding in Large-Scale Auctions” 中。该竞赛解决了在不确定和竞争环境中进行高频出价决策的关键问题,历时 3 个月并有来自全球 1500 多支队伍参与其中。竞赛中使用的广告竞拍环境、数据集和基线出价决策算法均源自该Benchmark。广告竞拍环境为竞赛提供了近万次评估,为参赛者提供了准确、公平的效果评估。数据集和基线算法使参赛者能够快速启动任务并激发他们的创造力,从而产生更多样化和创新的解决方案,推动该领域的技术发展。
7. 开源代码
我们将这个benchmark的代码开源出来,希望能加速这个领域的技术突破。
8. 总结
AuctionNet环境仍然存在一定的局限性,包括生成数据与真实数据之间的偏差并没有完全得到解决,以及AuctionNet环境的计算速度仍然偏慢,有待进一步优化。尽管如此,AuctionNet环境和数据集仍然为大规模博弈决策的研究提供了一个有价值的工具。这不仅为研究人员提供了在大规模拍卖中研究自动出价算法的机会,也可以帮助博弈论、强化学习、生成模型、运筹学等领域的研究人员和实践者解决各种决策研究问题。
END
也许你还想看:
丨把1个脑洞发展成1场顶会workshop,阿里妈妈只用了1年|直击NeurIPS'24
丨Bidding模型训练新范式:阿里妈妈生成式出价模型(AIGB)详解
丨AIGB:基于生成式模型的自动出价优化新范式
丨NeurIPS 2024:阿里妈妈主办的“大规模拍卖中的自动出价”线上赛收官,获奖队伍即将揭晓!
丨全球顶尖团队云集,报名超1500支,阿里妈妈主办的NeurIPS比赛争夺激烈
丨阿里妈妈给出了什么样的赛题,被顶会NeurIPS 2024 pick了?
关注「阿里妈妈技术」,了解更多~
喜欢要“分享”,好看要“点赞”哦ღ~