`

Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets

创建于 更新于

摘要

本报告研究基于人工智能算法的两边市场中的价格串通,重点分析了使用Q-learning算法的AI代理如何在考虑网络外部性时实现默契串通。实验显示,AI驱动的平台比传统伯特兰竞争展示出更高的串通水平,正的网络外部性显著加强串通,而用户异质性和较高的外部选项效用通常削弱串通;折现率对串通水平的提升作用明显,即使在较低折现率下串通依然可行。为抑制算法串通,提出通过惩罚项调整Q-learning奖励的政策建议 [page::0][page::1][page::7][page::8][page::11][page::14][page::21][page::22]

速读内容

  • 研究模型与算法设计 [page::2][page::3][page::5][page::6]:

- 建立了一个两边市场平台竞争模型,用户基于价格和网络外部性选择平台,平台通过Q-learning算法调整价格以最大化折现利润。
- Q-learning采用状态为上一时刻价格的有限记忆,动作空间较传统模型更大,允许更多信息交流,从而可能促进串通。
  • 网络外部性对串通水平的影响 [page::7][page::8][page::9][page::10][page::11][page::12][page::13]:


- 内侧(同侧)正向外部性($\phi{bb}, \phi{ss}$)超过1时,串通水平迅速上升并趋于平稳,高负值时串通有异常状态。
- 跨侧外部性($\phi{bs}, \phi{sb}$)对串通呈J型函数,外部性绝对值较大时促进串通。

- 当内外部性同时正且较大时,部分二元效应对串通产生负贡献,但总体仍较高。

- 特定组合下,内侧与跨侧外部性强度的不同配对导致串通水平微调。
  • 市场参数对串通的调节作用 [page::14][page::15]:


- 用户异质性参数($\betak$)增大导致串通水平明显下降,异质性越小,串通越强。

- 外部选项效用$u
k^{(0)}$越高,串通水平普遍降低,提升外部选项价值可抑制串通。

- 折现率$\delta$越高,串通水平显著提升,耐心的代理更容易形成串通。
  • 异常及特殊案例分析 [page::16][page::17][page::18]:

- 存在非对称均衡情形,局部条件下异构价格下串通水平可能高于对称均衡。

- 特殊参数条件下,跨侧外部性为负且绝对值较大,串通水平远超基线,甚至达到数倍。
- 也观察到一边市场竞争价格高于串通价格的罕见现象,表明串通价格可能低于竞争价格。

  • 量化因子或策略生成总结 [page::6][page::7]:

- 本研究构建的Q-learning施行策略以状态为前期价格,动作为空间内的离散价格对,两平台独立学习,采用软最大策略(Boltzmann分布)选择价格,随着时间调整学习率和温度参数促进探索与利用平衡。
- 利用增量更新Q函数的公式,以奖励加折现未来最大Q值减去可能的惩罚项为信号,强化策略更新。
- 该框架高效捕捉平台多角价格策略动态,揭示AI算法驱动下的默契串通机制。

  • 防范策略及政策建议 [page::21][page::22]:

- 针对AI驱动的串通风险,报告建议引入惩罚系数$\rho$,对Q-learning中超过市场均价的定价行为施加惩罚项,以降低串通激励。

- 通过调节惩罚力度$\rho$,可将串通水平降低至基线竞争水平,形成可控的监管工具。
- 当前美国《防止算法串通法案》(S.3686)聚焦非公开竞争数据,未覆盖仅基于公开信息学习的串通,故该惩罚策略具实际政策参考价值。
  • 收敛性与稳健性验证(附录A) [page::25至末页]:

- 进行了广泛的灵敏度分析,涵盖对称与非对称循环行为,表明多数模拟达成某种稳态策略,且其行为与纳什均衡或子博弈完美均衡一致。
- 行为表现出周期性、逼近边缘价格并具有惩罚与奖励机制特征,验证Q-learning在本模型中可实现稳定且有效的默契串通。


深度阅读

《Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets》研究报告详尽分析



---

1. 元数据与概览


  • 标题: Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets

- 作者: Cristian Chica, Yinglong Guo, Gilad Lerman
  • 发布日期: 2024年7月8日

- 主题: 探讨运用强化学习算法(尤其是$\boldsymbol{Q}$-learning)驱动的人工智能(AI)在双边市场中的价格默契合谋行为及其影响因素。
  • 核心论点: 本文通过实验模拟研究了AI代理如何在双边市场中通过强化学习自动达成默契合谋,其结果显示AI平台相较于传统的贝特朗竞争展现更强的合谋倾向。网络外部性显著增强了合谋水平,而用户异质性和外部市场效用会抑制合谋。此外,合谋即使在低折现率下也能持续存在。作者建议通过在$Q$-learning算法中引入惩罚机制以减少合谋行为。


---

2. 逐节深度解读



2.1 引言与研究背景(第0-1页)


  • 关键内容:

- 算法驱动的价格合谋是利用AI算法自动调整价格以实现默契合谋的现象,已被经济学界和反垄断机构广泛关注。
- 相关立法(如2024年美国参议员Amy Klobuchar提出的《防止算法合谋法案》)已在推进针对使用非公开竞争者数据进行价格定价算法的限制。
- 以往研究(Calvano等,2020年;Klein,2021年)通过$Q$-learning在贝特朗及博弈模型中证明存在默契合谋。本文则创新性地将此类研究扩展到双边平台竞争模型,考察网络外部性的影响。
  • 核心论据和贡献:

- 多平台、双边市场的博弈模型,平台通过$Q$-learning自主定价且记忆限制于上一期价格,从而实现"一记忆策略"。
- 作者的模拟实验发现,即使在无网络外部性的时候,AI驱动平台合谋程度也高于传统贝特朗竞争。网络外部性尤其是正向的同侧和跨侧(买家和卖家两侧)外部性可以显著提高合谋水平。
- 用户的异质性和强大的外部市场效用通常降低合谋,但折现率提升则相反。
- 提出通过引入惩罚项控制$Q$-learning奖励函数,以抑制合谋。

2.2 经济模型框架(第2-4页)


  • 模型结构:

- 双阶段模型,阶段1平台选择买家和卖家两侧价格;阶段2用户根据价格及效用函数选择加入平台或退出。
- 平台之间存在横向差异化,用户效用包括基线效用、价格负担、网络外部性(线性形式,矩阵$\Phi$描述四种效应:买-买($\phi{bb}$)、买-卖($\phi{bs}$)、卖-买($\phi{sb}$)、卖-卖($\phi{ss}$))。
- 用户偏好建模为Gumbel分布(典型的随机效用模型),用户数量端生并通过最大化效用确定。
  • 利 润函数:

- 竞争利润最大化对应Nash均衡($p^$),合谋情况下平台通过联合最大化利润获得合谋价格($p^C$)。
- 报告中引用了Chica等(2023)关于存在与唯一性条件的相关理论支撑,确保模型的解的合理性和对称性。
  • 重复博弈设置:

- 无限重复时间,平台观察历史价格(状态)并基于策略$\sigmat$选择价格,用户是“近视”的,价格只影响当前效用。
- 平台优化未来贴现收益(折现率$\delta$),但对其他平台策略未知,价格视为随机变量。
- $Q$-learning作为优化工具引入,辅助学习最优策略以提高长期贴现利润。
  • 图示说明:

- 图1清晰总结了重复博弈每一步骤的时序交互,包括平台定价、用户响应、利润产生和策略更新,体现了模型动态性和学习机制。

2.3 多智能体强化学习及仿真框架(第5-7页)


  • 强化学习基础:

- 多智能体系统中,每一智能体(平台)根据状态选择动作以最大化期望折现回报。
- $Q$-函数定义为状态-动作对的价值函数,满足Bellman最优方程,是策略学习的核心。
- 使用温度参数$\mathcal{T}
t$实现策略的软最大化,兼顾探索与利用。
  • 仿真设置:

- 双平台市场($N=2$),状态空间为前一时刻两个平台两个价格向量,动作空间为单个平台两个价格。
- 价格空间从竞争均衡价$p^
$和合谋价$p^C$附近抽取离散网格($M$个价格),扩展保障最低价低于最小均衡价,最高价高于最大均衡价以确保策略空间覆盖。
- 采用软博尔兹曼概率分布选择价格,训练$Q$-函数估计,逐次迭代更新。
- 仿真规模巨大,包含$5\times10^8$个迭代步,使用最后部分时间窗口计算合谋程度$\tilde{\Delta}$作为评价指标。
  • 合谋水平定义:

- $\Deltat^{(i)}$定义为某平台第$t$时刻利润相较于竞争利润与合谋利润的标准化距离,便于衡量合谋强度。
- $\tilde{\Delta}$为近终期平均合谋水平,作为实验整体汇总指标。

2.4 实验结果综述(第7-18页)


  • 合谋水平与网络外部性关系(4.1节):

- 通过随机抽样$\Phi$矩阵元素符合标准正态,利用XGBoost拟合非线性函数揭示四个单变量函数和六个二变量函数对合谋水平的影响。
- 单变量影响:
- $\phi
{bb}$和$\phi{ss}$(同侧外部性)低于1时合谋水平较低,超过1后合谋急剧上升,在2以上趋于平缓;存在细微迹象提示,极端负值时合谋或有增加。
- $\phi
{bs}$和$\phi{sb}$(跨侧外部性)呈“J”形影响,合谋谷底处于0鄰近,绝对值越大合谋水平越高。
- 双变量影响(热力图展示):
- 两个同侧外部性同时正值时,双变量项导致合谋略有降低,但整体合谋仍正。两负时双变量同样减少合谋,总体效应趋中和。
- 两个跨侧外部性同号且绝对值大提高合谋,不同号则抑制合谋。
- 跨侧与同侧外部性组合关系较复杂,但某些情况下负同侧外部性与正跨侧外部性可降低合谋。
  • 特殊网络外部性案例(4.2节):

- 详细分析单一非零元素和特定矩阵形态影响。
- 发现与4.1节一致的“J”形和临界点效应。
- 当仅一侧存在外部性时,合谋水平可能下降或保持基线。
- 跨侧正外部性强烈促进合谋,尤其当两跨侧外部性相等且为正。
- 当一个外部性为强正,另一个为负,合谋水平受抑。
- 例子与实际市场对应:
- 在线游戏等同侧外部性显著市场,可能出现高于贝特朗竞争的合谋;
- 视频流媒体、社交媒体等跨侧外部性市场同样易促使合谋;
- 打车市场因异质性和外部性特点,合谋靠近基线水平。
  • 市场参数影响(4.3节):

- 用户异质性($\beta
k$): 合谋水平随用户偏好异质性增加急剧下降,异质性高时合谋水平维持在较低平稳状态。
- 外部选项效用 ($uk^{(0)}$): 外部选项效用增加,使合谋水平下降,抑制平台市场力量。
- 折现率 ($\delta$): 合谋水平随折现率增加而升高,显示更注重未来利润的策略更易维持合谋。具有网络外部性时合谋目标更快达成。
- 这些结果为市场监管与策略设计提供重要切入点。
  • 另类情况探讨(4.4节):

- 发现存在不对称合谋均衡,合谋水平可能超过对称均衡,尤其在网络外部性为正负交错时。
- 部分价格竞争价格甚至超过合谋价格的异常现象,打破传统定价直觉,需基于$\Phi$矩阵参数深度理解。
- 这些极端情况仍受限于特定参数区间,但提醒模型及政策设计需关注边缘案例。

---

3. 图表深度解读



图1(第4页)


  • 描述: 示意无限重复博弈各阶段操作流程,树立观察、决策、反馈的循环框架。

- 解读: 展现两个平台根据上一期定价,用户响应并形成利润,平台基于历史数据更新策略的过程。强调了策略的自适应简洁记忆(只用前一期价格作为状态)。
  • 联系文本: 帮助理解第2.2节无限重复游戏动态机制。


---

图2(第8页)


  • 描述: 四个子图分别为同侧外部性$\phi{bb}$、$\phi{ss}$和跨侧外部性$\phi{bs}$、$\phi{sb}$对合谋水平的单变量影响曲线。

- 解读:
- 同侧外部性超过约1时,合谋水平快速上升并趋于平缓,可能负向极端情形也略增合谋;
- 跨侧外部性表现为典型J形,0附近合谋最低,绝对值变大合谋增强。
  • 联系文本: 说明网络外部性如何驱动合谋强度变化,具体数值约束可指导市场监管。


---

图3-5(第9至11页)


  • 描述: 以热力图形式展示不同网络外部性元素组合的双变量对合谋的联合影响。

- 解读:
- 图3显示正向同侧外部性两者合高时双变量项反向抑制,负高时小幅抑制;跨侧同号大幅提升合谋。
- 图4、5展示同侧与跨侧外部性混合的复杂互作,正负不同组合不同影响,提示多维参数调控极其重要。
  • 联系文本: 强化对单变量描述的补充,提示实际市场可能存在复杂网络效应交叉影响。


---

图6-8(第11-13页)


  • 描述: 具体网络外部性矩阵结构变化对合谋水平影响的实证曲线,重点考察单独和复合作用。

- 解读:
- 单一非零元素时合谋表现明显J形反应,且与图2一致;
- 组合正外部性元素显著提升合谋水平;
- 负向元素存在时合谋受限甚至下降。
  • 联系文本: 具体验证此前非线性拟合函数的合理性及区域性限制。


---

图9-11(第14-15页)


  • 描述: 市场参数$\betak$、$uk^{(0)}$及$\delta$对合谋的影响。

- 解读:
- 异质性$\beta
k$加大时,合谋急剧降至较低区间;
- 外部选项效用增大,合谋显著降低, 反映用户选择退出意愿提升抑制平台垄断力;
- 折现率$\delta$提升,合谋水平显著上升, 体现未来利润期望拉动合作动力。
  • 联系文本: 为治理策略提供理论支持,如提升外部选项效用可抑制合谋。


---

图12-14(第16-18页)


  • 描述: 异步合谋均衡与合作价格低于竞争价格的稀有案例探讨。

- 解读:
- $\Deltat$(合谋水平)极端值出现时关联特定空间$\Phi$配置;
- 一侧价格竞赛价可能超过合谋价,反映模型对价格动力学更复杂的捕捉力。
  • 联系文本: 说明模型丰富性及边界行为,提醒政策制定考虑非典型但可能现实存在情况。


---

图15(第22页)


  • 描述: 通过引入惩罚因子$\rho$对$Q$-learning奖励函数的影响,刻画提高$\rho$抑制合谋的效率曲线。

- 解读:
- 随着$\rho$增加,合谋水平显著下降,近似基线$\Delta
0$;
- 提示规制机制对控制算法合谋有明显辅助效果。
  • 联系文本: 强调政策设计可以从算法调整入手,实现技术干预。


---

附录图及表格(第25-34页)


  • 内容: 展示不同$\Phi$取值下多类别策略行为频率、合谋水平分布、$Q$-函数损失指标及学习路径示例,进一步验证算法收敛性及策略稳定性。

- 解读:
- 多数模拟达成近似均衡行为,且合谋水平稳定;
- 存在“Edgeworth周期”等复杂价格波动模式,符合博弈论经济行为特征;
- $Q$-learning策略表现出策略一致性和子博弈完美性,体现算法有效性。

---

4. 估值分析



本报告未直接涉及传统意义上的公司估值,但其核心通过计算券如利润($\pi$)、利润差异与合谋基准等指标,定量衡量合谋带来的经济影响。合谋水平$\tilde{\Delta}$可视作利润提升率,作为平台市场策略评价的关键经济变量。

---

5. 风险因素评估


  • 风险1:网络外部性强弱波动

- 网络外部性的正负变化将极大影响合谋成效,政策需动态适应。
  • 风险2:用户异质性及外部选项效用变化

- 异质性升高或外部选项改善可能导致合谋不可持续,影响平台收益。
  • 风险3:折现率假设敏感

- 折现率改变未来期望利润,影响合谋激励。
  • 风险4:算法演化与策略多样性

- 异步合谋及非典型价格结构可能打破预期监管效果。
  • 风险5:外部政策不完备

- 现有立法覆盖有限,比如未涵盖不依赖非公数据之AI策略。

报告提出风险缓解方向如增设惩罚项调节$Q$-learning奖励以遏制合谋。

---

6. 审慎视角与细微差别


  • 报告强烈建立在模拟及假设框架之上,实际市场中的多变性、数据异质性及算法多样性可能导致现实结果偏离。

- 报告多处提及基于公共数据的AI合谋风险,凸显监管盲区,暗示法律与技术需同步发展。
  • 合谋水平定义采用标准化指标,但极端情形下值超过1,表明指标设计上存在潜在边界释义挑战。

- 对极少数非对称均衡情况的分析尚不能覆盖更多复杂平台结构。
  • 算法参数如温度、学习率、离散价格空间大小等均影响模拟结果,可能导致一定的结果敏感性。

- 合谋的"J形"依赖关系表明参数小幅调整可引发非线性大幅反应,政策调节需谨慎。

---

7. 结论性综合



本报告系统性研究了AI强化学习算法——特别是$Q$-learning——在双边平台市场中促成价格默契合谋的机制和影响因素。通过高度精细的实验和多维回归拟合,作者揭示了网络外部性(同侧及跨侧)对合谋水平的非线性驱动作用,表明正向的网络外部性显著提高合谋强度,特别是在在线游戏、视频流媒体及社交平台等行业。反之,用户偏好异质性及外部市场效用提升则有效抑制合谋。折现率作为对未来收益的权重,也对合谋形成起关键影响。

报告在附录里辅以丰富的收敛性、稳定性和策略行为数据,支持AI强化学习策略能学习接近纳什均衡的合谋策略,并展现出符合博弈论反复博弈性质的动态定价行为,如Edgeworth周期。

政策层面,作者认同已有立法(如防止算法合谋法案)对利用非公开竞争者数据的算法的管制作用有限,强调需要关注依赖公开信息依然能合谋的AI算法。为此,提出在$Q$-learning奖励更新中加入价格惩罚项的技术手段以抑制合谋行为,为决策者和监管机构提供可行的干预路径。

总体而言,作者判断AI算法驱动的双边市场通过利用网络外部性极易形成高水平的价格合谋,风险存在于多行业,亟需政策与技术双管齐下应对。此研究为算法监管、平台策略设计和市场竞争政策提供了重要的理论支撑和实证数据依据。

---

重要参考文献及出处


  • Calvano et al. (2020b):“Artificial intelligence, algorithmic pricing, and collusion.” American Economic Review.

- Chica et al. (2023):“Competition and collusion in two-sided markets with an outside option.” SSRN.
  • Klein (2021):“Autonomous algorithmic collusion: Q-learning under sequential pricing.” RAND Journal of Economics.

- Assad et al. (2024):“Algorithmic pricing and competition: Empirical evidence from the german retail gasoline market.” Journal of Political Economy.
  • Waltman and Kaymak (2008):“Q-learning agents in a Cournot oligopoly model.” Economic Dynamics and Control.

- OECD (2017):“Algorithms and collusion: Competition policy in the digital age.”

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34]

报告