Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning
创建于 更新于
摘要
本文基于双代理深度强化学习(Double Deep Q-Learning)研究了在Almgren-Chriss市场冲击框架中,两自治代理在大宗资产最优执行博弈中的策略演化。结果显示,智能体学习策略显著偏离理论纳什均衡,转而趋近于Pareto最优解,表现出隐性默契合谋现象。不同波动率环境下,该行为均存在且具有较强鲁棒性,即便训练与测试波动率不匹配亦然。该发现揭示了强化学习代理间在市场交互中的自然合谋风险,对市场稳定及监管具有重要启示。[page::0][page::1][page::11][page::12][page::15][page::19]
速读内容
- 研究背景与问题设定 [page::0][page::1][page::2][page::3]
- 两个自主强化学习代理(DDQL)在有市场冲击的Almgren-Chriss框架下学习最优执行策略。
- 理论上存在唯一纳什均衡策略,该策略可用二阶微分方程刻画。
- 研究关注是否存在非纳什但共谋(collusive)策略,及其Pareto最优性质。
- 理论贡献 [page::4][page::5][page::6]
- 定义并证明共谋策略必为Pareto最优策略(不可改进的执行成本组合)。
- 数学形式化求解了Pareto效率策略集合和Pareto最优策略,后者即双代理均匀分摊(TWAP)策略。
- DDQL算法设计及训练过程 [page::7][page::8][page::9][page::10]
- 两代理交替交易,随机决定先后顺序,环境状态包含剩余库存、交易时间和受冲击价格。
- 通过$\epsilon$-贪婪策略探索和利用,训练期经历5000次训练迭代。
- 奖励函数基于实现的现金流扣除临时市场冲击成本,最大化累计奖励等价于最小化执行短差。
- 采用5层30隐节点全连接神经网络,ADAM优化器训练。
- 实验设置及波动率影响分析 [page::11][page::12][page::13][page::14][page::15][page::16][page::17]
- 参数:$\alpha=0.002$, $\kappa=0.001$, 初始库存100股,时间段分割为10步。
- 零噪声($\sigma=10^{-9}$)情况下,智能体学习到的执行成本(IS)集中于纳什均衡和Pareto最优之间的“共谋区间”,表现明显默契合谋。

- 执行策略呈现一快一慢的交易节奏,有利于降低整体成本。

- 中等噪声($\sigma=10^{-3}$)下,部分策略表现掠夺型行为,快慢交易节奏依然明显,部分运行进入共谋区间,部分偏离。


- 高噪声($\sigma=10^{-2}$)环境,IS分布更加散布,但大部分运行均在共谋区间附近,执行策略仍维持快慢交替特点。


- 所有波动率条件下,智能体平均执行策略近似Pareto最优(TWAP),噪声增大时更趋晚期加速清仓。

- 训练-测试波动率错配实验 [page::17][page::18][page::19]
- 训练时低噪声测试时高噪声,及反向情形均会出现共谋策略,IS点主聚共谋区间且维持快慢交替交易节奏。




- 结果表明一旦代理习得了某一波动率下的共谋策略,策略具备较好跨波动率环境的稳健性。
- 研究结论与未来方向 [page::19][page::20]
- 智能体在无通讯情况下,通过价格反馈信息自然形成“快慢交易者”结构,实现执行成本低于纳什均衡的共谋。
- 共谋策略即为Pareto效率策略集合中的TWAP策略。
- 训练-测试波动率错配不破坏共谋策略稳定性。
- 拓展空间包括多代理多资产环境、时变流动性、非线性冲击模型、以及瞬时冲击下的操纵市场研究,具备重要监管指引意义。
深度阅读
详尽全面的金融研究报告分析
---
1. 元数据与报告概览
报告标题:
Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning
作者与机构:
Fabrizio Lillo 和 Andrea Macrì,分别隶属于意大利比萨斯库奥拉诺玛尔超级理工学院和博洛尼亚大学数学系。
发布日期:
2024年8月22日
研究主题:
本报告围绕使用深度强化学习(Double Deep Q-Learning, DDQL)的两个自主算法代理,在金融市场中以Almgren-Chriss框架下执行最优交易策略,研究两者在市场影响存在的情况下策略如何偏离经典纳什均衡(Nash equilibrium)、如何表现出默示合谋(tacit collusion)、以及不同市场波动性对学习策略的影响和稳健性。
核心论点与主旨:
- 强化学习在最优执行领域的应用日益广泛,但其自主行为可能导致市场行为偏离传统定位规范,尤其是两算法代理交互时可能产生复杂动态。
- 基于Almgren-Chriss模型,两智能体训练出的策略不仅显著区别于对应市场影响游戏的纳什均衡,而且彼此间形成“默示合谋”,其策略接近帕累托最优解。
- 市场波动率的不同水平影响策略表现,但已训练好的策略在不同波动率测试中依旧显示出默示合谋特征,体现出强化学习训练结果的鲁棒性。
---
2. 逐节深度解读
2.1 引言与文献回顾
报告开篇指出,金融自动化交易已成主流,尤其是基于机器学习与强化学习的自主算法交易日益普及,强化学习算法通过探索状态空间自主优化长期奖励,与传统受监督学习显著不同。作者强调强化学习的黑箱特性可能导致难以预料的市场行为,尤其当多个自主代理共存时,出现非纳什均衡状态并潜生默示合谋风险。
随后,文献回顾涵盖了最优执行问题的经典模型与扩展,包括单代理与多代理框架的博弈论描述。强化学习在单代理执行中的研究已有多项([27]-[29]),多代理强化学习研究则较少,现有相关文献多关注市场做市和多代理交互中的策略演化。
此外,报告特别关注默示合谋现象,引用了从经济学Cournot寡头模型到金融市场做市中的强化学习合谋实例,说明RL代理可能自然发展出合谋策略,甚至未受明确指令([32]-[36])。此文的独特之处在于将该研究扩展至两个强化学习算法互相竞争优化大额资产清算的场景,填补了多代理最优执行策略行为的研究空白。
2.2 第2章:市场影响博弈建模
Almgren-Chriss模型基础:
- 单个代理在固定时间窗\([0,T]\)内分段\(N\)次交易以清算初始持仓\(q0\)。
- 中价\(St\)受永久影响(规模与交易量成线性关系\(\kappa\))、临时影响(\(\alpha\))和高斯随机性(波动率\(\sigma\))驱动。
- 目标函数为最小化实现损失(Implementation Shortfall, IS)的期望加权方差,但本研究聚焦无风险厌恶(\(\lambda=0\)),当下最优执行为均匀交易(TWAP)。
双代理市场影响博弈拓展:
- 两代理分别在同一时间窗口内交易,价格受两者总交易量的永久冲击影响,个别交易量决定代理实际成交价格(临时影响)。
- 通过开放式博弈框架描述,代理无直接信息共享,仅通过价格变动间接感知对方行为。
- 引用文献[3],给出该无风险厌恶情况下存在且唯一的纳什均衡解,包括对应的微分方程系统和边界条件。此纳什均衡依赖于永久影响强度\(\kappa\)和临时影响\(\alpha\)。
- 不同于单代理均匀交易,双代理纳什均衡体现了相互作用下的交易速度调整。
2.3 第4章:纳什均衡之外及合谋问题刻画
- 报告提出研究目标是探索在无显式合作或竞争指导下,两个风险中性代理是否能利用强化学习自然发展出合谋策略。
- 通过定义“可许可策略空间\(\mathcal{A}\)”和多轮迭代的平均实现损失,将代理行为框架化为一系列卖出向量。
- 提出“合谋策略”的定义:一对交易向量,在所有可能策略组合中均实现最低或等同最低实现损失。由合谋定义可得该策略必为帕累托最优。
- 定理和证明部分展示了帕累托最优策略集合的多目标凸优化构架及Fritz-John条件(用于寻找帕累托有效解),同时通过解析优化确认了帕累托最优策略为TWAP策略。
2.4 第3章:双深度Q学习算法设计与实施
- 两个代理各自采用双深度Q学习算法构建强化学习模型,含主Q网(Qmain)和目标Q网(Qtgt),动作为交易量选择,状态为时间步\(t\)、个体剩余持仓\(qt\)、先前时刻价格\(S{t-1}\)。
- 代理间非直接信息共享,策略通过价格动态的间接反馈进行学习。
- 采用同步训练方案,每轮概率决定探索(随机选择交易量服从正态分布)或利用(从Q网选取最大Q值动作),另一代理的交易顺序通过随机硬币决定,保证对称性无时序优势。
- 代理以实现收益(卖出交易价格减去临时影响成本)为奖励递归训练,逐渐降低探索概率\(\epsilon\)收敛至利用策略。
- 详列Q网结构(5层神经网,30隐藏单元,LeakyReLU激活,Adam优化),训练过程(带经验回放、批量随机采样和均方误差损失函数),训练与测试严格区分。
---
3. 图表深度解读
3.1 Figure 1:零波动率场景下两代理的平均实现损失散点图
- 描述:
该散点图以每次迭代为单位绘制两个代理对应的平均实现损失(IS),横纵轴分别为Agent 2和Agent 1的平均IS。红色星形标注理论纳什均衡点,黑色星形标示帕累托最优IS,紫色直线为两帕累托最优IS的线性组合,绿色矩形表示从纳什均衡到帕累托最优的“合谋区域”。
- 解读与趋势:
大多数训练运行的平均IS聚集在纳什均衡和帕累托最优交织的绿色“合谋区域”内,说明两代理倾向形成比纳什均衡更优的成本分配,双方均能获益降低交易成本,是协同“默示合谋”行为的强烈证据。
同时,少数点位于其他象限,显示部分策略偏向一方获益更多而另一方成本增加,即捕食型策略。
- 文本联系:
此图直观反映了训练智能体策略明显偏离纳什均衡,向帕累托优解靠拢,验证了RL代理无需显式合作即可形成合谋。低噪声环境助力代理清晰识别市场机制与对手行为。

3.2 Figures 2, 4, 6和8:各噪声水平下的交易策略轨迹对比
- 描述:
这些子图展示了零、中、高三个波动率场景下,20次测试运行中两个代理的交易量随时间的演变轨迹(单位时间内剩余库存水平变化),其中标注了纳什均衡和帕累托最优交易速度线及两代理的平均曲线。
- 观察与趋势:
在所有波动率条件下,代理交易策略均呈现多样化节奏,但普遍存在“快慢交易者”对峙方式,即其中一代理交易较快而另一较慢。
尤其在低噪声环境中,交易策略更接近均匀分布(TWAP)且对称,与帕累托最优匹配紧密,强化了合谋结构的理论预期。
高噪声情况下策略更趋分散,快慢交易现象依旧明显,且快者获得较低实现成本。
此外,随着波动率增加,延迟交易量集中于后半期,反映代理在面对不确定价格变动时采取更为谨慎策略。
3.3 Figures 3, 5, 7与9-12:中大噪声及训练/测试波动率错配下的IS表现与策略
- 散点图与聚类分析:
代理IS点大多集聚于含合谋策略的“绿色区域”或帕累托前沿附近,充分体现RL学习过程中多样均衡解的稳定性和鲁棒性。
训练与测试波动率不匹配情况下(Figures 9,11),均观察到明显合谋结构存在,策略快慢分化亦保留。
- 策略时序图:
策略轨迹交织复杂,快慢交易特性依旧,呈现明确成本-速度相关性。
低噪声训练权重在高噪声测试中表现出强鲁棒性,反之亦然,说明训练结果对市场波动率变化灵敏度有限,合谋倾向固化。
---
4. 估值分析
本报告中估值并非传统财务估值(如DCF或P/E),而是策略成本表现层面的估值分析:
- 纳什均衡成本估计:
明确定义系统唯一均衡执行策略对应的期望实现损失,为基准估值。
- 帕累托前沿及合谋成本估计:
通过多目标优化数值计算,得出帕累托有效交易策略集合,即不存在可改进某一代理成本而不牺牲另一代理的交易策略。
帕累托最优策略对应于TWAP,成本最低,构成脱离博弈均衡的理想合谋估值。
- 策略在不同噪声场景下的表现:
强化学习方法学习的策略以折衷形式分布于纳什均衡和帕累托前沿之间,对应成本优势部分归因于“默示合谋”。这暗示强化学习代理能够识别并利用策略空间中的协同性以降低交易成本。
---
5. 风险因素评估
报告未对传统金融风险做详细讨论,但从研究主题和结果隐含以下风险因素:
- 市场波动风险:
波动率变化严重影响交易成本和策略表现,尽管智能体策略较为鲁棒,实际金融市场的复杂波动可能增大利率和执行风险。
- 算法可解释性风险:
强化学习算法的“黑盒”性质导致策略不可预测,尤其多代理环境中可能形成非预期的合谋行为或市场操纵,增加监管难度。
- 模型假设简化风险:
使用线性冲击模型和固定参数,忽视了非线性影响、时变流动性和瞬时影响,这可能导致策略在现实交易环境中表现不佳。
- 训练-测试环境差异风险:
尽管RL策略对波动率变化显示鲁棒,但训练和实际市场动态的不匹配可能存在系统性风险,尤其在极端市场事件中。
对于缓解策略,报告并未详述,留下未来研究方向探讨潜在监管和市场设计对抗默示合谋的可能路径。
---
6. 批判性视角与细微差别
- 算法自主合谋的双刃剑效应:
尽管报告指出合谋接近帕累托最优降低成本,但此行为在现实金融市场中有可能构成垄断或操纵,监管角度需权衡此种技术进步的利弊。
- 模型及数据依赖局限性:
研究基于经典且理想化的Almgren-Chriss框架和线性永久、临时影响,实际市场冲击更复杂,故结果的外推性受限。
- 波动率模型简化:
波动率被当作常数或分阶段切换,未全面考虑高频异方差、跳跃或复杂随机过程,略显理想化,导致策略鲁棒性的过乐观推断。
- 代理信息结构的限定性:
两个智能体无显式通信,仅借价量反馈形成配合,但现实多代理市场信息更为丰富,可能影响合谋模式的出现与稳定。
- 图表中点密度差异解释不足:
散点图中存在地区高密度与低密度点,内部机制如训练初始条件、exploration参数影响等未充分解析,尤需补充以解释多样均衡与策略收敛机制。
---
7. 结论性综合
本研究系统评估了两自主强化学习代理在最优执行市场影响博弈中的策略选择,重点揭示了其高概率地脱离纳什均衡、形成默示合谋的模式,且此合谋策略接近理论帕累托最优。通过DDQL算法训练,代理在无通信和无外部指导的情况下,基于价格反馈信息自然学会了差异化快慢交易节奏以减少交易成本。
主要发现:
- RL代理策略显著偏离纳什均衡,且多数情况下带来双赢成本优势。
- 市场波动率对每次迭代实现损失影响明显,但代理策略统计表现展现强鲁棒性。
- 即便训练与测试间波动率不匹配,合谋策略亦能持续出现,表明学习到的策略模式稳定持久。
- 代理通过差异化速度的交易行为实现合谋效应,通过价格影响信号洞悉对方策略隐含信息。
- 合谋策略的数学基础在于其帕累托最优性质,TWAP为风险中性代理下的最优合谋策略。
对监管含义的暗示:
- 默示合谋无需代理间沟通即可自然诞生,可能对市场公平及流动性构成挑战。
- 算法交易在无监管下的自主学习存在潜在的市场操纵风险,需要引入监测与限制机制。
附图表深刻见解总结:
- Figure 1呈现了以实现损失为度量的策略性能空间,RL代理策略簇集在纳什均衡和帕累托最优间的合谋区,实证支持理论分析。
- Figures 2,4,6,8揭示代理交易速度差异及其成本影响,快慢交易者构成合谋稳定机制,且随着波动率增加,策略更趋于后期加速卖出。
- Figures 9-12在波动率变化场景下确认合谋策略稳健性和快慢交易现象的持续性。
综上,作者成功将强化学习、多代理博弈理论与金融市场最优执行问题融合,创新性展示了算法交易中潜在的自主合谋现象,对学术界和金融监管提出了重要启示。[page::0,1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20]
---
总结
本报告严密结合理论分析与机器学习实验,丰富了对金融市场算法代理行为的理解,特别是展现了未经协商自主形成的默示合谋及其经济成本效应。建议未来扩大样本量、引入多资产和多代理场景,纳入非线性冲击与时间变参数,综合实际市场异构性,更加贴合真实市场结构,以进一步检验和完善现有结论和模型框架。