`

ARL-Based Multi-Action Market Making with Hawkes Processes and Variable Volatility

创建于 更新于

摘要

本研究结合对抗强化学习、Hawkes过程和可变波动率,构建了多动作市场做市策略。通过引入Hawkes过程模拟自激市场动态及在不同波动环境下训练,4动作市场做市策略显示出在高波动下的良好适应性和稳定性,显著提高了灵活报价机制的有效性和市场流动性管理能力[page::0][page::2][page::6][page::7]。

速读内容


研究背景与创新点 [page::0][page::1]

  • 本文提出结合对抗强化学习(ARL)、Hawkes过程及可变波动率水平的市场做市策略。

- 拓展市场做市动作空间,从常规双边报价拓展到双边报价、单边报价及不报价四种模式,提升策略灵活性。
  • 使用自激Hawkes过程代替传统的泊松过程,更真实地捕捉市场动态和交易自激效应。


市场模型与训练流程概述 [page::2][page::3]

  • 资产价格遵循布朗运动,交易执行由Hawkes过程动态调整强度。

- 采用风险中性与风险厌恶两种奖励设定,市场参与者包含市场做市者与对手方,构成零和游戏关系。
  • 使用SAC算法训练对手方以及各种动作空间的市场做市者,包括始终报价、两动作与四动作模型。

- 训练周期超5万集,策略在固定对手方环境下进行测试。

性能评估指标与实验设计 [page::5]

  • 评估指标包括终端财富、夏普比率、终端库存及报价比例。

- 多套风险参数配置下,分别测试5类市场做市模型在不同对手方环境和波动率条件下的表现。
  • 报告提供详实统计数据与不同模型报价行为的对比分析。


主要实验发现与策略表现 [page::5][page::6][page::7]


  • 4动作市场做市策略在低波动率(2)下训练后,对高波动率(200)环境表现出稳定且稳健的适应能力,双边报价比例达到或超过92%。

- 高波动率下训练的4动作策略表现较为保守,倾向于单边报价或不报价,夏普比率明显降低,反映策略对极端市场的谨慎应对。
  • 与泊松过程相比,Hawkes过程带来更复杂和波动的市场动态,增加了风险管理挑战,影响整体终端财富和夏普表现。

- 需要进一步研究高波动环境下是否能够通过调整训练策略,促使市场做市者更积极报价以促进流动性。

策略指标总结表(以风险中性 $\eta=0$,无调节参数 $\zeta=0$ 为例)[page::5]


| 市场做市类型 | 终端财富均值±标准差 | 夏普比率 | 终端库存均值±标准差 | 报价比例(不报价+双边+卖单+买单) |
|--------------|---------------------|---------|--------------------|-------------------------------|
| 始终报价MM | 2.1945±3.2613 | / | 1.4106±/ | 0.00+100.00+0.00+0.00 |
| 两动作MM | 2.2619±3.2623 | / | / | 0.00+99.17+0.00+0.83 |
| 四动作MM (低波动训练、低波动测试) | 2.2389±3.2875 | / | 1.4276±/ | 0.00+99.29+0.00+0.71 |
| 四动作MM (低波动训练、高波动测试) | 2.2501±3.2909 | / | / | 0.00+74.19+0.00+25.81 |
| 四动作MM (高波动训练、高波动测试) | 2.0170±3.2892 | / | / | 0.00+~70.00+~30.00+0.00 |

Hawkes过程对市场做市策略影响分析 [page::5][page::6]

  • Hawkes过程的自激特性导致成交概率在发生交易后迅速上升并缓慢衰减,使市场做市者倾向活跃报价以增加成交机会,促进市场流动性。

- 低流动性环境下,市场做市者倾向保证成交成功,甚至以牺牲部分利润为代价,增强整体市场稳定性。
  • 复杂的市场动态对风险管理提出更高挑战,需要在策略中考虑到自激与市场波动性共同影响。


策略适应性与未来改进方向 [page::7]

  • 训练于低波动环境的4动作市场做市策略展现强适应性,能较好应对高波动测试环境。

- 训练于高波动环境的策略因训练时使用低波动策略辅助,表现保守,建议未来可考虑在高波动环境中同等条件下训练辅助策略。
  • 未来研究可探索高波动环境下,市场做市者如何平衡灵活报价与风险管理,推动策略提升至更高收益与稳定性水平。

深度阅读

ARL-Based Multi-Action Market Making with Hawkes Processes and Variable Volatility


---

1. 元数据与概览


  • 标题:《ARL-Based Multi-Action Market Making with Hawkes Processes and Variable Volatility》

- 作者:Ziyi Wang, Carmine Ventre, Maria Polukarov
  • 机构:King’s College London

- 会议:5th ACM International Conference on AI in Finance (ICAIF ’24),2024年11月14-17日
  • 主题:高频交易中的市场做市策略,结合对抗性强化学习(ARL)、Hawkes过程及变动波动率,扩展市场做市商的动作空间。


核心论点:报告提出采用Hawkes过程替代传统的Poisson过程来模拟市场执行动态,利用对抗性强化学习训练拥有更丰富动作空间(不一定总是双边报价,可以单边报价或不报价)的市场做市商,以应对不同的波动环境。研究结果表明,4动作空间的做市策略在低波动训练下能够稳定适应高波动测试环境,始终保持超过92%的双边报价,体现了更加灵活的策略和真实市场模拟对市场做市有效性的提升。

本报告旨在突破传统只能双边报价和Poisson过程建模的限制,引入Hawkes过程的自激特性捕捉市场行为,关注波动率变化对做市策略的影响,并验证多动作空间机制下策略的鲁棒性和适应性。

---

2. 逐节深度解读



2.1 引言(Introduction)


  • 关键论点:市场做市商通过提供买卖报价支持市场流动性和稳定性。传统模型往往假设市场做市商必须在每时刻进行双边报价。文献[27]展示了ARL在做市中的稳健表现,[30]提出了 Relax Quote (可选择是否报价、单边报价)的多动作机制。
  • 创新点

1. 用Hawkes过程代替Poisson过程:Hawkes过程具备自激效应,可捕捉价格跳变和市场内交易的自强化行为,更贴近实际市场动作动态。
2. 波动率波动(Low and High levels):分别以2和200波动率训练和测试,研究不同波动环境下的策略适应性。
  • 实验观察:图1显示4动作策略在低波动训练下能较好适应高波动市场,维持高频的双边报价。相反,高波动训练的策略在高波动测试会表现更为保守,采用单边或不报价以规避风险。
  • 方法意义:通过更复杂的市场模型和动作空间,提升做市策略在不确定、多变市场下的表现和风险管理能力。[page::0] [page::2]


---

2.2 相关工作(Related Work)


  • 随机控制方法:传统模型(Ho and Stoll [19];Avellaneda and Stoikov [3];Guéant等)为基础,针对模型假设完备性不足进行了改进和风险管理。
  • 强化学习方法:RL引入市场做市,特别是actor-critic方法表现有效(Chan and Shelton [9]),以及在线学习降低价差(Abernethy and Kale [2]);高逼真度模拟与RL训练结合(Spooner et al.[26]),以及对抗性RL增强稳健性(Spooner and Savani [27])。Wang 等[30]扩充动作空间允许灵活报价。mbtgym环境支持Hawkes过程建模(Jerome等[20])。
  • Hawkes过程应用:自激点过程逐渐成为主流,广泛用于外汇市场(Hewlett[18])、订单簿建模(Large [21], Bacry等[6]),高维模型解析订单流(Lu和Abergel [22][23]),及复合Hawkes控制问题(Roldan Contreras and Swishchuk [25])。
  • 本研究贡献:结合ARL、多动作空间以及Hawkes过程的建模优势,在不同波动率环境下训练和评估针对高波动市场有效的做市策略。[page::1]


---

2.3 问题描述(Problem Description)


  • 价格动态:价格服从带漂移的布朗运动。公式为:


\[
Z
{n+1} = Zn + bn \Delta t + \sigman Wn
\]

其中,波动率 \(\sigman\) 和漂移 \(bn\) 随时间变化。
  • 有效差价:买卖偏移\(\deltan^\pm\))定义为当前报价与市场价格之差,确保非负。
  • 执行动态:采用Hawkes过程建模交易撮合概率,强调整体交易强度随着成交而自激。交易强度定义为:


\[
\lambda
n^\pm = \text{Hawkesintensity} \cdot e^{-kn^\pm \deltan^\pm}
\]

其中,Hawkes
intensity依赖历史成交,带有均值回复和自激跳跃机制(设定基线到交易后的跳跃程度等参数)。
  • 库存动态和财富公式


\[
\Pi(X, H, Z) = X + HZ
\]

现金账户随成交更新,库存由买卖差累计约束于固定区间。
  • 市场参与者:建模市场做市商与对手方(对手称为“adversary”)为零和博弈,对手可动态调整价格漂移、基础交易强度和盘口深度参数。
  • Adversary类型

- 固定型:参数不变
- 随机型:参数在一定区间随机选取
- 策略型:动态优化参数以最大化自身收益,对抗做市商
  • 做市商代理类型

1. Always Quoting:始终双边报价,动作空间连续(买卖偏移区间0~3)。
2. Two-action:每步选择是否双边报价(或不报价)。
3. Four-action:每步可选择不报价、双边报价、仅买单报价、仅卖单报价四个动作,允许更灵活风险控制。

这些设计使得研究可聚焦动作空间扩展对做市表现的影响。[page::2,3]

---

2.4 训练流程(Training Process Overview)


  • 流程概览(图1):

- 预设风险参数 \(\eta\), \(\zeta\) 控制库存惩罚(根据风险厌恶程度调整奖励函数),支持风险中性(RN)和风险厌恶(RA)。
- 首先训练对手方(采用SAC算法),其调节市场动量参数。
- 使用训练好的对手,训练 Always Quoting 做市商(SAC算法)。
- 基于Always Quoting和对手策略,采用DQN算法训练2动作和4动作做市商。
- 多种风险偏好设置(6组不同的RA系数)和多种对手类型循环测试。
  • 训练细节

- SAC超参数固定:学习率3e-4,批次64,每1000步更新策略;DQN学习率1e-4,批次64,每步更新。
- 训练至少5万集,保证代理策略收敛。
- 4-Action MM同时有低波动(vol=2)和高波动(vol=200)环境训练版本。
  • 测试设计:不同训练策略在对应及跨波动环境下测试,考察策略迁移和鲁棒性。
  • 奖励函数


\[
Rn = \Delta \Pin - \zeta Hn^2 - \begin{cases} 0, & t < T \\ \eta Hn^2, & \text{否则} \end{cases}
\]

其中风险惩罚项控制仓位风险敞口。

[page::3] [page::2 (Figure 1)]

---

2.5 评估与结果分析(Evaluation and Results Analysis)



评估指标(Section 5.1)

  • 主要指标

- 终局财富(Terminal Wealth):奖励累积,均值±方差,反映策略收益稳定性。
- Sharpe比率:均值与方差的比值,度量风险调整后收益。
- 终局库存:策略对持仓风险管理能力的度量。
- 报价比例(Quoting Ratio):反映市场做市商策略选择的报价频率及类型(无报价、双边报价、单边报价等)。
  • 实验设计

- 多风险系数组合(7种),多种对手类型训练。
- 每策略均进行100次测试,每次1000集,保证结果统计稳健。

结果摘要(Section 5.2)


  • Always Quoting MM

- 采用Hawkes过程相比传统Poisson过程,整体财富均值和Sharpe有所下降,可能因Hawkes带来更复杂的市场动态和自激导致交易强度波动大,增加风险管理复杂度。
- 各种对手(Fix、Random、A、B、K、All)训练下表现趋势符合预期:“All”对手训练获得最高Sharpe,固定对手训练表现最差。
- Sharpe提升表明模型在应对不确定性时有所进步。
  • 2-Action MM与4-Action MM

- 这些策略在普通波动环境中训练并测试时,报价大多数时间选择双边报价(超过90%),符合现实做市规定,例如伦敦证券交易所要求维持至少90%的双边报价。
- 2-Action和4-Action MM的Sharpe均优于Always Quoting MM,表明引入“不报价”和单边报价选项增强了风险控制能力。
- 由于Hawkes过程的成交概率依赖最近成交历史,奖励了连续活跃报价行为,也促使做市商策略更积极报价保持市场流动。
  • 波动率影响

- 4-Action MM (训练于低波动,测试于高波动)仍保持稳定绩效,说明该策略拥有良好的跨市场条件适应性。
- 4-Action MM (训练及测试均为高波动)表现保守,多选择单边或不报价,Sharpe降低,表明高波动使策略采取风险规避行为。
- 训练环境与测试环境匹配有利于策略表现最优化,环境错配则导致策略更保守。
  • 总结:多动作空间与真实市场动态模型(Hawkes)结合,能提高做市商在不同波动率环境中的稳健性及风险管理水平,同时策略表现与训练环境高度相关。


---

2.6 图表深度解读



图1:训练与测试流程示意图

  • 内容展示了不同波动率训练环境与对应测试环境的流程及参与的各类市场做市策略与对手训练顺序。

- 流程清晰描述了训练SAC对手,紧接着训练Always Quoting MM,再基于其训练2-Action及4-Action MM的全过程,及多种波动率组合方案。
  • 强调实验严谨设计并覆盖多种策略及环境切换,保证结论的广泛适用性。


表1-7:不同风险系数\((\eta, \zeta)\)下的市场做市商性能统计


  • 形式:各表列出不同对手类型(Fix, Random, A,B,K,ALL)下,不同市场做市商的终局财富均值±方差、Sharpe比率、终局库存均值±方差及报价比例。

- 对比重点
- 4-Action MM(训练和测试均为低波动)通常具有较高的Sharpe,表现相对优越。
- 当训练环境为低波动,测试环境高波动时(4-Action MM train@2, test@200),报价率中单边报价占比有所提高,但仍保持较高比例的双边报价。
- 4-Action MM训练和测试都在高波动环境时,退出报价次数明显增多,报价比例集中在不报价和单边报价。
  • 风险参数影响:(对应表中\(\eta, \zeta\)的调节)库存风险惩罚越重,终局库存越小,但整体财富及Sharpe比率可能下降。


图2-7:不同做市商终局财富分布(Violin图)


  • 展示不同对手类型和策略(Always Quoting, 2-Action, 4-Action,跨波动训练等)的收益分布,带有颜色编码的Sharpe表示。

- 核心观察:
- 4-Action MM的收益分布较为集中且Sharpe较高,表示风险调整后表现最佳。
- 跨波动率测试(Train@2, Test@200)的4-Action MM表现接近同波动率环境4-Action MM,充分支持该策略的适用性和鲁棒性。
- 高波动训练和测试的4-Action MM收益分布更分散,显出较高风险与保守行为。
  • 这些图形直观体现了文本中详细数据的统计特性和趋势,补充说服力强。


---

2.7 估值分析



本报告不涉传统金融资产估值内容,但其核心创新在于:
  • 通过对市场微观动态建模的精细化(Hawkes过程代替Poisson过程)。

- ARL训练下动作空间扩展策略的价值体现:更广阔的动作选择帮助市场做市商在复杂环境下优化风险和盈利的权衡。
  • 多波动环境下策略稳定性与灵活报价机制的潜在经济价值。


---

2.8 风险因素评估


  • 市场环境复杂变化,尤其波动率极端变化是主要风险源之一。策略可能因训练与测试环境不匹配而失效或采取过于保守的行为。

- Hawkes过程建模的自激交易特性带来市场流动性和交易强度的高度非线性波动,导致风险管理更复杂。
  • 模型假设、参数设定和算法实现上的差异可能影响结果泛化。

- 对手策略的多样性及其强对抗性对做市策略稳定性构成挑战。
  • 报告未详细描述如何缓解这些风险策略,但通过多种训练对手和多波动率环境的综合训练,初步实现策略的鲁棒性强化。


---

2.9 批判性视角


  • 本文在采用Hawkes过程替代Poisson模型方面具有理论创新,但实验中Hawkes过程导致的性能下降值得进一步研究,可能需要更多针对Hawkes过程特点的策略优化。

- 训练和测试的波动环境严重匹配问题揭示了实际市场波动持续变化情况下模型适应性的局限。
  • 多动作空间设计较为合理,但是否足以反映现实做市商的全部复杂操作还需扩展。

- 研究集中于高频做市策略,未涉及市场影响或交易成本的综合影响。
  • 实验结果多集中在统计指标呈现,缺乏对具体博弈策略内容和策略演化过程的深层次揭示。


---

3. 结论性综合



本报告系统研究了基于对抗性强化学习(ARL)结合Hawkes过程和波动率变化的多动作市场做市策略,主要贡献点和发现包括:
  • 模型创新:Hawkes过程较Poisson过程更真实地捕捉市场自激和跳跃特性,提升了市场动态仿真的真实性。

- 动作空间扩展:引入“可不报价或单边报价”等多种动作,加强风险调控灵活性和利润最大化的平衡能力。
  • 波动率影响:通过低(2)和高(200)波动率环境的广泛训练与测试,展示4-Action MM在低波动训练策略下对高波动市场具备良好适应性和稳定收益表现。

- 策略表现:4-Action MM普遍优于始终双边报价策略,且能保持较高的Sharpe比率和合理的库存水平,符合现实市场做市规则。
  • 风险管控优势:多动作空间及先进市场仿真模型带来的连锁交易效应强化了风险调节,减少策略在极端环境下的暴露,提升了鲁棒性。


图表深层解读显示:
  • 4-Action MM在训练与测试环境匹配时表现最好,表现为财富分布稳健且风险调整收益高。

- 训练于低波动率环境的4-Action策略能较好调整到高波动,表现出强大的泛化能力。
  • 高波动训练的4-Action MM由于训练环境与始终报价策略的不匹配,表现更趋保守,不愿意双边报价以规避风险,导致总体收益与Sharpe下降。


该研究为未来基于现实市场行为的高频做市策略设计提供了重要方向:即结合更贴合实际的市场动态建模和多样化的动作策略,进一步提升做市商在多变市场环境中的表现与稳定性。后续研究可探索高波动下的高效收益策略及考虑实际交易成本等复杂因素。

---

附:主要图表示例(Markdown格式)


  • 图1(训练与测试流程示意):


  • 图2(五类代理终局财富与Sharpe):


  • 图6(4-Action MM Low Vol Train, High Vol Test)



---

[page::0,1,2,3,4,5,6,7]

报告