`

Robust Market Making: To Quote, or not To Quote

创建于 更新于

摘要

本文基于对抗强化学习,提出了允许市场做市商灵活选择“报价”或“不报价”及单边报价的量化交易策略。实验证明允许做市商偶尔拒绝报价能有效降低风险,提升收益及Sharpe比率。在多种对抗环境下,训练出的做市商策略在维持高报价比例的同时展现了良好的收益风险表现,策略在多种风险偏好设置均表现出鲁棒性 [page::0][page::4][page::5][page::6]

速读内容


研究背景与问题提出 [page::0][page::1]

  • 市场做市商通过双边报价赚取买卖价差利润,但风险大且易遭遇信息不对称和库存风险。

- 先前强化学习研究假设做市商始终持续报价,现实中做市商可根据市场规则间歇性拒绝报价。
  • 本文设计两种新型做市商智能体,具备两动作空间(报价或不报价)及四动作空间(报价、不报价、单边买入、单边卖出)以丰富策略空间。


模型与算法设计 [page::2][page::3][page::4]

  • 市场价格服从带漂移的布朗运动模型,成交概率服从泊松过程,成交率由市场和做市商报价影响。

- 利用软演员-评论家(SAC)算法训练始终报价的做市商及对手方对抗者,随后用深度Q网络(DQN)训练具备拒绝报价能力的做市商。
  • 状态空间包含当前时间和库存,动作空间根据策略类型不同分为连续报价和离散报价(包括不报价选项)。


主要实验结果与性能分析 [page::5][page::6][page::7]


  • 三类做市商在固定对抗环境中均实现正收益,采用对抗训练的模型获得更高Sharpe比率。

- 允许不报价及单边报价的做市商策略表现出稍优或相近Sharpe比率,且其报价比例超过95%,满足市场做市商最低报价要求。
  • 报价间歇性选择避免高波动市场环境,有助于控制风险,特别在风险厌恶情形下效果显著。

- 股权和间歇性报价策略在动态市场中均展现稳健的收益风险权衡。

未来研究方向 [page::7]

  • 引入更严格的报价比率限制及更复杂的状态空间如交易成本、回扣等。

- 采用更多强化学习算法比较性能,扩展动作空间支持可变交易量报价。
  • 模拟更复杂市场环境,考虑更综合风险指标如波动率和逆向选择风险。

深度阅读

详尽分解分析报告:《Robust Market Making: To Quote, or not To Quote》



---

1. 元数据与概览


  • 标题:Robust Market Making: To Quote, or not To Quote

- 作者及机构:Ziyi Wang,Carmine Ventre,Maria Polukarov,均隶属英国King’s College London
  • 发布日期及会议:2023年,发表于第四届ACM国际金融人工智能会议(ICAIF ’23)

- 研究主题:基于对抗性强化学习(Adversarial Reinforcement Learning,ARL)的市场造市(Market Making)策略,包括探讨市场造市策略中是否需要持续报价及允许拒绝报价的策略效能
  • 核心论点

- 传统研究假设市场造市者需持续发布双边(双向)报价,但现实市场设置允许一定比例的非报价行为,特别在特殊市场环境下。
- 本文提出并训练了两类扩充动作空间的市场造市代理:一个允许“两边报价或不报价”,另一个允许“两边报价、单边报价或不报价”。
- 通过模型驱动的方法,在对抗性环境下实验证明,允许偶尔拒绝报价或单边报价能改善收益和夏普比率,同时保证能够满足各大交易所对市场造市者的最低报价比例要求(实验达到99.9%)。
  • 评级及目标价:该文为理论与实证研究论文,非证券研究报告,因此无评级或目标价。其主要贡献在于算法设计与性能验证。


作者旨在展示市场造市者若扩大策略动作空间、不强制持续双边报价,能依托ARL技术在复杂多变的市场环境下取得更稳健的表现和风险控制能力。

---

2. 逐节深度解读



2.1 摘要 (ABSTRACT)


  • 市场造市策略通过提供买卖报价差获利,风险在于市场条件变化导致的巨大亏损。

- 传统ARL训练的市场造市代理假设其全程报价,本文拓展动作空间允许“拒绝报价”及“单边报价”操作。
  • 设计并训练了三种类型的代理:始终双边报价代理,两动作空间(二选一报价或不报价)代理,以及四动作空间(双边、单边、无报价)代理。

- 通过模型驱动(非纯数据驱动)的市场环境模拟,实证对抗性训练有效,且灵活报价策略提升了投资回报和风险调整指标。
  • 训练出的代理能满足市场监管对报价比例的严格要求,达99.9%以上。

- 关键词涵盖高频交易、限价委托簿、强化学习等金融和AI关键领域。
[page::0]

2.2 引言 (INTRODUCTION)


  • 市场造市者通过双边报价保证市场流动性并赚取买卖差价,但面临价格波动和非平稳市场环境带来的风险。

- 先行工作采用单一代理视角的零和博弈模型,将其他市场参与者视为对手(adversary),以ARL训练鲁棒且风险控制好的造市策略。
  • 但此前假设造市者必须持续报价,忽略实际市场规则允许一定比例不报价(伦敦证券交易所要求90%的连续交易时间报价,德意志交易所要求月均50%交易时间报价等)。

- 因此,提出拓展策略空间,将“不报价”列为可选动作,探究其对策略收益与风险的影响。
  • 论文设计两种新代理:

- 两动作空间(双边报价或不报价),
- 四动作空间(双边报价、不报价、单边买或单边卖报价)。
  • 实验基于[23]框架重复验证并加强,切换编程语言(Rust转Python),拓展动作空间后重新训练评估。

[page::0][page::1]

2.3 相关工作 (RELATED WORK)


  • 详细综述市场造市的风险来源与经典应对模型:

- 库存风险:由价格波动带来持有资产价值不确定性。
- 执行风险:交易执行时机不确定。
- 逆向选择风险:与信息优势者交易导致亏损。
  • 经典市场造市理论源自Ho与Stoll [16],通过随机动态规划求解最优报价;Avellaneda与Stoikov [2]结合限价簿统计特性简化模型并提出双步报价校准方法。

- 库存控制机制及模型风险问题被进一步研究,针对模型错配的鲁棒策略逐渐兴起。
  • 强化学习方法在市场造市领域的应用逐步发展,从Chan和Shelton应用基本RL方法,到Spooner等引入高保真模拟及ARL提升鲁棒性。

- 高维多资产情形及信号驱动造市也有相关拓展。
[page::1]

2.4 作者模型设计与理论框架 (PROBLEM DESCRIPTION & TRADING AGENT BASED ON ARL)


  • 市场价格模型基于带漂移的布朗运动,随机价格演化,当前价格决定未来价格分布,忽略历史价格影响,简化计算。

- 报价偏移量(bid和ask offset)定义为造市者预计买卖价格相对市场中价的差异,偏移量越高,执行概率越低。
  • 执行概率受偏移量和市场环境参数(市场订单到达率$A{n}^{\pm}$及成交量分布参数$k{n}^{\pm}$)共同影响,依泊松过程模拟。

- 游戏模型为市场造市者与对手零和博弈,对手可操控市场参数$bn, An^\pm, kn^\pm$ :
- 固定对手:参数固定不变
- 随机对手:参数每回合随机抽取,保持不变
- 策略对手:对手动态策略优化动作,最大化对手回报(最小化造市者收益)
  • 训练采用Soft Actor-Critic(SAC)算法

- 状态由时间与库存构成,动作为投标和询价价格偏移。
  • 奖励设计包含财富变化及库存惩罚,体现风险厌恶设置。

- 动作空间拓展:
- 始终报价代理,动作为连续双边报价偏移
- 两动作代理,选择报价或不报价(离散二元动作)
- 四动作代理,允许单边买入/卖出报价或不报价
  • 后两者训练采用DQN强化学习方法,动作离散化。

[page::2][page::3][page::4]

2.5 训练过程与参数配置


  • 训练周期:各代理均训练30,000次回合

- SAC学习率:$3\times 10^{-4}$,DQN学习率:$1\times 10^{-4}$,批量大小64
  • 状态与转移保持一致,方便公平比较

- 奖励函数对抗设置源自零和博弈架构
[page::4]

2.6 实验评估与结果分析 (EVALUATION)


  • 三类市场造市代理(始终报价,两动作,四动作)在固定对手环境下分别评估收益和夏普比率,采用100次试验、每次1000回合后求均值和样本标准差。

- 利用3D密度图展示收益分布,x轴为终止财富,y轴为分布密度,颜色对应夏普比率,用以比较不同代理间的风险调整后回报性能。
  • 重要指标包括终端库存、报价比例(不报价率+双边报价率+单边买价率+单边卖价率)以及提供的平均价差和其波动,较紧价差通常代表市场效率更高。

[page::5]

2.7 始终报价代理性能 (Section 5.1)


  • 相较[23],本文实现的始终报价市场造市代理在风险中性和风险厌恶设置中均展现较低平均收益,但夏普比率较高,波动较小,表明其策略更稳健。

- 在随机对手环境下训练的代理表现较固定对手环境优,体现一定泛化能力。
  • 同时,多参数对手(同时控制$bn, An^\pm, kn^\pm$)导致市场造市者表现最佳,表明适应多样且复杂对手的训练更有效。

- 然而控制单一参数的对手(仅$A$或$k$)表现较差,指示此单维变量扰动难以形成有效策略对抗。
[page::5]

2.8 可拒绝报价的市场造市代理性能 (Section 5.2)


  • 两动作和四动作代理表现与始终报价代理总体表现相近,表明ARL训练对三者均有效。

- 当市场造市者选择不报价或单边报价时,某些情况下夏普比率微升,说明动态地拒绝报价/单边报价机制可微妙地优化风险收益比。
  • 整体报价比例均超过95%,满足大多数交易所报价比例要求。

- 可能原因包括模型假设单次最多交易1单位资产,限制了仓位风险暴露,故市场造市者倾向于持续报价以捕获买卖差价。
  • 但当市场波动较大或风险厌恶时,拒绝报价机制便可介入,降低损失风险。

[page::5]

---

3. 图表深度解读



3.1 图1:市场造市训练流程示意图 (page 2)


  • 该图展示了三类市场造市代理以及对手之间的交互流程。

- 形象说明两动作和四动作代理先决定是否报价,若报价则调用始终报价代理策略确定具体买卖价差,否则不执行交易,奖励只基于当前库存状态更新。
  • 对手根据市场状态,调整市场参数$bn,An^\pm,kn^\pm$,反馈影响价格及执行概率。

- 该图阐释了训练架构在ARL中的执行逻辑,突出动作空间拓展对策略选择的实际影响。

[page::2]

3.2 图2:三类市场造市代理在风险系数$\eta=0.1, \zeta=0.0$下的收益分布及夏普比率 (page 5)


  • 三维图表显示固定、随机和全局对手环境中,始终报价(左墙)、两动作(中墙)、四动作(右墙)代理终端财富分布。

- 曲线分布峰值及宽度反映收益集中程度与波动,曲线顶点颜色映射夏普比率。
  • 右侧四动作代理部分体现少量非双边报价频次(低0值区域宽度略变差异),表明策略有适度拒绝报价行为。

- 从图中看,三类代理夏普指标均达较优水平,且双边报价主导报价行为,支持仅适度扩展动作空间策略的有效性。

[page::5]

3.3 图3:不同$\eta$和$\zeta$风险参数组合下三类代理表现对比 (page 6)


  • 6个小图展示不同风险配置环境中,三类代理的收益密度及夏普比率色条。

- 综合观察,随着风险权重变化,收益分布位置及夏普比率有所波动,但三代理表现趋势保持近似。
  • 尤其高风险厌恶情形下,代理收益集中程度更强,波动限缩,说明风险控制参数设计有效。

- 展示动态风险管理下不同动作空间策略的鲁棒性和适应性。

[page::6]

3.4 表1-3:三类策略在不同对手及风险系数设置下的量化绩效指标 (page 7,8)


  • 表1(始终报价代理)显示在全部对手及多组风险系数设置下,收益均值波动范围及报价比例均为100%双边报价,价差均值与波动均合理。

- 表2(两动作代理)报价比例明显显示“不报价”动作占比极小(报0%),双边报价主导,表现几乎与始终报价接近,收益和价差均相似。
  • 表3(四动作代理)报价比例显示部分单边报价使用(如双边报价约97-99%),但仍然非常主导两边报价,收益和价差略有变动。

- 三表均显示对手环境复杂度及风险厌恶系数对收益波动与价格控制有明显影响,但三类代理均有效满足市场报价比例约束,反映拟合策略的实用性。
  • 此三表为核心量化依据,直观呈现模型性能与灵活动作空间带来的边际改进。

[page::7][page::8]

---

4. 估值分析


  • 本文非财务估值研究,不涉及估值模型、目标价、折现率等参数配置,因此无相关估值分析。

- 本文重在提出和验证市场造市策略在博弈动态环境下的性能提升及风险控制,利用ARL优化策略动作决策。

---

5. 风险因素评估


  • 报告并未专门列风险章节,但隐含风险主要体现在:

- 市场环境非平稳及复杂度:对手(adversary)动态调整市场参数$b
n,An^\pm,kn^\pm$,构成对造市者策略的威胁。
- 库存风险:过多持仓导致亏损,本文引入风险权重$\eta, \zeta$调整奖励函数以抑制。
- 模型假设约束:例如单笔交易单位固定,价格模拟采用布朗运动简化,可能与真实市场波动偏差。
  • 训练过程及策略设计旨在减缓上述风险:

- 使用对抗训练模拟极端市场扰动,促使策略对模型不确定性鲁棒。
- 动作空间扩展允许造市者基于风险调整拒绝报价,主动规避高风险时段。
  • 关于缓解策略,报告通过ARL训练及增加动作灵活度体现,未量化风险发生概率,但实验证明整体策略夏普比率显著提升,间接说明有效缓解风险。

[page::0][page::3][page::5]

---

6. 批判性视角与细微差别


  • 潜在偏见与局限

- 模型简化了市场动态,仅采纳单资产,交易量固定单位,布朗运动假设市场价格行为,现实市场更复杂且存在跳跃波动和多因素驱动。
- 虽对抗训练考虑了多种对手策略,但尚未涵盖真实多策略市场参与者的复杂竞争行为。
- 报价比例达高水平,部分源于单笔成交单位限制,实际较大交易量时可能面临更高库存风险,动作空间与状态空间可进一步丰富以反映更复杂决策。
  • 内部细微之处

- 报告说明四动作空间增加了单边报价动作,但实验中单边报价实际应用比例极低,说明市场收益最大化下仍以双边报价为主,表明该动作空间增益有限。
- 奖励设计重点在库存惩罚,不同风险偏好影响显著,却未加入交易成本、滑点等现实交易成本考虑。
- 训练流程中将对手和造市者分开训练,考虑联动训练是否能进一步拓展策略鲁棒性尚未探讨。
  • 综合来看,虽然ARL为策略带来鲁棒提升,但实验环境相对简化,未来工作需要进一步逼近实盘复杂性。


---

7. 结论性综合



本文围绕市场造市策略的灵活性展开,突破传统必须持续发布双边报价的假设,引入“不报价”和“单边报价”两种扩展动作,设计三类市场造市智能体,利用基于模型的对抗性强化学习方法进行训练和评估,取得多方面关键发现:
  • ARL技术可靠性验证:通过自主开发的Python环境复现并扩展了[23]基于Rust实现的模型,均证实ARL训练能够显著提高市场造市策略的风险调整收益(夏普比率)。

- 动作空间扩展效果显著:赋予市场造市者拒绝报价和单边报价的选项后策略表现同样优异,并且在波动或高风险时段能降低损失,实现对风险的动态管理。
  • 报价比例满足监管要求:无论动作空间大小,市场造市策略均能满足大多数交易所对报价比例的限制(95%以上),最高达99.9%,表明现实适应性强。

- 库存风险控制有效:引入风险权重奖励机制限制持仓,依据风险厌恶不同,策略收益分布与夏普比率有显著变化,模型具备调节风险偏好的能力。
  • 图表与数据支持结论

- 图1充分展示训练机制和策略动作选择的流程。
- 图2-3显示三类代理在多种风险及对手环境下收益分布与风险调整表现均具竞争力。
- 表格1-3详尽量化了不同环境下收益、报价比例和价差,为结论提供坚实数据基础。

综上,本文创新性地引入报价灵活机制,强化了市场造市策略的鲁棒性与适用性,突破传统假设,为未来金融市场算法交易策略设计与监管政策制定提供了理论与实践参考。

---

参考文献



[报告附带详尽文献列表,覆盖市场造市经典理论、强化学习及ARL方法等,支持本文技术路径和理论基础。]

---

总结



本报告为基于对抗强化学习的市场造市策略提供了模型设计、算法训练和综合演示的深度解读,详尽剖析其理论基础、技术实现及实验结果。作者创新地突破传统市场造市“持续双边报价”假设,引入“不报价”“单边报价”策略动作,证明该灵活性可在复杂市场环境中提升风险调整后收益及满足市场监管要求。所用模型和数据完备,指标充分且表图丰富,内容系统严谨,具有重要的研究和应用价值。

[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8]

报告