`

Reinforcement Learning in High-frequency Market Making

创建于 更新于

摘要

本报告基于高频市场制造连续时间马尔科夫决策模型,构建离散时间近似模型,理论分析了采样频率对强化学习算法的影响,揭示学习误差与样本复杂度间的权衡关系。进一步拓展到两个市场制造者的博弈框架,证明离散时间纳什均衡收敛至连续时间纳什均衡,并应用纳什Q学习算法计算均衡策略。数值模拟验证理论结果,为高频市场制造中的RL算法采样频率选择提供指导 [page::0][page::3][page::8][page::12][page::16][page::20][page::23][page::24]

速读内容

  • 离散时间马尔科夫决策过程模型设定 [page::4][page::5][page::7]:

- 状态空间为价格与库存的乘积空间,有限且离散。
- 行动空间为买卖挂单价格的组合。
- 价格由连续时间马尔科夫链驱动,库存由受控泊松过程决定。
  • 离散模型$\mathcal{M}{\Delta}$对于连续模型$\mathcal{M}0$的逼近性质 [page::8][page::9]:

- 证明了当时间步长$\Delta \to 0$时,最优价值函数和最优策略的收敛性,误差界为$O(\Delta)$。
- 离散最优策略在$\Delta$足够小时等同于连续策略。
  • 单智能体Q学习算法与样本复杂度分析 [page::9][page::10][page::11]:

- Q学习采用$\varepsilon$-贪婪探索,学习率为多项式衰减函数。
- 样本复杂度呈多项式级上界,且随着$\Delta$减小(采样频率升高)而迅速增大,反映为交易成本的潜在增加。
  • 采样频率权衡分析,理论和实践意义 [page::11][page::12]:

- 学习误差随采样频率增加($\Delta$减小)而下降,样本复杂度却增加,存在权衡关系。
- 建议根据实际需求权衡采样频率选择,提升估计精度或降低交易成本。
  • 两玩家一般和博弈模型中的纳什均衡构建与收敛性 [page::12][page::13][page::15][page::16]:

- 设定两个对称市场制造者,竞价影响泊松强度函数采用分子分母单调函数形式,合理反映市场实际。
- 离散时间博弈下的纳什均衡策略存在且唯一。
- 证明离散均衡策略及对应价值随着采样步长$\Delta\to0$收敛至连续时间博弈的纳什均衡。
  • 多智能体纳什Q学习算法设计与收敛验证 [page::16][page::23][page::24]:

- 采用模型无关在线学习,自适应更新Q函数,策略通过静态两人博弈纳什算子求解。
- 数值实验显示学习误差逐渐降低,策略误差接近零,验证算法有效性。
  • 数值实验支持理论结论:

- 离散模型价值函数随$\Delta$减小收敛到连续模型价值函数,策略稳定(Figure 2)[page::20]。
- Q学习迭代次数(样本复杂度)随$\Delta$减小显著增加(Figure 3)[page::21]。
- 两玩家纳什均衡策略在不同$\Delta$下保持一致,价值函数收敛(Figure 4)[page::23]。
  • 本报告贡献在于结合现代强化学习理论与高频金融经济学连续时间模型,首次系统理论刻画强化学习采样频率影响,指导实际操作应用。算法设计含单智能体Q学习与多智能体纳什Q学习,理论与实验完整验证。

深度阅读

详尽分析报告:《Reinforcement Learning in High-frequency Market Making》



---

1. 元数据与概览


  • 报告标题:《Reinforcement Learning in High-frequency Market Making》

- 作者:Yuheng Zheng、Zihan Ding
  • 所属机构:Princeton University

- 发布日期:未显式指出,但报告结构和引用均较为新颖,内容涉及最新研究(至少2023年后)
  • 研究主题:高频市场做市中的强化学习(RL)算法理论分析,单人与多智能体(两玩家博弈)模型


核心论点与目标

本报告旨在填补当前文献中强化学习在高频市场做市问题应用的理论分析空白,聚焦于离散化时间采样频率对RL算法性能的影响。报告发现采样间隔$\Delta$存在一组有趣的权衡关系:采样间隔越小(采样频率越高),估计误差越小,但RL算法的复杂度和样本需求越大。此外,报告拓展至双市场做市者的非合作博弈情境,证明当$\Delta \to 0$时,离散时间游戏的纳什均衡点向连续时间博弈均衡点收敛,并提出用Nash Q-learning进行均衡学习的方法。

评级及推荐意见:报告是理论突破性质的工作,未设评级。

---

2. 逐节深度解读



2.1 引言(Section 1)


  • 关键内容


- 阐述市场做市过程,即做市商同时在买卖两边报价赚取价差,同时管理库存风险。
- 传统做市模型涉及连续时间随机过程及最优控制方法,现有经典模型包括Avellaneda-Stoikov (2008)等。
- 价格竞争的博弈理论模型(Kyle模型及后续研究)在现实中极为重要。
- 传统HJB PDE解法的不足在于需要已知市场动态模型,这在现实中往往不可用。
- 近年来机器学习,特别是强化学习因其无需模型假设而被引入金融领域做市策略学习。
- 目前绝大多数RL做市相关文献停留在算法设计和实证层面,缺乏理论分析。
  • 推理依据:市场微观结构与做市行为的复杂性需要求解高维、非线性随机控制问题,用RL直接数据驱动策略更适合现代电子交易市场需求。
  • 重要数据点/事实


- 引用Ho and Stoll (1981a,b)、Avellaneda and Stoikov (2008)、Gueant et al. (2013)等为经典做市文献。
- 强调RL算法多基于离散时间MDP,需对连续时间过程做合理离散化。

---

2.2 高频市场做市模型设定(Section 2)


  • 核心内容:


- 市场做市者的状态空间包括mid-price ($Xt$)和持有库存 ($Yt$),均在有限离散集合上。
- 价格离散于格点 $SP = \{0, \deltaP, 2 \deltaP, ..., NP \deltaP\}$,mid-price取两档价差的均值,故mid-price状态空间为 $SX = \{\frac{k}{2} \deltaP , k=1,...,2NP-1\}$。
- 库存空间有限,$SY = \{-NY, ..., NY\}$,主要用于限制持有风险。
- 行为空间为双向报价 $(p
t^a, pt^b) \in SP \times SP$。
- Mid-price服从受行为空间影响的连续时间马尔可夫链,转移率由速率矩阵 $Q
X(a)$给定,转移率被限制在 $(0, C\lambda)$ 内。
- 市场买卖订单流用强度依赖于报价与mid-price差值的受控Poisson过程建模,执行率 $\lambda(d) = \alpha \exp(-\kappa d)$,体现流动性。
- 库存动态为买卖订单流的净买入卖出,$Y
t = -Nt^a + Nt^b$。
- 奖励函数为:做市利润(成交价格与mid价的价差扣减交易成本),库存价值变化,和库存持有惩罚项(与风险厌恶因子相关的二次惩罚)。
  • 推理逻辑


- 离散化价格和库存有效简化模型,便于后续理论分析(有限状态空间使得Q-learning等表格型算法适用)。
- 控制Poisson过程允许根据报价动态调整订单成交概率,带来了市场冲击效应。
- 库存限制和惩罚反映真实做市需求,避免过度仓位积累。
  • 数据要点


- 状态空间大小:$|S| = |SX| \times |SY| = (2 NP - 1) \times (2 NY + 1)$。
- 交易成本 $c>0$,库存惩罚函数设为 $\psi(y) = \phi y^2$。
- 执行Poisson强度函数的参数 $\alpha, \kappa > 0$。
  • 专业术语说明


- Q矩阵(Rate matrix)是连续时间马尔可夫链状态转移率矩阵,描述状态间瞬时切换速度。
- 受控Poisson过程指Poisson到达率被控制变量(策略)影响的随机过程。
- 奖励函数定义代理的即时收益,强化学习的优化目标。

---

2.3 时间离散化与模型收敛性(Section 3)



2.3.1 离散时间模型(3.1)


  • 摘要


- 实际中做市商只能以离散时间进行操作,故构造以时间步长$\Delta$为间隔的离散MDP模型$\mathcal{M}\Delta$。
- 离散状态和动作空间与连续模型保持一致。
- 中值价格的转移用近似转移矩阵 $P
X(\Delta|a) = I + QX(a) \Delta$ 表达。
- 买卖订单的执行用伯努利过程模拟,概率同连续模型Poisson强度乘以$\Delta$。
- 持仓动态由前一时刻持仓减去卖出成交数加上买入成交数决定。
- 奖励函数$R
\Delta$为多个时刻累积的代理收益,含即时盈利、库存价值变化和持仓惩罚,贴现因子为$e^{-\gamma \Delta}$。
- 离散模型不是标准时间离散化,但有利理论处理且理论证明了其合理性。
  • 推理依据


离散模型是连续过程的自然近似,同步采样操作模式便于可操作性和可分析性。

2.3.2 收敛性(3.2)


  • 核心内容


- 定义相应的可测策略集$\mathcal{U}0$(连续)和$\mathcal{U}\Delta$(离散)。
- 存在相应最优策略$\pi0^$和$\pi\Delta^$,使两模型最优价值函数分别达到最优。
- 假设最优策略唯一,则存在阈值$\Delta0$:
- 当$\Delta<\Delta
0$时,离散最优策略和连续最优策略完全一致,即$\pi\Delta^ = \pi0^$。
- 离散与连续最优价值函数间差异以$O(\Delta)$量级收敛。
  • 重要结论解读


- 策略的精确恢复保证了离散模型作为近似的有效性。
- $O(\Delta)$阶收敛明确量化了时间步长影响,提供了理论支持。
- 这弥补了传统文献对离散近似收敛速度的不足。

---

2.4 样本复杂度(Section 4)



2.4.1 单玩家Q-learning(4.1)


  • 主要内容


- 定义在有限状态动作空间中,Q-learning算法迭代更新公式。
- 采用多项式衰减学习率$\beta^{(n)}(s,a) = (N(s,a,n))^{-\omega}$,$\omega \in (0.5,1)$。
- 引入$\varepsilon$-贪婪策略进行探索,$\varepsilon^{(n)}(s)$衰减至非零小值$\varepsilon0$。
- 利用样本复杂度定义(迭代次数以实现预定误差且概率$1-\delta$),结合已有理论求样本复杂度上限。
  • 关键结果(Theorem 2)


- 对于离散步长$\Delta$,任何精度阈值$\varepsilon
V$,满足概率$1-\delta$,样本复杂度$n$的下界为

\[
n = \Omega\left( (|SX| + |SY|) |\mathcal{A}| \varepsilon0^{-1} \right)^{3 + \frac{1}{\omega}} \varepsilonV^{-\frac{2}{\omega}} \gamma^{-\frac{4}{\omega}} \Delta^{6 - \frac{2}{\omega} - (|SX| + |SY|)(3 + \frac{1}{\omega})} + \Omega\left( (|SX| + |SY|) |\mathcal{A}| \varepsilon0^{-1} \right)^{\frac{1}{1-\omega}} \gamma^{-\frac{1}{1-\omega}} \Delta^{(1 - |SX| - |SY|) \frac{1}{1-\omega}}.
\]
  • 含义剖析


- 样本复杂度随着$\Delta \downarrow 0$趋向无穷大,即采样越密集训练所需的样本越多。
- 实际关联到交易成本上,因为每次更新对应于报价,报价频率提高成本亦升高。
- 上界仅为多项式级,非指数级,说明算法在理论上仍可接受。

2.4.2 误差-复杂度权衡(4.2)


  • 误差指标


\[
\| V
\Delta^{(n)}(\cdot) - V0^(\cdot) \| \leq \varepsilonV + CV \Delta
\]
  • 权衡规律


- 采样频率$1/\Delta$越高,最大误差$\varepsilon
V + CV \Delta$越低。
- 但对应的样本复杂度$B
n$反向上升。
  • 实务启示


- 用户需根据关注点选择采样频率:若注重估计准确性则倾向高频,否则倾向低频以降低成本和复杂度。
  • 图表分析(图1)


- 图表显示学习误差曲线与样本复杂度曲线在采样频率下呈现明显的相反趋势,交叉点标志着最佳采样频率平衡点。

---

2.5 双玩家非零和博弈设置(Section 5)



2.5.1 连续时间模型与纳什均衡(5.1)


  • 模型构造


- 两做市商(MM1和MM2),共用mid-price状态。
- 动作变量为双方买卖报价四元组。
- mid-price动态受两者报价影响的马尔可夫链,速率矩阵$QX(a^1,a^2)$体现价格冲击。
- 市场订单执行概率函数$\Gamma^{a,k}$与$\Gamma^{b,k}$依赖两个做市商报价,定义为比值形式,内含函数$\Upsilon^-$和$\Upsilon^+$(分别单调递减和递增)。
  • 纳什均衡定义


- 策略对$(\pi
0^{1,
}, \pi0^{2,})$为纳什均衡,若任一方策略偏离均无利益提升。
  • 理论基础


- 采纳Guo与Hernández-Lerma (2005)框架,状态、动作空间有限且受控,保证均衡存在。

2.5.2 时间离散化与均衡收敛(5.2)


  • 离散版博弈构造


- 采用与单玩家离散模型类似离散化方式。
- 执行概率按$\Gamma^{a,k}(X
i, pi^{a,1}, pi^{a,2}) \Delta$给出。
- 納什均衡定义同连续时间情形,只是动作策略为离散时刻的随机策略序列。
  • 收敛结论(Theorem 5)


- 假设连续时间纳什均衡唯一,存在离散时间纳什均衡$(\pi\Delta^{1,}, \pi
\Delta^{2,})$。
- 并且策略和价值函数随$\Delta \to 0$收敛,即
\[
\| \pi\Delta^{k,}(\cdot|s) - \pi
0^{k,}(\cdot|s) \| \to 0,\quad |V\Delta^{k, \pi\Delta^{1,}, \pi\Delta^{2,}}(s) - V0^{k, \pi0^{1,}, \pi0^{2,}}(s)| \to 0.
\]
  • 假设重要性


- 非零和博弈纳什均衡通常不唯一,故唯一性假设是收敛证明的关键。

2.5.3 Nash Q-learning算法(5.3)


  • 算法介绍


- 多智能体RL算法,迭代学习两个做市商的均衡Q值。
- 利用Nash算子代替单玩家Q-learning的“最大化”操作,找到任意阶段的二维策略纳什均衡。
- 算法迭代更新基于当前状态、动作、奖励及下状态投入均衡策略抽样的Q值。
  • 理论保障


- 在满足适当假设下,算法可收敛到真实纳什均衡,参考Hu和Wellman (2003)。
  • 算法结构详述


- 初始化Q表,执行$\varepsilon$-贪婪采样。
- 采集经历($s,a,r,s'$),更新Q值,重新计算当前策略纳什均衡。
- 多次迭代后输出策略为均衡策略。

---

2.6 数值实验(Section 6)



2.6.1 单玩家案例(6.1)


  • 参数设定


- $NP=2$(3个价格点),$NY=1$(库存范围$-1,0,1$)。
- Tick size$\deltaP$,折扣率$\gamma$,交易成本$c$等。
- Mid-price转移矩阵$Q
X$人为设定固定矩阵,无动作影响,便于验证收敛性。
- 采用10个不同$\Delta$逐步减小,从$10^{-1}$至约$10^{-3}$。
  • 实验结果


- 不同$\Delta$下的最优价值函数$V\Delta^(s)$逐步逼近$\Delta \to 0$的连续时间解$V
0^(s)$(图2)。
- 最优动作策略对所有$\Delta$均一致,验证理论策略收敛。
- 采用Q-learning,用迭代次数$N\Delta$满足$||V\Delta^{(n)} - V\Delta^|| \leq 0.1$作为复杂度指标。
- $N
\Delta$随着$\Delta$减小快速增大(图3),符合理论预测样本复杂度与采样间隔负相关。

2.6.2 双玩家案例(6.2)


  • 参数及模型选择


- 竞赛双方共用单资产状态空间。
- 执行强度函数$\Upsilon^{-}(d) = \alpha e^{-\kappa d}$,$\Upsilon^{+}(d) = \frac{1}{2}\sqrt{1 + 3 e^{-\kappa d}}$。
- 模型在对称性假设下,纳什均衡唯一。
- 同单玩家,$\Delta$从大到小取多个逐步逼近0。
  • 实验发现


- 不同$\Delta$下纳什均衡策略完全一致,价值函数收敛到连续时间预测(图4)。
- 对称纳什均衡,双方策略和价值函数相同。
- Nash Q-learning算法在离散博弈中收敛,学习误差随迭代次数下降(图5)。
- 策略误差间歇出现但随后消失,验证算法稳定性。

---

2.7 结论(Section 7)


  • 核心总结


- 本文首次提出高频市场做市中强化学习理论分析。
- 发现采样频率在学习误差与样本复杂度间存在权衡,指导实务采样频率选择。
- 从单玩家扩展到多玩家博弈,证明纳什均衡离散到连续收敛。
- 采用Nash Q-learning算法作为求解出离散时间博弈均衡的实用工具。
- 结果适用性强,可推广至其它离散化连续时间MDP,例如最优执行问题。
  • 未来方向


- 扩展至更复杂做市模型与深度RL算法。
- 紧化样本复杂度上界,或求取更优界。
- 多资产组合下的理论与算法扩展。

---

3. 图表深度解读



图1:误差与样本复杂度随采样频率变化的权衡曲线(page 12)


  • 描述:图中横轴为采样频率,纵轴为两条曲线:学习误差与样本复杂度。

- 趋势
- 误差随采样频率上升($\Delta$减小)降低,呈递减趋势。
- 样本复杂度随采样频率上升呈指数上升趋势。
  • 联系文本:直观为上述理论表述的数学表达,揭示了采样频率选择的实际矛盾。


---

图2:不同状态下$V\Delta^{*}(s)$对采样间隔$\Delta$的收敛情况(page 20)


  • 描述:9个子图对角阵形式展示状态(state)对应的最优价值函数随时间步长变化。

- 趋势
- 所有状态价值函数均呈现随$\Delta \to 0$向连续时间值函数收敛。
- 叠加虚线为最小步长对应近似值,所有曲线趋近于该虚线。
  • 联系文本:验证Theorem 1中离散MDP最优价值函数收敛连续版结论的数值效果。


---

图3:Q-learning迭代次数$N\Delta$随$\Delta$变化趋势(page 21)


  • 描述:迭代次数(满足预定误差)坐标对数纵轴,$\Delta$对数横轴。

- 趋势
- 迭代次数随着$\Delta$减小呈现明显上升趋势,验证样本复杂度理论增长。
  • 联系文本:支持Theorem 2中RL算法样本复杂度关于采样间隔的负幂增长。


---

图4:双玩家游戏中纳什均衡价值函数收敛(page 23)


  • 描述:不同mid-price下均衡价值函数随$\Delta$的变化。

- 趋势
- 双玩家均衡价值函数随$\Delta\to0$收敛,且两个玩家结果对称且近似一致。
  • 联系文本:显现Theorem 5中离散到连续博弈均衡的价值收敛性质。


---

图5:Nash Q-learning价值函数学习误差与策略误差标记(page 24)


  • 描述:左图为MM1,右图MM2,横轴迭代步长,纵轴为误差,红点标记策略误差非零时刻。

- 趋势
- 价值函数误差总体递减趋势,最终稳定在较低误差区间。
- 策略误差伴随价值误差上升偶尔出现,但多数时间策略误差为零。
  • 联系文本:证实Nash Q-learning算法的有效性与收敛稳定性。


---

4. 估值分析


  • 报告本质涉及高频交易下的优化问题,估值核心为价值函数$V^\pi(s)$,表示在策略$\pi$下,给定状态$s$的期望累计折现奖励。

- 采用动态规划 (Bellman方程) 或HJB方程(连续时)刻画价值函数,进而求得最优策略。
  • 估值方法是Markov决策过程框架下的增量式价值迭代,强化学习通过经验数据在无模型条件下逼近该价值函数。

- 本文没有直接讨论传统金融估值指标,而是以价值函数视角全面刻画策略优劣。

---

5. 风险因素评估


  • 策略唯一性风险:多纳什均衡可能带来策略选择的多样性,影响算法收敛和理论适用性;报告假设唯一性以规避此风险。

- 模型简化风险:价格动力为离散有限马尔可夫链且库存限制有限现实中仅近似,可能限制模型泛化。
  • 交易成本归一风险:虽然交易成本计入奖励,但实际交易费率、滑点等复杂因素未充分建模。

- 样本复杂度敏感:采样频率高导致样本复杂度暴增,实践中可能令RL训练成本难以承受。
  • 游戏博弈参数假设风险:市场订单执行率函数被简化且估计的参数依赖统计假设,若变动大将影响纳什均衡稳定性。

- 假定市场静态化:状态空间有限且市场动态简化,真实复杂时序依赖难以完全捕捉。

报告并未详细给出缓解策略,主要通过清晰界定模型假设和合理的数学框架规避风险。

---

6. 批判性视角与细微差别


  • 报告以有限状态和动作空间为基础,虽然技术分析方便,现实高频市场价格层级极多且连续,可能导致模型与实际差异较大。

- RL算法的样本复杂度虽然有理论保证,但指数依赖离散层数(状态动作空间),实际在大规模时可能不可行。
  • 假设唯一最优策略及纳什均衡在多智能体博弈中较强,现实中市场参与者策略多样可能导致多个局部均衡甚至震荡。

- 离散模型非标准时间离散化可能导致部分细节误差未控制,尽管收敛性被证明。
  • 实验中固定价格转移概率矩阵消除了动作的市场影响,弱化了强化学习“学习市场冲击”能力的验证。

- 忽视库存在双玩家模型中的作用,简化了问题但离实际做市商风险管理有距离。

这些细微问题均被恰当在文本中提示,并提出未来研究方向。

---

7. 结论性综合



本文系统地构建了高频市场做市问题中强化学习的理论体系,通过以下几个关键贡献:
  • 在有限状态空间连续时间MDP框架下,定义了含库存限制和价格冲击的高频市场做市模型。

- 构建时间离散化的近似MDP模型$\mathcal{M}_\Delta$,并严格证明其最优策略及价值函数以$O(\Delta)$阶的速率收敛于原连续模型,确保离散模型对连续现实的有效近似。
  • 针对Q-learning算法,给出了带采样频率$\Delta$依赖参数的样本复杂度多项式上界,证明采样频率越高,算法收敛所需样本越多,揭示实践中采样频率与训练复杂度的根本矛盾。

- 结合前两点得出误差与样本复杂度间的权衡关系,为实务选择采样频率提供理论指导。
  • 将单智能体做市模型推广至双智能体竞价博弈,构建连续与离散时间的非零和游戏,证明了离散纳什均衡向连续时间纳什均衡的收敛结果。

- 引入多智能体Nash Q-learning算法,理论支持和数值验证均显示算法能高效稳定地逼近均衡策略及相关价值函数。
  • 丰富了强化学习在高频量化交易尤其是市场做市领域的理论基础,拓展了金融经济学与机器学习的交叉研究视角。


从所有图表中可以提炼的深刻见解
  • 离散MDP的价值函数与策略随$\Delta$递减快速收敛,确保模型设计合理。

- Q-learning样本复杂度随$\Delta$的逆幂增长,意味着高频率训练需大样本支撑。
  • 玩家均衡价值函数与策略呈现高度的一致性与稳定性,算法鲁棒性强。

- 策略误差与价值函数误差密切相关,价值函数学习困难阶段易发生策略错误,算法设计可针对这一环节进行优化。

综上,报告以严谨的数学推导、合理的模型设计和扎实的实验验证,充分支持其核心论断和实用建议,为高频市场做市强化学习应用提供了宝贵理论及实践参考。

---

参考溯源



本文所有结论均对应报告内容,且均带有页码标记,便于后续追溯:
  • 离散时间MDP收敛理论、样本复杂度理论与实验验证详见[page::8,9,10,11,17,18,19,20,21]

- 双玩家博弈纳什均衡模型构造、时间离散化收敛及Nash Q-learning算法详见[page::12,13,14,15,16,22,23,24]
  • 证明细节及附录中相关数学工具见[page::28~39]


---

(全文约2200字)

报告