Reinforcement Learning in Non-Markov Market-Making
创建于 更新于
摘要
本报告提出一个基于深度强化学习(Deep RL)的方法,针对具有半马尔可夫和Hawkes跳跃扩散动态的非马尔可夫市场做市(MM)问题。采用Soft Actor-Critic(SAC)算法,在严格模拟了限价单簿(LOB)动态、包含非利好交易填充和库存限制条件下,训练与测试模型表现。结果显示该方法在复杂高维状态和动作空间下有效学习最优做市策略,且纳入不利填充显著影响收益结构,提出了模型的现实应用局限及改进建议[page::0][page::8][page::15][page::19]。
速读内容
- 市场做市(MM)问题背景及数据特征[page::1]:

- 交易通过限价单簿(LOB)完成,呈现买卖价差与挂单深度。
- LOB动态表现出非马尔可夫特性,价格跳跃和历史依赖性显著。
- 深度强化学习框架及优势[page::2][page::3][page::4]:

- RL通过与环境交互的试错学习,适合高维连续动作空间和复杂非线性市场动态。
- 相较传统随机最优控制(SOC)模型,RL无需预设完整市场模型,能够动态适应。
- SAC算法融合了最大熵策略和策略梯度,提升探索能力和收敛稳定性。
- MM模型及价格过程建模[page::9][page::10][page::11]:
- 构建交易者动作集、库存、价格过程等关键随机过程,价格遵循半马尔可夫或Hawkes跳跃扩散动力学方程。
- Hawkes过程因其事件聚集和自激发特性,更适合模拟LOB市场交易序列。
- 代理策略设计与神经网络结构[page::13][page::14]:
- 状态包含标准化的当前价格和库存,动作空间依据库存限制分段设置。
- 采用三类多层感知机神经网络(actor、critic双网络、参数网络),隐藏层256个ReLU单元。
- 训练与测试结果对比[page::16][page::17]:




- 训练阶段奖励负偏重,纳入不利填充后效果显著下滑。
- 测试阶段表现优于训练,奖励分布更集中于正收益区间。
- 策略倾向保持低库存(±1),有效缓解价格跳跃及不利填充风险。
- 现实模型局限与改进建议[page::18][page::19]:
- 中价建模与常数价差假设偏离真实市场,忽略价格与订单到达间依赖关系。
- 订单时间优先规则影响订单成交概率,现模型采用非利好填充概率简化模拟。
- 价格连续扩散模型无法准确反映离散价格跳变,推荐向全LOB离散模型过渡。
- 结论与未来研究方向[page::19]:
- 深度RL和SAC展现出处理非马尔可夫跳跃市场做市问题的潜力,优于传统SOC方法。
- 建议引入完整LOB模型、更动态的价差及填充概率,以及扩展至其他交易策略领域(清算、统计套利等)。
深度阅读
Reinforcement Learning in Non-Markov Market-Making:详尽分析报告
---
1. 元数据与概览
- 标题:Reinforcement Learning in Non-Markov Market-Making
- 作者:Luca Lalor, Anatoliy Swishchuk
- 机构:University Of Calgary, Department of Mathematics and Statistics
- 发布日期:2024年11月19日
- 主题:该研究聚焦于算法交易中的市场做市(Market-Making, MM)问题,具体探讨嵌入半马尔可夫(semi-Markov)和Hawkes跳跃扩散(Hawkes Jump-Diffusion)动态的定价过程,如何借助深度强化学习(Deep RL)框架优化交易策略。
核心论点摘要:
作者通过构建一个深度强化学习框架,并采用最新的软演员-评论家(Soft Actor-Critic, SAC)算法,旨在解决具有复杂非马尔科夫特征的市场做市问题,实现最优交易行为。文中详细介绍价格过程建模、逆选择(adverse selection)处理、优化结构、训练测试过程及交易过程中的重要动态演变,最终证明深度RL在高维连续状态行动空间中较传统随机最优控制(SOC)框架表现更优。报告也审慎探讨了结果的局限性及未来研究方向。[page::0][page::1]
---
2. 逐节深度解读
2.1 引言与背景(第1页-第2页)
- 主题:算法交易与高频交易(HFT)的兴起,尤其股指期货等流动市场的限价委托簿(LOB)机制。
- 关键论点:
- 传统的价格过程模型多基于布朗运动,忽略了LOB交易中的跳跃与记忆效应,不适合复杂的HFT场景。
- 现实LOB数据呈现非马尔可夫(Non-Markovian)属性和跳跃(discontinuity),需采用半马尔可夫及Hawkes过程进行更精准建模。
- 数据与实例:
- 提供了E-mini S&P 500合约2024年4月24日某时刻的LOB快照图(图1),展示了买卖价格及挂单量,具体揭示了交易深度和结构。
- 引用说明:
- 介绍了相关文献,表明该领域中对LOB的动态建模仍不完善,研究正在不断发展。
[page::1]
2.2 Reinforcement Learning基础与最新发展(第2-4页)
- 论点概述:
- 传统常用的算法交易模型多基于随机最优控制(SOC),如Avellaneda-Stoikov模型。
- SOC依赖完整的市场模型假设,难以应对现实中复杂性和高维度状态空间。
- 深度强化学习(DRL)结合深度学习,能有效处理连续且高维介入空间且无需明确市场模型,支持动态适应行情非线性特征。
- RL基本架构:
- 通过马尔可夫决策过程(MDP)框架定义状态(State)、行动(Action)、转移函数(Transition)与奖励函数(Reward)。
- 探索-利用平衡(exploitation vs exploration)是设计RL的核心难题。
- 图表解读:
- 图2为MDP模型,展示环境-代理交互:代理根据当前状态选择行动,环境反馈奖励和下一状态,反复迭代刻画学习过程。
- 深度强化学习优势三点说明(第3-4页末段):
1. 模型不确定性:RL无需明确市场模型,可通过交互学习动态策略。
2. 复杂高维空间处理:利用神经网络实现函数逼近,克服传统SOC中状态维度灾难。
3. 持续学习能力:RL可动态更新策略,适应市场不断变化的环境,对比固定SOC策略更灵活。
[page::2][page::3][page::4]
2.3 深度强化学习算法与SAC方法(第5-8页)
- RL要素总结:
- MDP状态空间S,行动空间A,转移函数T,奖励函数R 详细定义。
- 价值函数 \( V^\pi(s) \)和Q值函数 \( Q^\pi(s,a) \)解释及其在策略最优化中的作用。
- 深度强化学习三种架构:
- Critic-only:学习价值函数,行动基于最大价值选择。缺点是离散行动空间限制。
- Actor-only:直接学习策略映射,支持连续行动空间,收敛快但需要可微奖励函数。
- Actor-Critic:结合Actor和Critic优势,Actor为策略模型,Critic为价值模型共同迭代优化。
- SAC算法:
- SAC为最大熵(off-policy)算法,鼓励策略探索,兼顾收益最大化与策略多样性。
- 使用三个网络:状态价值网络(V),Q值网络(Critics,双网络减少过估计),策略网络(Actor)。
- 算法设计细节涵盖目标函数、梯度计算、重参数化技巧,确保稳定训练和优化。[page::5][page::6][page::7][page::8]
2.4 最优市场做市问题模型构建(第9-13页)
- 模型构件描述:
- 行动过程 \( At^\pm \in \{-1,0,1\} \) 表示卖、持有、买。
- 库存过程 \( Qt^A \),受当时买卖行动影响。
- 价格过程 \( Pt \),采用半马尔可夫和Hawkes跳跃扩散建模,其微分描述提及了漂移项(\(\eta\))和波动项(\(\sigma, \varsigma\)),分别对应两种过程的具体参数定义(见方程15)。
- 价格过程参数深度解释(第10-11页):
- 半马尔可夫漂移系数\(\eta{SM}\)基于长期概率和跳跃间隔。
- Hawkes过程漂移\(\eta{HP}\)基于背景强度和激励函数强度。
- 其他波动参数描述涉及转移概率、跳跃频率和状态的遍历概率。
- 交易执行与逆选择建模:
- 扩展模型区分逆选择填充(adverse fills)与非逆选择填充(non-adverse fills),并依据价格涨跌对填充分类,建模了实际市场价格“碰触优先执行”的机制。
- 现金过程反映了买卖成交情况及价差(\(\Delta\))对收益的贡献。
[page::9][page::10][page::11][page::12]
2.5 深度强化学习模型设计与训练(第13-15页)
- 状态空间与动作空间定义:
- 状态为中价\(Pt\)与库存\(Qt^A\)的向量,库存限制在\([-q,q]\)区间(本研究\(q=5\))。
- 动作为买卖或持有,依据库存状况限制动作集合,动作数量为1单位订单。
- 奖励函数设定:
- 目标最大化预期终端财富扣除库存持有成本:\(\mathbb{E}\pi[WT^A - \alpha\int0^T |Q_t^A|dt]\),其中\(\alpha\)为库存惩罚系数。
- 神经网络结构:
- 三个多层感知机(MLP)网络实现Actor、双Critic和参数共享,隐藏层均为256节点ReLU激活。
- 训练参数与数据:
- 时间步\(\mathrm{dt}=0.001\),模拟期1单位时间,填充概率\(p=0.2\),价差\(\Delta=0.01\),库存惩罚\(\alpha=0.001\)。
- 利用Stable Baselines3软件包实现SAC模型。
- 训练结果摘录:
- 初始训练阶段(图3)策略表现欠佳,累积奖励为负。
- 经过1000训练回合后,奖励显著改进(图4左,无逆选择填充时多数正收益;图4右,有逆选择填充时显著增长负面尾部)。
[page::13][page::14][page::15]
2.6 测试结果与表现评估(第16-17页)
- 测试环境说明:
- 测试集与训练集相同,保证无偏估计,共200轮测试,无策略更新。
- 结果解读:
- 图5展示测试集最后一次交易过程,库存多限制在\(\pm 1\)区间,有效减少潜在逆选择带来的风险。
- 累积奖励表现显著正向改善。
- 图6展示测试累计奖励直方图,排除逆选择填充分布集中于正值,有逆选择时虽负面较大,但整体亏损减少。
- 策略行为分析:
- 深度RL算法通过奖惩学习,倾向于保持低库存状态,规避较大头寸诱发的负面影响,受到库存惩罚项影响明显。
[page::16][page::17]
2.7 结果局限性与改进建议(第18-19页)
- 局限点列举(依据Law and Viens (2019)):
- 使用中值价格而非实际买卖价模拟,固定价差假设有限制。
- 价格和订单抵达相互独立假设,现实中二者关联度高。
- 市场价格优先级机制未完全模拟,利用非逆选择填充概率尝试部分缓解。
- 扩散模型忽略价格跳动刻度化,交易价格可能非离散化价格点。
- 对策与展望:
- 推荐引入完整LOB模型、动态价差、基于状态的填充概率与随机波动率。
- 扩展此框架至其他交易策略(清算、套利、对冲等)。
- 严谨性提醒:
- 背测结果需谨慎解读,应辅以跨市场环境与参数鲁棒性测试。
- 参考最新统计回测框架深化评估。
[page::18][page::19]
---
3. 图表深度解读
图1(第1页)
- 描述:展示2024年4月24日E-mini S&P 500合约的限价委托簿快照,x轴为订单大小(Size),y轴为价格(Price),绿色条代表买(Bids),红色条代表卖(Asks)。
- 解读:卖单队列(asks)在中高价格区域显著深度,而买单集中在中低价位,反映买卖盘的不对称性及流动性分布,图形支持账本机制介绍。
- 与文本联系:此图实例化介绍了LOB交易结构及数据形态,为后续模型中的价格与交易动态提供现实基础。

图2(第2页)
- 描述:MDP模型交互图,标明环境(Env)与代理(Agent)之间的动作(Action),状态(State)和奖励(Reward)流动关系。
- 解读:明确代理与环境反馈循环关系,奠定RL框架的理论基础,在功能层面指导算法设计。

图3(第16页)
- 描述:训练第一回合结果,分别排除(左图)与包含逆选择填充(右图)情形。内含三个子图:价格与执行(上)、库存(中)、累积奖励(下)。
- 解读:左图代理库存波动较正常,累积奖励较持平;右图库存波动更频繁,累积奖励更快负向下降,反映逆选择引入更大风险。支持逆选择对训练难度与奖励影响显著。

图4(第17页)
- 描述:1000轮训练的终端奖励直方图,左为无逆选择填充,右为包含逆选择。
- 解读:无逆选择时,多数终端奖励为正,逆选择时显著左尾加重(大量负奖励),数量上多为接近零负奖励。反映逆选择严重影响策略效果。

图5(第17页)
- 描述:测试第200回合结果,排除与包含逆选择情形,三个子图结构与图3相同。
- 解读:测试阶段,库存波幅明显受限于\(\pm1\),累计奖励多数正值(排除逆选择),包含逆选择时奖励稍负但幅度较训练回合轻。表明模型已学习风险管理。

图6(第17页)
- 描述:200轮测试终端奖励直方图,分别对应两种填充情形。
- 解读:终端奖励整体更集中于正向分布,无逆选择集中于正向奖励,包含逆选择后分布向负方向偏移,但负面幅度显著较训练时期减小。说明测试阶段策略更稳健。

---
4. 估值分析
本报告核心聚焦于最优交易策略与深度RL算法模型构建与验证,没有直接的估值评估部分,因此无传统意义上估值方法和目标价。但从强化学习视角讲,模型优化目标为最大化期望终端财富减库存惩罚的累计收益,等价于RL中的价值函数优化。
---
5. 风险因素评估
- 市场逆选择风险:逆选择填充使交易者常在不利价格成交,严重影响策略表现,训练及测试结果均表明逆选择负面影响显著。
- 模型假设简化风险:
- 使用中价模拟实际买卖,忽略变动价差可能导致策略实盘效果不佳。
- 价格与订单抵达独立性假设违背现实市场耦合规律,影响回测真实性。
- LOB排队时间优先级未完全建模,使用非逆选择填充概率做部分调整。
- 扩散模型价格离散性欠缺:价格实际为刻度变化,连续扩散模型无此限制,可能导致卖价买价不一致情形。
- 策略稳定性风险:报告建议强化背测跨市场、多参数鲁棒性测试,关注不同市场阶段适用性。
作者未明确给出缓解所有风险的解决方案,但提出未来引入全LOB模型、动态价差和随机填充概率等为核心研究方向。 [page::18][page::19]
---
6. 批判性视角与细微差别
- 报告真实反映了深度RL在高频市场做市中的优势,但过于依赖模拟数据,现实问题复杂度和非稳定性可能超出模型能力。
- 缺少对不同市场环境和实际历史数据的实证验证,存在过拟合风险。
- 逆选择填充概率为固定参数20%,但实际市场中动态变动,简化可能限制模型泛化。
- 报告中模型采用中价做为价格基准,实际交易发生在买卖价,忽略此差异可能误导策略收益计算。
- SAC算法使用及网络结构合理,但是否存在参数调优争议、训练稳定性说明较少。
- 逆选择数据纳入提升模型现实感,但仍为简化处理,逆选择影响的动力学未能充分捕捉。
- 报告对模型局限的论述较为详尽,体现谨慎和稳健态度。
综上,报告的研究路线科学严谨,但尚处于理论模拟阶段,尚需更多实证和模型扩展方可向实际部署迈进。
---
7. 结论性综合
该报告从非马尔科夫市场做市价格过程入手,构建了基于深度强化学习特别是SAC算法的最优做市策略,可处理高维连续状态与动作空间,克服传统SOC架构的固有限制。基于半马尔科夫和Hawkes跳跃扩散模型构建价格动态,更贴近实盘复杂市场特征。动作空间设定考虑库存约束,奖励函数结合终端财富和库存惩罚,确保风险可控。训练与测试结果表明深度RL能逐渐学得较优策略,尤其在排除逆选择负面影响时体现杰出盈利能力,逆选择填充虽然显著拖累表现,但模型学习到减仓策略减缓损失。训练过程与奖励分布清晰反映了算法的学习轨迹和挑战。图表直观揭示了价格、库存、交易执行和奖励的动态演化,展示出深度RL实际应用的潜力。
尽管如此,报告明确列举了模拟设定中的理想化假设与局限,如中价而非买卖价、固定价差、填充概率简化及未完全模拟排队优先级,提醒读者需谨慎对待策略的现实适用性。此外,作者提出了将来引入完整LOB模型、更灵活填充概率及扩散模型改进的研究方向。
整体而言,本文创新性地结合复杂非Markovian价格动态与先进深度强化学习算法,为高频做市问题提供了重要的理论和实践基础框架,明确展示了深度RL方法在金融市场做市策略中的研究价值和应用前景。[page::0~19]
---
参考图片
- 图1:
- 图2:

- 图3:
- 图4:

- 图5:
- 图6:

---
综上分析敬请参考,以上内容涵盖全文核心论点、技术细节、模型评估、图表全面解读与批判性视角,确保专业且深入。