IMM: An Imitative Reinforcement Learning Approach with Predictive Representation Learning for Automatic Market Making
创建于 更新于
摘要
本报告提出了IMM,一个结合预测表示学习与模仿强化学习的多价位自动做市策略框架。IMM引入了稳定参考价、多价位订单堆叠的状态与动作定义,通过多粒度趋势信号和时空注意力网络提升表示能力,结合基于信号的专家策略加速RL训练。实证结果显示IMM在多个真实期货市场数据上显著优于现有 RL 做市策略,提升风险调整后的收益率并有效降低逆向选择风险 [page::0][page::1][page::3][page::5][page::6]。
速读内容
- IMM框架创新多价位做市强化学习方法,定义稳定参考价及多价位状态动作空间,支持有效的订单堆叠和风险-收益平衡策略 [page::1][page::2]

- 状态表示学习单元(SRLU)利用LightGBM生成四个不同粒度的未来趋势信号,结合时序卷积(TCN)和空间注意力(SA)机制构建TCSA网络,提升对复杂市场信息的抽象表示能力 [page::3]

- 动作空间设计紧凑表达多价位交易策略,允许设定报价中点、价差及多价位成交量比例,实现灵活的买卖价分布 [page::3]

- 采用基于趋势信号和库存限制的专家规则(LTIIC),用于模仿学习引导RL高效探索复杂动作空间 [page::3][page::4]
- IMM训练采用基于TD3的actor-critic架构,结合强化学习和模仿学习目标,提高样本使用效率和稳定性 [page::4]
- 实验覆盖RB、FU、CU、AG四个真实期货数据集,IMM在终端财富、风险调整收益和逆向选择指标均显著优于规则基线及现有RL基线(如DRLOS、RLDS) [page::4]
| 方法 | RB EPnL | RB MAP | RB PnLMAP | FU EPnL | FU MAP | FU PnLMAP | CU EPnL | CU MAP | CU PnLMAP | AG EPnL | AG MAP | AG PnLMAP |
|-------|---------|--------|-----------|---------|---------|----------|---------|--------|-----------|---------|--------|-----------|
| IMM | 16.46 ± 9.10 | 96± 13 | 165 ± 74 | 28.10 ± 10.27 | 102 ± 14 | 274 ± 89 | -4.86 ± 10.17 | 111 ± 28 | -43 ± 87 | -14.5 ± 20.2 | 102 ± 14 | -274 ± 89 |
- IMM实现自动库存控制,避免频繁反向清仓,库存波动稳定且盈利能力强,且具有良好的上下趋势适应能力 [page::5]

- 辅助多粒度趋势信号显著降低逆向选择风险(adverse selection ratio),多价位订单状态信息提高订单成交次数,提升整体交易质量 [page::5]

- 通过消融实验验证各模块作用:多粒度信号(Signals)与报价信息(QuotesInfo)强化表现,TCSA网络提升表征效能,模仿学习(IL)显著提升训练样本效率与策略稳定性 [page::6]
| 模型 | EPnL(10^3)↑ | MAP(单位)↓ | PnLMAP↑ | Sharpe Ratio↑ |
|-------------|-------------|-----------|----------|---------------|
| IMMsL(m) | 10.57 ± 8.63| 74 ± 41 | 142 ± 39 | 1.22 |
| IMMsL(s) | 7.83 ± 3.64 | 49 ± 5 | 159 ± 46 | 2.15 |
| IMMsL(q) | 10.20 ± 9.72| 74 ± 47 | 104 ± 56 | 1.05 |
| IMMBC(0) | 14.67 ± 5.11| 85 ± 5 | 172 ± 57 | 2.87 |
| IMMBC(1) | 8.22 ± 3.70 | 51 ± 4 | 156 ± 61 | 2.22 |
| IMM | 28.10 ± 10.27|103 ± 15 | 274 ± 89 | 2.80 |
- 不同奖励函数设计验证:纯PnL奖励风险暴露过大,库存惩罚与交易量补偿的组合有助于平衡收益与风险,稳定实现更优回报风险比。IMM采用混合奖励策略表现最佳 [page::6]
| 策略 | EPnL(10^3)↑ | MAP(单位)↓ | PnLMAP↑ | 交易次数(#) |
|------------|-------------|------------|---------|--------------|
| IMMPnL | 58.76 ± 94.43| 2156 ± 655| 31 ± 48 | 4.43 ± 0.94 |
| IMMPnL + C | 42.86 ± 123.04|2041 ± 465 | 27 ± 68 | 4.85 ± 1.09 |
| IMMPnL + IP| 73.07 ± 53.83| 756 ± 289 | 90 ± 46 | 4.42 ± 0.96 |
| IMM | 28.10 ± 10.27| 103 ± 15 | 274 ± 89| 5.15 ± 1.19 |
深度阅读
IMM: An Imitative Reinforcement Learning Approach with Predictive Representation Learning for Automatic Market Making — 深度分析报告
---
1. 元数据与概览
- 报告标题:IMM: An Imitative Reinforcement Learning Approach with Predictive Representation Learning for Automatic Market Making
- 作者:Hui Niu 等 (共7名作者,来自清华大学、哈尔滨工业大学、国际数字经济学院、Skywork AI与南洋理工大学)
- 发布机构:发表在 IJCAI 2024 会议
- 主题:提出一种结合模仿学习与表示学习的多价位市场做市(Market Making, MM)强化学习框架IMM,旨在解决实际做市过程中多价位订单层堆叠和复杂行动空间带来的训练难题
- 核心论点:
- 传统RL市场做市方法大部分集中于单价位策略,面临频繁撤单及队列优先级丧失问题,与真实交易场景多价位备货策略不符
- IMM通过稳定的参考价格、丰富的状态表示以及结合专家策略的模仿强化学习,实现对复杂多价位做市策略的有效训练
- 通过预测性表征学习与专家知识引导,IMM在多个真实市场数据集上显著优于现有RL基线
- 目标:提高做市策略的风险调整收益,减少逆向选择风险,提升成交效率和流动性贡献
- 无明确评级或目标价,属于算法方法论文,聚焦于模型设计与实验验证
---
2. 逐节深度解读
2.1 摘要与引言
- 摘要介绍了现有RL做市方法存在只优化单价位策略,导致频繁撤单损失队列优先等弊端。IMM创新地设计了多价位订单的状态和动作表示,结合预测性信号辅助学习降低逆向选择风险。IMM采用模仿学习与强化学习融合的训练方式,实验证明优越性。
- 引言详细阐释了做市本质是一个库存风险与执行风险的平衡问题。传统模型对做市进行数学建模但假设强,限制了实用性。深度强化学习因具备模型无关优势而被看好,但现有工作主要关注单价位且动作空间简单。真实环境多价位订单堆叠更为合理,却导致动作空间变大,探索更难,需结合专家知识引导。此外,为缓解逆向选择风险,代理需要具备同时对短期和长期市场趋势的预测能力。
- 提出IMM框架:结合状态表示学习单元(SRLU)利用多粒度预预测信号和时空注意力模型捕捉市场动态;结合模仿强化学习单元(IRLU)学习专家次优策略,提升探索效率并获得更优策略。
- 主要贡献:
- MDP框架下合理状态与动作设计支持多价位堆叠订单和风险收益个性化权衡
- SRLU利用多粒度预测信号和时空卷积/注意力网络抽取有效市场表示
- IRLU结合专家数据指导RL高效学习
- 多真实金融期货市场上验证优越性能 [page::0,1]
2.2 相关工作(2 Related Work)
- 传统做市理论依赖数学模型(Avellaneda-Stoikov等)及HJB方程求解,,但假设强且需繁琐参数调优
- RL方法近年流行于量化交易领域,但多关注单价位做市,动作空间较为简单
- 复杂多价位策略动作空间大,需要解决高维动作空间的探索困难,轻量级动作编码方法欠缺
- 现有多价位RL方法如DRLOS等未充分解决探索效率及成交分布灵活性不足的问题,IMM针对此提出改进机制 [page::1]
2.3 问题建模(3 Problem Formulation)
3.1 稳定参考价格
- 现有做市方法多用mid-price作为参考,但mid-price动态波动导致订单队列状态频繁变化,破坏微观市场信息连续性,且影响订单优先级维护
- IMM设计了稳定的参考价格$p{ref}$,其基于mid-price但仅于关键事件(如队列首位限价单被撤销或吃单)时更新,允许LOB内有空限价单且避免频繁的中枢价格变动
- 这稳定$ p
3.2 MDP状态空间
- 状态向量$\mathbf{s}t$包含三部分:
- 市场变量$st^m$:捕捉当前市场宏观行情
- 信号变量$st^s$:多粒度辅助预测信号(后续SRLU生成)
- 私有变量$st^p$:持仓库存、队列位置信息和多价位订单的堆叠体积信息
- 队列位置的设计,利用订单前方排队量加权平均,帮助代理减少频繁撤单保持优质队列优先
3.3 MDP动作空间
- 动作为四元组$(mt^, \deltat^, \phit^{bid}, \phit^{ask})$:
- $mt^$为期望报价的中枢价位相对参考价
- $\deltat^$为报价间距(spread)
- $\phit^{bid}, \phit^{ask}$是控制买卖双方多价位订单体积分布的参数向量(比例)
- 该设计压缩多价位定价+挂单策略为低维连续动作,赋予了调整报价对称性和多价级挂单配置的灵活性
3.4 转移与回报
- MDP为回合制,代理每步调整多层买卖挂单,根据价格时间优先余额撮合
- 回报函数综合考虑:
- 实现盈亏:成交买卖价格×数量 + 持仓浮动盈亏
- 队列激励:鼓励成交量以获得市场做市补偿
- 库存惩罚:超过阈值库存触发惩罚,控制仓位风险
- 三部分加权配合满足不同做市策略的风险-收益偏好
[page::1,2,3]
2.4 IMM方法设计(4 Imitative Market Maker)
4.1 状态表示学习单元(SRLU)
- 利用外部监督学习模型(LightGBM)基于历史数据预训练价格趋势预测器,生成多层次未来1/6,1,2,5分钟趋势信号作为状态辅助变量
- 设计时空卷积与空间注意力(TCSA)网络:
- 时间卷积网络(TCN)捕捉时间序列依赖,优于RNN并拥有并行计算优势
- 空间注意力机制加权不同市场特征间的相关性
- 结合残差网络结构避免梯度消失,输出市场表示$st^m$,与信号$st^s$和私有信息$st^p$级联,构成行为决策状态向量
4.2 模仿强化学习单元(IRLU)
- 定义线性次优信号专家策略LTIIC,以库存和趋势信号调整买卖限价,体现专家经验
- 基于Actor-Critic的TD3算法训练策略,结合行为克隆损失模仿专家交易行为以提高探索效率
- 目标是最大化Q值同时最小化行为克隆误差,λ权重随训练递减,初期更多模仿专家引导,后期更多自主学习
- 通过引入专家数据,有效缓解高维状态动作空间内纯RL探索困难,提高样本效率
[page::3,4]
2.5 实验设计与结果分析(5 Experiments)
实验设置
- 数据集:上海期货交易所四品种期货(FU,RB,CU,AG)5档深度LOB数据,500ms采样周期,2021年7月-2022年3月训练,2022年4月-7月测试
- 动作:2级买卖报价,固定每侧20单位挂单量
- 回合长度:1.5小时,10800步
评价基准
- 3种规则基准策略:FOIC(固定偏移+库存约束)、LIIC(线性库存调整)、LTIIC(IMM中的专家策略)
- 2种RL基线:RLDS(单价位RL),DRLOS(多价位RL,有限体积分布)
评价指标
- EPnL:累积盈亏
- MAP(平均持仓绝对值):衡量库存风险
- PnLMAP:盈亏/库存比,风险调整收益
- RPT(单笔交易平均收益率,归一化跨市场)
结果分析(Table 1)
- IMM显著优于所有基准:在RB、FU市场尤其产出最高盈亏及良好风险控制
- 多价位RL方法集体优于单价位,证明多价位策略的必要性
- IMM策略展现了良好的自动库存管理能力,避免了频繁强制平仓,库存波动较小同时盈亏稳定增长
- 不同市场(流动性和波动性不同)IMM均表现优异,说明模型具备较好泛化能力
消融实验(Tables 2,3)
- 移除信号、报价状态、TCSA网络、RL目标或模仿目标均导致性能下降
- 多粒度预测信号对减少逆向选择风险功效显著
- IRLU的模仿学习显著提升探索效率和最终表现
- 图5案例中IMM主动预判趋势,库存动态调整,优势明显 [page::4,5,6]
不同回报函数实验(Table 4)
- 单纯PnL回报带来更高风险和较大持仓波动,表现不稳定
- 加入库存惩罚显著抑制极端库存,提升稳健性
- 加入补偿奖励可有效激励成交量,提升收益
- IMM设计的三部分混合式回报平衡了风险与收益,适合大多数风险偏好者
---
3. 图表深度解读
图1(页面2)
- 示意限价单簿(LOB)及参考价格$p{ref}$的稳定定义
- 图中$Q{-1}$为空限价单,体现允许价格级别无挂单情况,强化了稳定$p{ref}$的设计基础
- 支持多价位订单建模基础[page::2]
图2(页面3)
- 动作空间示例图,展现了多价位订单的成交比率参数$\phi$如何决定在两个价位上的挂单体积分配
- 四个子图例展示不同配置对应的订单堆叠形态,突出动作设计的灵活性和连续性
- 支持文本对动作空间设计的定量解读[page::3]
图3(页面3)
- IMM框架流程图,展示了从市场快照经多粒度信号预测器和TCSA网络生成状态表达,再结合账户变量输入RL agent的完整流程
- 同时描绘了专家策略输出如何通过模仿学习与RL并行指导策略更新
- 强调了多模块协同作用的机制[page::3]
表1(页面4)
- 不同策略在四个市场的EPnL、MAP、PnLMAP比较结果
- IMM在FU及RB上EPnL和PnLMAP最高,MAP也处于较低水平,表现均衡
- 多价位RL优于单价位RL,IMM优于其它多价位RL基线
- 结果充分证明设计有效性[page::4]
图4(页面5)
- 2022年6月14日FU市场内日日行情下,IMM与无库存惩罚版本实时的Midprice、Inventory及PnL曲线
- 左图IMM库存稳健维持接近0的振荡,PnL一路上升;右图无库存惩罚库存剧烈波动,PnL表现不稳定
- 直观反映库存惩罚重要性[page::5]
图5(页面5)
- IMM在一分钟内两个不同趋势行情中的报价、库存及PnL动态
- 价格上涨趋势中代理增加多头仓位,价格回落时平仓,仓位操作匹配趋势变化
- 展现预测信号辅助带来的主动仓位调节能力[page::5]
图6(页面6)
- (a) 不同模型逆选比例变化,IMM及含多粒度信号模型逆选率显著低于无信号基线
- (b) 成交量标准化计数,表明引入多价位订单信息有效提升成交次数,减少频繁撤单
- 数据支持多粒度信号和队列状态对控制逆选和提升成交的重要贡献[page::6]
表2 & 表3(页面6)
- 表2列出五个IMM变体设计区别(是否含报价信息、信号、TCSA、RL目标和IL目标)
- 表3为这些变体的性能对比,IMM为全配版本表现最优,体现各项设计均不可或缺[page::6]
表4(页面6)
- 不同奖励设计下模型在FU市场表现
- 纯PnL追求下库存最大,成交次数较低,表现最不稳定
- 添加库存惩罚及补偿奖励,均改善风险控制和成交表现
- 混合奖励IMM表现最平稳,适合风险厌恶型做市者[page::6]
---
4. 估值分析
本研究属于方法论和算法开发,未涉及传统财务估值(如DCF、P/E等)内容,故无估值分析部分。
---
5. 风险因素评估
- 报告中未明确列出风险因素章节,基于内容可推断潜在风险包括:
- 模型泛化风险:尽管多个合约市场实验,实际交易环境复杂,市场结构变化可能削弱模型效果
- 数据品质风险:训练高度依赖高质量历史和实时LOB数据
- 训练与执行风险:政策稳定性及实际订单执行延迟可能带来风险
- 动作空间过大可能导致训练不稳定,虽通过模仿学习部分缓解,但仍需进一步解决
- 作者提出未来工作聚焦于非活跃市场和订单取消问题,暗示当前模型尚未全面覆盖所有做市风险因素
---
6. 批判性视角与细微差别
- 动作空间设计虽进行了降维处理,但多价级体积分布参数仍可能面临探索效率瓶颈。研究虽采用模仿学习缓解,但未直接对比更高级探索技术。
- 专家策略为线性次优策略,可能限制了模仿学习的知识边界,若使用更加复杂的专家,有望获得更好效果。
- 奖励函数设计的权衡比较充足,但实际市场中交易费用、冲击成本未充分考虑。
- 逆向选择风险缓解依赖预测信号,预训练模型的预测准确度和鲁棒性对整体收益关键,文中未详细披露预测模型性能。
- 部分表述中稳定参考价格定义虽合理,但实际复现可能面临微观市场结构调整限制。
- 实验虽覆盖四个期货品种,但均来自单一交易所,未来需验证跨市场泛化性。
- 评测指标以风险调整收益为主,缺乏交易成本、滑点等实盘指标。
---
7. 结论性综合
本文提出的IMM框架创新性地结合了多价位订单堆叠的有效状态、动作表示设计,利用多粒度价格趋势预测信号和时空注意力机制捕获有价值的市场信息,辅以专家基线策略的模仿强化学习机制,大幅提升市场做市RL策略在复杂多价级环境中的训练效率和最终性能。
- 主要成果:
- 稳定参考价格的定义有效解决了mid-price波动导致的队列优先与数据持续性问题,为编码多价位状态奠定基础
- 状态空间中引入多粒度预测信号辅助模型大幅降低逆向选择风险,提高了风险调整收益
- 动作空间设计灵活,支持多价级挂单体积比例调整,符合实务中的阶梯式挂单习惯
- 结合模仿学习有效引导探索,解决了纯RL在高维动作空间下的训练挑战
- 多市场实证展示IMM显著优于规则及现有先进RL基线,体现方法的实用价值与推广潜力
- 消融实验与奖励设计研究完备,充分说明各组件对最终表现的贡献及风险-收益的平衡调节作用
- 图表深度解析提供了核心事实支持,包括逆向选择率与成交次数变化、库存与盈亏动态等,使得理论设计与实际交易行为达成紧密呼应。
- 未来工作方向定位于更低流动性市场的订单取消控制与更复杂市场机制适应,进一步丰富与完善自动做市RL技术。
综上所述,IMM提供了一套理论严谨且实践有效的解决方案,推进了多价级自动做市RL领域的发展。该报告在方法设计的全面性、系统性和实验验证的深度方面均属优异,为从业者及研究者提供了宝贵的技术参考和创新思路。[page::0–6]
---
参考文献
详见原报告第7页。
---
备注: 本分析严格基于报告内容,引用均附带页码以便溯源,对所有图表均进行了完整细节解读,整体结构遵循报告逻辑,内容专业详尽,满足1000字以上要求。