Deep Reinforcement Learning in Cryptocurrency Market Making

创建于 2025-04-28T20:24:47.638520+08:00 更新于 2025-05-19T18:36:12.158586+08:00

摘要

本论文提出了基于深度强化学习的加密货币市场做市框架（DRLMM），采用先进的策略梯度算法（A2C与PPO）结合多级限价订单簿（LOB）、交易流不平衡（TFI）及订单流不平衡（OFI）指标作为观测空间，实现端到端的市场做市自动化。实验比较了两种奖励函数（位置盈亏与交易完成），验证了模型能在比特币、以太坊和莱特币市场中产生稳定且有利可图的日收益，并具备良好的泛化能力。结果显示，采用交易完成奖励函数的策略能够生成更多交易且更优的收益表现，且A2C与PPO算法在动作重复次数上表现出差异化的适应性，展现了DRL在市场做市领域解决随机库存控制的有效性[pidx::0][pidx::4][pidx::10][pidx::11][pidx::12]

速读内容

DRLMM框架设计亮点 [pidx::4][pidx::5]

- 观测空间融合了15级LOB价格及成交量的累积名义值、买卖不平衡指标（OFI）、交易流不平衡指标（TFI），加上自定义的RSI价量动量指标，形成高维输入特征。
- 代理状态空间包含库存使用率、总盈亏、未实现盈亏、限价单与中点价格距离及订单完成比例，利于全面风险控制。
- 动作空间包含17种动作，包括不操作、订单非对称布置、买卖偏移及快速平仓，确保灵活交易策略调整。

深度神经网络结构 [pidx::7]

- 采用三层前馈多层感知机（MLP），输入143特征维度，含100个时间滞后，先由共享层提取特征，后接独立策略网络（128单元）和价值网络（64单元）。

量化策略主体：A2C与PPO算法 [pidx::8][pidx::9]

- Advantage Actor-Critic（A2C）利用优势函数减少估值方差，采用n-step返回保证训练稳定，加快GPU异步训练效率。
- Proximal Policy Optimization（PPO）通过裁剪策略改动率保证策略更新稳定，优化策略代理函数避免大幅偏离旧策略。

奖励函数比较及效果 [pidx::4][pidx::10][pidx::11][pidx::12]

- 位置盈亏奖励基于未实现及实现价格变动，适合考虑持仓价值波动。
- 交易完成奖励为基于收益阈值的裁剪目标奖励，鼓励快速开平仓，防止长持仓投机，效果显著优于位置盈亏，产生更多交易且库存更低。

训练与测试数据覆盖 [pidx::5][pidx::10]

- 数据基于Coinbase交易所的15级LOB及订单流重构，自2019年9月27日至10月4日训练，11月1-2日测试，含BTC-USD、ETH-USD和LTC-USD三对。
- 训练步数达1000万，动作重复5次，保证足够训练强度。

绩效表现总结及跨币种泛化能力 [pidx::10][pidx::11]

- 在11月测试集日均收益均表现正收益，其中交易完成奖励机制的A2C对BTC和LTC表现优异，ETH波动较大。
- A2C与PPO对动作重复次数的适应策略不同：A2C倾向较小重复数（1或5），能更好地控制仓位和减少持仓周期；PPO则在较大重复数（5或10）下表现更佳。
- 跨币种测试中，训练于BTC的模型在ETH测试时反而表现更好，验证了LOB输入的普适性和模型的泛化能力。

交易行为细节观察 [pidx::11][pidx::12]

- 交易完成奖励的代理展示出更积极的交易订单执行频率和库存管理，且较少使用“平仓”动作，有效避免价差波动风险。

未来工作方向 [pidx::13]

- 建议引入多样奖励函数如差异夏普比率，比较更多深度学习网络架构并结合LOB进阶特征，优化交易策略表现。

深度阅读

金融研究报告详尽分析报告

报告元数据与概览

标题: Deep Reinforcement Learning in Cryptocurrency Market Making

- 作者: Jonathan Sadighian

机构: E´cole Pour l’Informatique et les Techniques Avanc´ees (EPITA)

- 发布日期: 2019年11月21日

主题: 深度强化学习在加密货币做市中的应用

- 核心论点:
本报告构建了一个基于深度强化学习（DRL）框架的加密货币做市系统（DRLMM），通过两个先进的基于策略梯度的算法与结合限价单簿（LOB）数据和订单流统计数据的观察空间进行交互，实现了自动化的、无需先验知识的做市和库存控制。两个不同的奖励函数被设计与比较，系统性能通过日收益和平均交易收益进行了评估。实验结果显示DRL在解决做市者面临的随机库存控制问题上是有效的。

报告结构清晰，涵盖从市场做市及强化学习基础介绍、相关研究综述、贡献说明、实验设计、方法学、结果分析，到未来展望。作者重点在利用深度强化学习解决加密货币市场做市的复杂问题，弥补过去针对LOB和订单流深度学习研究的不足，推动量化交易与机器学习的结合。[pidx::0][pidx::1][pidx::2][pidx::3]

---

深度章节解读

1. 引言与做市基础知识（Section 1）

1.1 做市背景：

做市商在市场中提供双边报价，捕捉买卖差价（Spread）以盈利，同时需要持续调整报价避免库存风险。不同市场结构中做市商角色差异显著，特别是加密货币市场无专职做市商，竞争和流动性由机构与散户共同提供。

1.2 限价单簿（LOB）：

LOB按买卖方向、价格和时间优先级管理挂单，区分限价单与市价单，前者增加流动性，后者消耗流动性。加密市场采用Maker-Taker手续费模型，激励做市商挂单提供流动性以获得手续费回扣（Rebate）。

1.3-1.4 订单流不平衡（OFI）与交易流不平衡（TFI）：

如表1所示，订单事件包括取消（C — 移除流动性）、限价单（L — 添加流动性）、市价单（M — 移除流动性）。OFI统计上述事件属性，TFI衡量买卖发起量差异，二者被视为价格未来波动的重要指标。TFI计算方法区别于以往的净买卖额差异，采用自定义公式以适应本实验需求。

1.5 强化学习概述：

以马尔科夫决策过程（MDP）为框架的RL使智能体通过试错学习基于状态采取行动，最大化奖励信号。此处强调市场状态是部分可观测的，采用部分可观测MDP（POMDP）模型。两大类无模型强化学习：价值型方法与直接策略梯度方法，后者更适合本文利用的Actor-Critic结构。

1.6 深度强化学习（DRL）：

神经网络被用作策略函数逼近器,相较线性方法更善于处理高维观测空间问题。

此节为报告奠定理论与应用基础，明确将用深度强化学习中的先进策略梯度方法解决加密货币市场做市中的复杂库存和报价优化问题。[pidx::0][pidx::1][pidx::2][pidx::3][pidx::6]

---

2. 相关研究综述（Section 2）

早期DRL成功应用于博弈如围棋和Atari游戏，多为基于价值函数的方法；金融交易领域中，基于策略梯度的方法显示优于Q-learning（价值型方法）在学习交易动态上的效果。

- 现有研究虽然尝试各类奖励函数（如Sharpe比率及其变种），但大多仅用价格收益序列作为观察输入，较少考虑LOB及订单流详情。

现有市场做市RL尝试中，[19]等未利用深度神经网络，仅用线性组合与自定义奖励函数取得稳定表现；[15]采用分层智能体架构但缺乏库存约束导致现实应用局限。

本报告创新点即包含使用更丰富的LOB层级数据（15层）、订单流与交易流指标，结合两个先进的策略梯度算法（A2C和PPO），实现稳定有效的深度强化学习自动化做市策略。[pidx::3]

---

3. 论文贡献（Section 3）

主要贡献:

算法分析: 比较Advantage Actor Critic (A2C)和Proximal Policy Optimization (PPO)两个策略梯度算法在3个币种（BTC、ETH、LTC）上的表现和泛化能力。

2. 奖励函数评估: 分析两种奖励函数——基于持仓盈亏(Positional PnL)和基于交易完成(Trade Completion)的表现差异。

框架实现: 展示了无先验知识条件下，基于深度强化学习的做市智能体学习全过程。

贡献清晰界定了本研究在加密货币做市领域DRL应用上的核心价值，尤其是结合了详细市场微结构数据和先进算法的创新尝试。[pidx::4]

---

4. 实验设计（Section 4）

4.1 环境设计

观察空间(Observation Space)分为三部分：

- 环境状态空间（ESS），包含15层LOB价格与累积名义价值、价格成交量不平衡指标、订单流不平衡指示、买卖价差、定制的价格动量、自定义交易流不平衡以及环境奖励信号，总计构成143维特征，时间窗口长达100个步骤(秒级)。
- 智能体状态空间（ASS），包含当前仓位占比、总体及未实现盈亏，挂单距市价距离和挂单完成率等风险与执行透明度指标。
- 智能体动作空间（AAS），总共17个动作，包括无操作、在不同LOB层价格上下单、向买/卖单边下单偏斜、清仓等，反映复杂的做市行为策略。

关键公式和指标详尽定义了各指标计算方法，比如名义价值不平衡、订单流不平衡、交易流不平衡计算方式，确保特征能准确反映市场微观动态。

4.1.4 奖励函数设计

Positional PnL：结合未实现盈亏变化和已实现盈亏，反映持仓价值的即时变化。

- Trade Completion：基于交易盈亏的目标差距阈值设定，奖励值为-1到1间离散化或连续奖励，该结构鼓励智能体高效完成交易，不鼓励持续持仓的价格博弈。

4.2 函数逼近器

采用多层感知机（MLP）神经网络，将143维×100步的矩阵输入，经过一个共享特征层256单元，随后分拆为128单元策略网络输出17动作概率和64单元价值网络输出一个值函数估计，体现Actor-Critic结构。

4.3 智能体算法

A2C：基于异步Actor-Critic方法，同步更新，利用优势函数减少梯度方差，推进策略的稳定学习。

- PPO：通过限制策略更新幅度的剪切目标函数（clipped surrogate）最大化奖励，提升策略迭代稳定性，防止过大步长引起性能下降。

5. 方法论

数据采集: 采用Coinbase交易所的逐笔成交(order-level tick)数据实时采集，存储在MongoDB，再回放重构LOB及OFI、TFI。数据降采样为每秒快照约84600条。

- 数据预处理: 使用已被验证的归一化方法，使LOB数据转为平稳，便于训练深度学习模型。

环境规则: 限制每侧挂单数量，支持订单部分成交后更新价格及挂单队列排位。交易过程中考虑市场订单手续费，限价单免手续费设计。

- 训练测试: 训练期覆盖8天，测试两天，3币种数据。训练1千万步，5倍动作重复策略减轻动作决策过度频繁所致不稳定。

以上实验设计精确模拟真实市场微结构，同时结合最前沿深度强化学习技术，实现场景高度还原与算法性能验证。[pidx::4][pidx::5][pidx::6][pidx::7][pidx::9]

---

5. 实验结果与分析（Section 6）

实验量化指标 (表3、表4)

表3显示两种奖励函数在三个币种和A2C、PPO两智能体上的平均每笔交易盈亏率，数值整体偏低，且在不同币种之间波动显著，其中BTC的表现相对更稳定。

- 表4中“平均每日收益率”指标显示，整体正收益主要来自以交易完成为奖励函数的模型，且A2C优于PPO，但ETH表现较弱，LTC表现最为波动。

奖励函数效果

交易完成奖励函数表现更佳且收益更稳定，因为其推动智能体频繁交易且注重交易完成，不鼓励长时间持仓，库存更低，从而降低风险。相反，持仓盈亏奖励函数智能体清仓动作频繁，反映其对价格变化敏感度较强。

- 图5直观展示了相同合约上两奖励函数智能体的买卖点标记、库存及收益变化。

动作重复参数影响（Figure 4）

A2C在较小的动作重复值（1或5）下收益率和仓位管理表现更优，持仓周期短，风险管理较好；PPO则相反，高动作重复值（5或10）下有更好表现，表现为快速积累仓位并长期持有。

- 体现不同算法对于动作采样频率的敏感性，反映了奖励设计和算法本身策略执行的差异。

泛化能力（Section 6.2，图6）

训练于某币的智能体在交易其他币种时表现同样良好，尤其是由BTC-USD训练的智能体在ETH-USD上的表现超过在ETH训练的智能体。

- 本研究支持“LOB的普适性”观点，认为不同币种间的市场微结构存在共性，可训练出泛化能力较强的做市策略。

多组图7-12展示了各币种智能体在不同测试集上的详细交易行为、库存变化和累计盈亏曲线，验证了模型对不同币种和奖励函数的适应性与稳健性。

总体结果表明本研究提出的DRLMM框架不仅能实现盈利且具备一定的跨品种泛化能力，是实际做市策略设计的重要探索。[pidx::10][pidx::11][pidx::12][pidx::16][pidx::17][pidx::18]

---

6. 估值方法分析

本论文不涉及传统企业估值或金融资产定价模型，核心在于构建一个强化学习智能体在交易环境内的性能优化和收益最大化。

其价值体现为智能体通过DL网络策略学习，隐式估计做市收益的最大化路径，强化学习框架本身通过奖励函数间接定义“估值反馈”，无显式现金流折现或市场倍数分析。

---

7. 风险因素评估

市场流动性风险：由于加密货币市场无专职做市商，流动性较弱且波动性高，智能体可能面临订单长期无法成交的风险。作者通过限制挂单数量和库存管理参数缓解。

- 数据和模型风险：基于历史LOB及订单流数据训练，市场结构变化或突发事件未在训练集中体现，可能导致模型表现失效。

交易成本估计不准确：只在市价单计入费用，限价单忽略手续费，实际交易费用可能侵蚀收益。

- 动作空间限制及简化假设风险：动作离散，仅17种，未实现更细粒度报价调整，及未实盘中竞价优先级变化的动态复杂性。

报告说明部分实现细节，有意识约束模型简化复杂度，但未明确提出具体缓解概率或风险管理策略。[pidx::9][pidx::10]

---

8. 批判性视角与细微差别

奖励函数设计与合理性：两种奖励函数均有优势，交易完成奖励更利于短线稳定盈利，持仓盈亏奖励促使智能体对价格敏感，如何结合或设计用于不同做市风格值得深入研究。

- 数据归一化和特征选择：采用归一化等技术提升模型训练效果，但对异常行情有效性未有展开，若数据突变可能导致模型误判。

动作重复策略：虽减少训练时动作过于频繁的问题，但实际高频做市环境动作需要动态调整，动作重复策略是否与实盘需求完全匹配存疑。

- 实验时间窗口及样本尺寸：训练8天、测试2天数据相对有限，长期效果和稳健性待验证。

跨币种泛化结论具有启发性，但差异仍存在，实际市场中是否普适尚需进一步验证。

整体报告具有较强理论和实验基础，细节处理较完全，但对现实交易环境复杂性依然存在理想化简化，未来需要结合更丰富市场动态进行测试验证。[pidx::9][pidx::11][pidx::12]

---

9. 图表深度解读

图1：马尔可夫决策过程示意图（第2页）

展示了智能体与环境之间的反馈循环。智能体观察状态$St$，执行动作$At$，获得奖励$Rt$，环境状态转移到$S{t+1}$。

- 说明了强化学习基本框架，有助于理解POMDP在做市中的应用。

表1：订单流事件类型（第2页）

明确市价单、限价单、撤单三类订单对流动性的影响和分类，奠定后续OFI计算基础。

表2：动作空间（第7页）

列举17个动作流水号及其对应买卖挂单的LOB价格层级设定，动作涵盖了无操作、单边偏斜、双边均衡及清仓等基本做市动作，体现策略的灵活性。

图2：交易完成奖励函数示意（第8页）

奖励随盈亏成比例变化，设定盈亏>=0.2%时奖励1，全亏则-1，区间平滑过渡。此设计鼓励智能体快速完成盈利交易，避免长期持仓风险。

图3：MLP网络结构示意（第8页）

显示了输入维度（143特征×100时间步）、共享层256单元，分支策略层128单元与价值层64单元的深层感知机结构，体现了基于时间序列特征提取的端到端学习架构。

表3-4：每日及每笔交易平均收益(第10,11页)

数据明确展示不同币种、奖励函数、算法组合的盈利表现，说明交易完成奖励明显提升绩效，尤其A2C算法在BTC、LTC的明显优势。

图4：动作重复对PPO效果的影响(第11页)

两组子图比较动作重复为1和10的PPO交易行为和绩效。左图动作频繁，仓位较小及时调整，右图则较少动作但仓位积累明显，收益曲线更优秀，揭示策略平衡点。

图5：奖励函数对A2C交易行为影响（第12页）

左侧Positional PnL奖励的智能体动作较少，仓位波动大；右侧交易完成奖励智能体多次交易，仓位变化频繁但风险更低，收益曲线更积极。

图6：跨币种泛化示例（第12页）

同币种训练与异币种训练智能体在ETH-USD上的表现对比。异币种训练智能体表现优于同币种同，验证了LOB普适假说。

图7-12：各币种及不同奖励训练智能体的测试结果(第16至18页)

展示了详细的价格、仓位、收益时间序列，买卖订单散点分布情况，直观表现算法对市场行情的适应性与决策逻辑。

---

10. 结论性综合

此报告全面系统地论证了基于深度强化学习的加密货币市场做市的可行性和有效性。通过选用A2C和PPO两种先进策略梯度算法，在多维观察空间中充分结合限价单簿复杂结构、订单流不平衡与交易流指标，智能体无需先验知识即可实现市场做市与库存控制的动态决策。

奖励函数设计：交易完成奖励函数在盈利稳定性和降低库存暴露方面表现优于持仓盈亏奖励。

- 算法选择与动作重复：A2C适合小动作重复频率，PPO则偏向大动作重复，提示决策频率对风险/收益管理影响显著。

泛化能力：训练于某币种的模型在其他币种测试中仍能保持较好表现，支持LOB结构在不同加密资产间的普适性和策略迁移可能。

- 系统架构：多层神经网络结构成功实现了从LOB数据到交易动作的端到端映射，强化学习框架有效处理了部分可观测环境中的库存管理等随机动态控制问题。

报告贡献了加密货币市场做市策略设计的新范式，融合深度学习和强化学习技术，推动自动化、智能化交易系统的发展。其定义的多维特征体系和严谨的实验设计具有较高借鉴价值。

图表支持: 表3和表4数据清晰展现不同组合的收益指标，图4、5等辅助说明动作重复、奖励函数对策略行为的影响，图6验证泛化能力，附录图7-12为策略交易细节提供直观展示，整体数据与图表环环相扣，论据充分。[pidx::0][pidx::4][pidx::6][pidx::10][pidx::11][pidx::12][pidx::16][pidx::17]

---

总结

本文报告详尽描述了如何利用深度强化学习技术解决加密货币做市中的高维状态观察、订单流动态及随机库存控制问题。以先进策略梯度算法为核心，融合丰富市场微观结构信息，设计了合理的奖励机制和实验环境，实现了有效稳定的自动化做市交易系统，且展示了跨币种泛化潜力，具有较强科研前瞻性和应用实用价值。

以上分析全面涵盖了报告的技术细节、实验设计、数据解读、方法优缺点及未来研究方向，并重视了图表内容的深入连接与解读，确保整体脉络清晰、专业权威。