`

Statistical Arbitrage in Options Markets by Graph Learning and Synthetic Long Positions

创建于 更新于

摘要

本文针对期权市场统计套利(StatArb)难以直接利用机器学习识别的问题,提出了一种两阶段图神经网络方法。通过设计纯套利目标变量,结合融入神经树结构的RNConv图卷积网络,实现对期权价格中的纯套利机会的精准预测。基于此,进一步提出了Synthetic-Long-Short-Arbitrage(SLSA)策略,理论证明SLSA持仓极低风险且对经典Black-Scholes风险因子保持中性。实证结果显示,RNConv显著超越主流GNN基准模型,SLSA持仓实现稳定正收益,信息比率达0.1627,展示了利用深度图学习捕捉期权统计套利的有效新路径[page::0][page::1][page::2][page::14][page::15][page::27][page::30][page::31]

速读内容


研究背景与问题定位 [page::0][page::3]

  • 统计套利定义为利用价格偏差获取正期望收益且损失风险可控的交易策略,但在期权市场中直接识别此类套利机会的深度学习方法较少。

- 现有方法多未能剥离风险因素或者未将统计套利作为核心目标,缺乏专门针对期权市场统计套利的图学习模型。

方法论创新:基于图学习的两阶段框架 [page::1][page::2][page::14][page::16]

  • 第一阶段设计预测目标变量$y{a,\tau} = \delta{a,\tau} - \bar{\delta}{Ma,\tau}$,通过去除零息债券价格部分, isolating纯套利成分,确保预测的是纯套利机会。

- 开发RNConv模型:融合神经树(NODE)结构和低秩交叉网络(CrossNet)的图卷积网络,有效利用期权市场复杂的标签型节点特征,同时得益于批归一化和非轴对齐树形决策边界,提高模型表达能力和训练稳定性。
  • RNConv由两层RNODE组成,节点特征包括行权价、剩余天数、隐含波动率与历史套利指标,结合邻居信息进行聚合预测。


交易策略构建:Synthetic-Long-Short-Arbitrage(SLSA) [page::20][page::21][page::22][page::23]

  • SLSA定义为满足行权日和行权价约束的合成多空策略,能够完全剥离零息债券与Black-Scholes风险因子,且价差过程方差为零,理论风险最低。

- 通过将RNConv预测结果映射到满足SLSA约束的零空间,实现极低风险的期权持仓组合以捕获套利利润。
  • 设计投影方法计算最优持仓权重,以预测的套利价值加权映射保障收益最大化同时满足约束。


实验设置与表现 [page::24][page::25][page::27][page::28][page::30]

  • 数据集:1997年至2024年韩国KOSPI 200指数期权历史数据。

- 交易宇宙通过半径邻居分类器动态选取高成交率合约,控制交易品种数,并构造典型的预测图结构。
  • RNConv在均方误差(MSE)方面显著优于四种主流GNN基准(GCN, GAT, SAGE, GPS)。

- SLSA持仓收益累计曲线稳定拉升,信息比率约0.16,明显优于两种基准持仓策略,后者因包含零息债券成分面临结算现金流的较大负面影响。

  • SLSA持仓有效控制交易集中度(Effective N 约20),持仓涵盖较宽行权价和期限区间。

- 投资深度(|S-K|)与预测套利价值正相关,表明深度虚值/实值期权蕴含更多套利机会。

量化策略总结——RNConv+SLSA框架 [page::14][page::16][page::19][page::23]

  • 以RNConv提取图结构和tabular特征交互,精确预测纯套利信号。

- SLSA策略利用该预测,通过投影构建几何约束持仓,保证策略对标的和相关风险因子的中性。
  • 系统设计避免了交易的运行前瞻性偏误,保证实盘可执行性。

- 实验验证了模型和策略的稳定性及超额收益能力,为期权统计套利研究开辟新路径。

深度阅读

研究报告详尽分析:


《Statistical Arbitrage in Options Markets by Graph Learning and Synthetic Long Positions》
作者:Yoonsik Hong, Diego Klabjan
机构: Northwestern University 工业工程与管理科学系
日期:报告元数据未具体给出,实验数据截至2024年底

---

一、元数据与概览


  • 标题:Statistical Arbitrage in Options Markets by Graph Learning and Synthetic Long Positions

- 作者与机构:Yoonsik Hong与Diego Klabjan,均隶属Northwestern University工业工程与管理科学系
  • 主题:利用图神经网络(Graph Learning, GL)和合成多仓(Synthetic Long Positions)策略,直接识别和利用期权市场中的统计套利(StatArb)机会

- 报告核心论点
1. 现有深度学习在期权市场识别统计套利方面尚未深入,尤其是直接识别纯套利机会。
2. 期权市场数据表面是具有关系结构的表格数据,传统图学习通常未充分利用树模型对表格数据的优势。
3. 本文提出两阶段解决方案:设计一个基于神经树的图卷积网络RNConv,针对构建的纯套利预测目标进行预测;提出Synthetic-Long-Short-Arbitrage(SLSA)策略,低风险且对经典Black-Scholes风险因子中性,通过SLSA投影实现对套利的实际利用。
  • 评级与目标价:无标准金融分析报告式评级或目标价,本报告属于学术研究型,重点在方法创新与实证验证,目标为有效利用StatArbs。

- 作者传递的主要信息:通过巧妙设计的图神经网络结构和理论严谨的合成多仓策略,结合“纯套利”预测目标,显著提升期权市场统计套利识别与利用效率,实现低风险、高效益策略,推动深度学习在量化交易领域的创新发展。

---

二、逐节深度解读



2.1 引言与报告背景


  • 核心论点

- 统计套利定义为利用价格偏差实现正期望收益且风险可控的交易策略。期权市场的StatArbs研究空白主要在于缺乏直接检测纯套利的机器学习方法。
- 现有研究未将StatArb作为直接建模目标,仅以辅助或比较视角探讨,无专门针对纯套利的预测与策略。
- 本文贡献在于提出直接检测StatArb(以纯套利为目标)的方法和理论基础,兼顾风险控制,填补研究空白。
  • 支撑逻辑:文献回顾指出现有机器学习在期权定价和对冲较多,StatArb识别缺乏专门方法。结合StatArb理论,提出必须设计专门的纯套利预测目标及对冲策略。


2.2 期权市场数据与图学习方法洞察


  • 核心论点

- 期权数据呈现节点对应具体期权和其特征(执行价、期限等)的表格形式,同时存在到期日和执行价带来的关系结构,该结构适合图学习处理。
- 但常规深度图神经网络(Deep Learning GL)在表格数据上的表现不如树模型(LightGBM、XGBoost等)。
- 本文提出将树模型嵌入图卷积的思想(RNConv架构),更好地利用表格特征与关系结构的结合优势。
  • 关键假设:以融合Nearest Obligious Decision Ensembles (NODE)的树模型为基础,兼顾可微性和端到端训练。


2.3 两阶段解决方案提案


  • 第一阶段——RNConv与“纯套利”预测目标:

- “纯套利”目标基于零息债券价差(通过put-call组合构造)偏差定义,结合无套利原理建立。
- 网络节点设计为共享执行价和期限的put-call对,节点特征纳入过去套利信息、隐波动率、执行价偏离程度(moneyness)、到期时间。
- RNConv融合Differentiable oblivious decision trees和图卷积进行特征提取,实验显示优于传统GCN、GAT、SAGE等模型。
  • 第二阶段——SLSA策略及其风险控制性质:

- SLSA为满足特定线性约束的合成多空组合,保证在无套利假设下价格方差为零且对Black-Scholes所有风险因子中性。
- 该策略从理论上最小化风险,且持仓只包含纯套利机会,免除标的价格波动带来的影响。
- SLSA projection用于将预测结果映射到满足约束的组合,平衡收益与预测误差风险。

2.4 文献综述


  • 机器学习在期权市场的应用:聚焦在定价、隐含波动率估计、对冲与最优停止问题,StatArb多作为辅助视角,现实中对StatArb检测及利用的方法稀缺。

- 图神经网络技术现状:广泛应用于社交网络等非欧式结构数据,已有工作在金融关联资产定价中使用图学习。
  • 不足及创新:图神经网络未充分考虑表格特征与树模型的优势,且目前在StatArb挖掘缺乏直接预测策略,本文提出RNConv解决该不足。


2.5 方法细节解读


  • NODE结构基础:利用可微分的决策树组合,用entmax替代步骤函数,支持端到端深度训练。

- RNODE改良:替换阈值和缩放参数为批量归一化(BN)、低秩交叉网络(CrossNet)和多层感知机(MLP),增强平衡分叉和非线性边界能力。
  • RNConv构造:图卷积层由两层RNODE组成,先对节点特征进行权重计算,后聚合邻居信息,叠加多层实现全局信息融合。

- 预测目标公式
\[
y{a,\tau} = \delta{a,\tau} - \bar{\delta}{Ma,\tau}
\]
其中 \(\delta{a,\tau} = \frac{S{\tau} - P{\tau}(SL; Ma, Ka)}{Ka}\),表示零息债券价格离散部分减去对应期限资产群体均值,纯粹揭示套利偏差。
  • 图结构设计:节点为合成多仓组合,边连接同期限最近的执行价邻居和同执行价最近的期限邻居,保证图模型学习的有效关系结构。

- 交易策略约束表达
- 对任一期限\(M\),头寸合计为0(保证无持仓标的暴露)
- 对任一期限\(M\),执行价加权身量合计为0(避开零息债券风险敞口)
- 整组头寸满足合成多空不持有多余标的
  • SLSA策略及投影:将预测出的利润向量投影到满足上述线性约束的零空间,获得满足低风险纯套利性质的交易头寸。


2.6 实验设计与数据处理


  • 数据来源:韩国KOSPI 200指数期权,从1997年7月至2024年底,包含成交价、开盘价、隐含波动率、执行价格等详细信息。

- 时间切片:以2015年初为起点,按季度分割数据集,进行多轮滚动训练验证,严格避免未来数据泄露。
  • 超参数设置:Graph构建参数\(p_{dg}=1/3\),RNConv χ值,entmax α值遵循文献推荐。Dropout率分别为输入0.2、中间层0.5。

- 交易宇宙选择:采用邻居半径分类器预测期權活跃度,结合约束条件解决子集选择的整数规划。

---

三、图表深度解读



3.1 图1:流程时间线及决策步骤分解


  • 显示每日交易流程,从前一日收盘后确定交易宇宙、训练与预测步骤,到开盘执行建仓。

- 展示策略关键模块:宇宙选择、套利预测(基于RNConv)、SLSA投影建立头寸,环环相扣形成闭环交易体系。

3.2 图2:期权合成多仓价格的最大-最小值与标准差随时间变化(252日滚动平均)


  • 纵观多年,由于市场非完美,零息债券价格的估计存在显著波动—最大差异约0.01,表明套利机会实质存在。

- 走向趋缓趋势显示整体市场趋向无套利假设,但明显波动仍提供预测与套利空间。
  • 该图充分支持本研究以这些偏差作为纯套利信号的设定合理性。


3.3 图6:交易宇宙大小随时间变化趋势


  • 显示所选交易宇宙规模逐年上升,2004年后趋于稳定,约16-32个合成多仓合约被选中。

- 速涨初期对应市场逐步发展,后期市场成熟后宇宙规模基本稳定。

3.4 图7:不同方法平均均方误差(MSE)时间序列


  • RNConv持续低于GCN、GAT、GPS、SAGE等对比方法,表明预测纯套利指标更为精准。

- 波峰对应异常市场事件如2020年疫情,体现模型训练难度和外部冲击的影响。
  • 细节显示RNConv稳定优于其他方法,尤其在股市平稳期表现突出。


3.5 图8:SLSA和基准策略累计盈亏变化


  • SLSA策略累计收益持续增长,曲线平滑且呈明显上升趋势。

- 两个基准策略虽短期有利润但整体趋势急剧下行,且在期权到期时出现明显负向震荡,说明基准存在较大风险与资金回撤。
  • SLSA的盈亏优势明显,支持理论证明的低风险纯套利特性。

- 图中手续费0.09%考虑,仍保证策略盈利,可认为具有实际交易可行性。

3.6 图9:绝对预测收益与执行价偏离的关系


  • 预测收益在远离执行价的深度价内外期权中较大,符合期权价格波动性在ITM和OTM更高的金融常识。


3.7 图10:预测收益向量与实际头寸的余弦相似度滚动平均


  • Cosine Similarity维持0.5-0.7区间,显示投影变换对原预测的调整合理,但保持较强相关性。


---

四、估值分析



报告中估值核心体现在构造的套利组合的价格性质分析:
  • 利用零息债券定价模型与无套利定价原理,推导出套利组合价值与风险特征。

- SLSA组合满足头寸线性约束,剔除零息债券风险,保留仅纯套利成分。
  • 证明其价格序列为零方差,且对Black-Scholes的主要风险因子(标的价格、波动率、利率变动等)中性。

- SLSA投影将预测结果映射到符合约束的空间,保证构造的头寸无风险敞口且具备潜在收益。

该估值设计具备强理论基础,强调无套利假设和一致性,保证策略在金融市场理论体系中的合规性和合理性。

---

五、风险因素评估


  • 基本假设风险:报告基于严格无套利假设、常数无风险利率及市场未受交易者影响等理想假设,现实偏离可能致风险暴露。

- 市场冲击风险:2020年COVID-19期间市况异常,模型预测误差增大,套利信号有效性暂时受限。
  • 执行风险:尽管理论上机构能随时做空买入,但实际交易中存在做空限制、流动性成本、交易延时等现实障碍未充分考虑。

- 策略风险:模型预测依赖于历史数据和特征选取,因果关系可能薄弱,预测误差和过拟合风险存在。
  • 头寸整合风险:投影方法产生可能非整数合约头寸,实践上需额外策略进行量化调整,尚未涵盖。

- 风险缓释:应用多层交叉验证、数据切分谨慎避免未来信息利用,提高模型稳健性;SLSA设计固有风险中和能力。

---

六、批判性视角与细微差别


  • 该研究创新性强且理论严谨,但采用的无风险利率常数、无交易成本、无限做空等假设与现实市场存在一定差异,后续研究需放宽假设范围。

- 报告中只处理了单一标的指数期权,实际多资产、多市场环境复杂程度更高,泛化性待考察。
  • RNConv提出了集成树模型的图神经网络架构,尚缺乏对比分析(如单纯树模型,纯神经网络与RNConv的内部机制对比)详细拆解。

- SLSA投影虽数学上优雅,但策略对于交易限制(合约整数、多空平衡)以及资金管理约束未详细阐述。
  • 成本和滑点虽在实验中简要计入,但实际市场执行风险难度高,模型盈利能力需谨慎看待。

- 数据集较长且全面,但历史时期经济环境差异较大,趋势和制度变更的决策系统鲁棒性不详。

---

七、结论性综合



本报告创新提出两阶段方法框架,理论与实证并举,显著推动期权市场统计套利机器学习研究:
  1. 新颖预测目标设计——以零息债券组成的合成多仓价格差作为纯套利信号,理论上明确风险和收益性质。

2. RNConv模型创新——融合神经树(NODE)和图学习,专门适应期权市场关系型表格数据,性能优于现有主流图神经网络。
  1. SLSA策略提出——满足严格线性约束,杜绝潜在风险敞口,实现完全对Black-Scholes风险因子中性,创新性强且具备理论保障。

4. 系统实验验证——通过韩国KOSPI200期权长周期数据,展示RNConv显著改善预测MSE,SLSA实现稳定正向累计盈亏,优于两个对比基准。
  1. 图表洞察——时间序列揭示套利机会真实存在且可预测,SLSA策略回测表现平稳且抗风险强,柱状图和统计检验支持显著性。


整体而言,研究课题切入准确,理论基础扎实,方法技术先进,实证表现优异。在学术和实务界均具重要参考价值,提出了可操作性的统计套利识别与构建策略新范式,并拓展了图神经网络在金融量化领域的应用边界。

---

图表示例
  • 图1:交易与模型流程时间线


  • 图2:零息债券价格区间与标准差随时间变化


  • 图6:交易宇宙规模时间序列


  • 图7:各模型平均MSE趋势


  • 图8:累计盈亏比较(SLSA vs Benchmark)



---

引用整合举例
  • 预测目标及套利定义,图构建与RNConv描述见页码0-2;

- NODE及RNODE结构数学细节页码5-17;
  • SLSA定义及其风险特性、投影关系详见页码20-24;

- 实验设置及结果详见25-32;
  • 结论总结页码30。


(以上所有分析均严格基于报告内容撰写)[page::0,1,2,5,6,7,13,14,15,16,17,20,21,22,23,24,25,26,27,28,29,30,31,32]

---

本分析严谨解析报告每章节重要论点与数据,揭示图譜背后的含义及方法创新与局限,力求提升阅读深入理解与应用落地参考价值。

报告