Statistical arbitrage in multi-pair trading strategy based on graph clustering algorithms in US equities market
创建于 更新于
摘要
本报告基于图聚类算法构建统计套利策略,结合机器学习分类器集成和Kelly准则,提出创新的动态止盈止损函数,显著提升风险调整后收益,且对交易成本具有良好耐受性。研究结果显示,该策略在实际交易成本设定下表现优异,且对关键参数的变化敏感度分析验证了模型的稳健性 [page::0][page::1][page::6][page::18][page::29].
速读内容
- 原始图聚类统计套利策略复现及验证 [page::6]



- 无交易成本时复现结果与文献相符,年化收益率约10.2%,夏普比率约1.17。
- 加入0.05%交易成本后策略表现大幅恶化,年化收益率降至2.44%。
- 交易频率调整(如组合调仓改为每10个交易日)有效降低交易成本影响。
- 信号质量分类器构建及性能 [page::9][page::10][page::11][page::13]
- 采用图结构特征(局部/全局顶点度、群集规模等)和传统价格行为特征,构造14维特征向量。
- 训练五类分类器:MLP、AdaBoost、Histogram Gradient Boosting、SGD和逻辑回归,利用网格搜索调参。
- Histogram Gradient Boosting表现最佳,Brier评分0.218,精确率65.3%。
- 构建加权软投票集成分类器,其中Histogram Gradient Boosting权重加倍,优化信号筛选效果。
- 确定交易概率阈值为0.6,约保留10%信号,平衡交易机会与成本。

- 风险管理创新及Kelly准则应用 [page::16][page::17]
- 设计动态时间衰减止盈止损函数,止盈阈值从8%按时间递减,止损阈值从5%递减。
- 采用基于分类器输出的盈利概率,通过Kelly公式动态调整持仓资金比例,优化资金管理。
- 用概率加权调整止盈止损阈值,降低信号不确定性带来的潜在损失。
- 策略整体表现及绩效对比 [page::18][page::19]
| 指标 | 策略 | 文献复现含交易成本 | 文献复现无成本 | SPY |
|--------------|----------|-----------------|-------------|-------|
| 年化收益率 | 49.33% | 1.13% | 9.01% | 9.12% |
| 年化波动率 | 38.01% | 9.16% | 9.14% | 20.11%|
| 信息比率 IR | 1.30 | 0.14 | 0.96 | 0.45 |
| Sortino比率 | 3.38 | 0.29 | 1.77 | 0.70 |
| 最大回撤 | 31.98% | 34.30% | 20.68% | 55.19%|
| 最大亏损持续期 | 2.10年 | 2.59年 | 1.54年 | 4.85年|
| Calmar比率 | 1.54 | 0.04 | 0.44 | 0.17 |
| 综合信息比率 IR*| 2.00 | 0.01 | 0.42 | 0.08 |

- 策略在综合风险调整回报、下行风险指标均明显优于基准及SPY。
- t检验显示策略相较SPY信息比率有统计学显著提升。
- 参数灵敏度及稳健性分析 [page::20][page::21][page::22][page::23][page::24][page::25][page::26][page::27][page::28]
- Kelly及动态止盈止损改进对策略影响有限,主要改善下行风险。
- 集成模型权重调整影响显著,加权集成优于均权及单一最佳模型。
- 策略对交易成本较不敏感,0.05%~0.1%间性能保持稳定。
- 止损阈值调整对表现有温和影响,3%-5%范围较优。
- 排除过度表现的极端波动股票(EP、CPWR)导致性能显著下滑,但仍优于原始策略及市场基准。
- 策略训练样本构造阈值敏感,过高或过低影响收益及最大回撤。
- 调仓频率及聚类回溯窗口调整显著影响表现,过频调仓导致过拟合训练特征失效。








深度阅读
金融研究报告详尽剖析
报告标题:Statistical arbitrage in multi-pair trading strategy based on graph clustering algorithms in US equities market
作者:Adam Korniejczuk、Robert Ślepaczuk
机构:华沙大学经济科学学院
时间:2024年(具体日期未标)
研究主题:基于图聚类算法的多因子统计套利策略在美国股票市场中的应用及优化
---
1. 元数据与报告概览
本报告围绕在美国股票市场(主要为S&P500成分股)应用图论算法进行统计套利开展,重点是将机器学习集成分类器与Kelly准则相结合,优化信号检测及风险管理,实现交易信号的质量过滤,从而提升策略风险调整后的收益率,并增强交易对成本的耐受力。报告系统测试了创新的止盈和止损时间函数,实证结果显示改进后的策略显著超越原始文献及基准。
报告核心观点强调:通过图聚类构建股票集群,基于信号质量分类过滤交易信号,辅以动态的止盈止损机制及风险加权Kelly资金分配,能够获得更优策略表现。授权的筛选和动态风险控制是超越传统统计套利与行业聚类的关键机制。
---
2. 逐节深度解读
2.1 摘要与引言
本文目的是基于图聚类算法设计新的统计套利策略,同时融合多种量化与机器学习技术,包括信号分类器、Kelly准则和创新的动态止盈止损。研究重点解决:
- 信号质量分类器能否提升基于图聚类策略的有效性?
- 交易成本与风险管理对策略表现的影响?
- 策略对成本敏感性?
- 分类器权重变化对策略的影响?
使用S&P500日频数据(2000年-2022年),通过集成学习优化信号识别,取代原始全部交易信号,期望减少无效开仓,提高净收益。[page::0,1]
---
2.2 文献综述
报告回顾了基于资产间关系的量化交易演变,起点是Markowitz的现代组合理论(1952),其后行业分组(Fama和French,1997)演变为复杂的配对交易或统计套利(例如使用协整、相关性、欧氏距离、赫斯特指数等)。但近年统计套利表现趋弱(Bredthauer和Stubinger,2017),因技术普及导致套利机会减少。
图论被兴起为研究资产间复杂关系的有力工具,其基本概念包括有向无向图、加权或带符号图、邻接矩阵与度的概念,为量化交易提供新颖的聚类视角:
- 相关矩阵的邻接矩阵对应关系使得图聚类算法成为构造投资组合或套利策略的有效手段。
- 多篇近期研究运用图神经网络(GNN)、图注意力机制和多模态数据集成,提升时间序列预测精度和波动率预测能力。
- Cartea等(2023)首次将图聚类算法应用于统计套利,利用带符号加权无向图对残差收益的相关矩阵聚类,采用SPONGE对比谱聚类等方法,选择最佳簇数估计方案实现集群划分。SPONGE算法应用正负拉普拉斯矩阵分解,辅以k-means++聚类,最终实现簇内均值驱动的跨股票套利信号生成,其策略年收益率12.2%、夏普比率1.1、索提诺比率2.01。但该原始策略实现简单,未包含交易成本考虑,也缺乏组合优化,留有较大提升空间。[page::1,2]
---
2.3 机器学习分类器在信号过滤中的创新应用
传统ML在量化领域多用于预测价格方向(正负类),而本研究开拓性提出用分类器对图聚类策略生成的信号进行“质量分类”:过滤出最优交易信号。
- 使用多模型集成(MLP, AdaBoost, HistGradientBoosting, SGD, Logistic Regression),运用Brier分数优化概率预测。
- 制定二分类标签,判断信号是否盈利,训练模型以概率方式输出信号成功概率。
- 结合Kelly准则进行资金分配,风险加权止盈止损,控制交易规模风险暴露。
该创新方法可增强策略稳健性,减少因信号噪声导致的低质交易,提升期望复利收益率。Kelly准则有文献支持其在算法交易中的应用,但也指出不总是最优(Lahtenmaki,2023)。[page::3]
---
2.4 数据与性能指标
- 数据来自Yahoo Finance,覆盖S&P500历史成分股,确保信号生成对应真实可交易资产,避免成分变化导致回测失真。
- 使用调价收盘价,包含每日调整,避免拆股、分红影响。
- 绩效指标详尽全面,涵盖年化复合收益率(ARC)、年化波动率(ASD)、调整的夏普比(IR)、索提诺比率、最大回撤(MDD)、最大亏损持续时间(MLD)、Calmar比率(CR)、修正信息比(IR)等多维风险回报指标,评估收益波动、尾部风险及回撤承受度。公式明晰,方便具体解释与解读。[page::4,5]
---
2.5 原策略复现与交易成本影响分析
- 复现Cartea等(2023)的SPONGEsym算法策略,对应最佳簇数(解释率90%)进行聚类。
- 交易成本分别设置为0和0.05%,评估影响。0费用版本近似原文指标,年化收益10.24%,夏普1.17;加交易费后指标暴跌,年回报仅2.44%,夏普降至0.28。
- 权衡:策略短期频繁调仓导致交易成本极高(图3显示成本约为策略纯收益4倍),造成功绩大幅折损。以延长调仓周期(10天替代3天)、拉长计算关联参数窗口(30天替代5天)作为初步改进措施。[page::6,7,8]
---
2.6 特征工程与信号标注
- 训练数据截取2000年至2006年首1500个交易日;剩余数据为测试集。
- 特征划分为图基特征(局部与全局顶点度、图密度、集群大小等)和传统特征(个股与集群收益偏离、头寸方向、过去收益期望等)。
- 目标标签依据信号是否实现盈利,定义两种盈利条件(达到设定阈值或弥补交易费),选取4%阈值保证标签均衡性(正负样本接近50%),利于模型训练。
- 使用MinMaxScaler进行数据归一化,保证输入分布统一。[page::8,9,10]
---
2.7 集成分类器训练与性能
- 五种分类器经过参数网格搜索调优,基于验证集Brier分数优化概率输出质量,选用双权重Histogram Gradient Boosting (HGB)作为主导模型。
- 性能对比:HGB最优,Brier 0.218,精度0.653,其他模型Brier分数均<0.25,精度>0.54,均优于随机水平。
- 构建加权软投票集成,HGB权重为其他模型的2倍,预测概率输出范围集中在0.4-0.7区间。
- 确定最佳信号概率阈值以限制交易规模为0.6,约为预测概率的90百分位数。避免过多低质量交易信号导致高交易成本。[page::11,,12,13,14,15]
---
2.8 动态止盈止损与Kelly资金管理
- 动态止盈:盈利目标随持仓时间衰减,公式:$Threshold{tp} = THR \times \frac{10 - TD}{10}$,其中取$THR=8\%$,使时间窗口内阈值均值与训练阈值保持一致。
- 类似方式设计动态止损,基准为5%。
- Kelly资金分配基于信号盈利概率$P$计算最优权重,简化得$f=2P - 1$,对多仓空仓分别归一化,确保资金总额分配合理。
- 止盈止损阈值乘以概率权重实现风险加权,低概率信号收紧止盈止损以规避潜在亏损。[page::16,17]
---
2.9 实证结果
- 核心指标如下(回测期2006-2022):
- 策略年化收益率49.33% (基准含交易费仅1.13%)
- 年波动率38.01%(基准仅9.16%)
- 信息比率(IR)1.30(基准0.14)
- 索提诺比率3.38(基准0.29)
- 最大回撤31.98%(基准34.3%)
- Calmar比率1.54(基准0.04)
- 修正信息比(IR)2.00(基准0.01)
- 策略显著优于含无交易费基准策略及指数ETF(SPY),带来更高收益和更优风险回报比。
- t-检验确认策略信息比率显著高于标普500指数,统计显著性强。
- 股价弯曲图显示策略收益在2010-2016年高速增长,主要由有限高波动个股主导(如EP与CPWR),排除后收益明显下降,但仍优于基准。[page::18,19]
---
3. 图表深度解读
3.1 表1:策略性能对比(原文实现 vs 自实现 vs 基准SPY)
|度量|原文|自实现无费|自实现含0.05%费|SPY ETF|
|-|-|-|-|-|
|年化收益(%)|12.20|10.24|2.44|6.48|
|夏普|1.10|1.17|0.28|0.33|
|索提诺|2.01|2.09|0.49|0.51|
- 表明无交易费时复现接近原文,含费时性能大幅下降。
- 交易成本侵蚀策略有效性,是需重点解决的问题。[page::6]
3.2 图1与图2:权益曲线对比(含/不含交易费)
- 图1展示不计交易费的策略权益显著跑赢SPY,波动性相对平稳。
- 图2加入交易费后权益增长大幅放缓,趋势变化时出现多期停滞或下滑。
- 说明交易频繁导致成本巨大,需控制交易频率或提高信号质量减量。[page::6,7]
3.3 图3:累计交易成本曲线
- 交易成本累积逐年单调上升,且远超策略净收益。
- 佐证交易成本是策略表现低迷的最大掣肘。[page::7]
3.4 图4:不同止盈阈值下信号分类比例变化
- 随阈值提升,满足止盈条件的信号占比减少,未盈利信号比例升高。
- 选择4%阈值时,盈利益信号和非盈利信号大致均等,适合机器学习分类的样本均衡化需求。[page::10]
3.5 表7:分类器性能比较(Brier分数与精度)
|分类器|Brier分数|精度|
|-|-|-|
|HGB|0.218|0.653|
|MLP|0.243|0.568|
|AdaBoost|0.247|0.544|
|SGD|0.247|0.547|
|Logistic|0.249|0.580|
- HGB显著领先,成为集成中权重最高的模型。[page::13]
3.6 图5-7:分类器输出概率分布
- 集成模型输出概率集中分布于0.45-0.65之间,且90百分位数约在0.6左右,故选择0.6作为交易阈值平衡信号量和质量。
- HGB单模型输出偏右,90百分位接近0.68,意指更偏保守判定。[page::14,15]
3.7 表8和图8:最终策略与基准绩效对比
- 策略对比基准SPY及原策略复现(含/不含交易费),整体收益与风险调整性能均显著优越。
- 图8权益曲线明显领先,其成长逐年积累,风险(回撤等)控制较好。
- 但策略收益集中在少数高波动股票贡献显著,剔除两只过度盈利股后策略表现降级。[page::18,19]
3.8 表10-18与图9-16:敏感性分析摘要
- 调整止盈止损函数与Kelly资金分配,指标仅有微弱变化,表明策略对这些优化较稳健。
- 集成权重调整影响明显,单模型或等权集成均劣于赋予HGB高权重的方案。
- 交易成本浮动对策略影响有限,浮动0-0.1%时信息比几乎稳健。
- 止损阈值变化对策略性能有温和负面影响,较低止损收紧过早止亏,过高则对风险控制不足。
- 剔除表现最极端的盈利股票导致收益剧减,说明策略依赖部分高波动标的实现高收益潜力。
- 调整交易频率与聚类窗口长短对表现影响显著,较高交易频率加短窗口导致严重性能下降,甚至爆仓,验证策略参数需匹配特征构建。
- 总体听从表18汇总,基线方案在大多数性能指标中表现最佳,参数选择需谨慎。[page::20-28]
---
4. 估值分析
报告无直接估值模型分析,聚焦于策略绩效评估和风险调整收益优化。报告核心在于交易信号识别与处置,资金分配优化,没有涉及传统现金流折现、PE或EV/EBITDA等公司估值方法。
---
5. 风险因素评估
- 交易成本极高(与策略净收益接近数倍),需要有效降低交易频率或提升信号质量以降低无效交易。
- 模型依赖少数极端盈利、高波动个股,存在高集中度风险,如单只或少数标的价格异常波动将极大影响策略表现。
- 数据质量问题,部分缺失及无滑点假设,实盘环境可能收益不及模拟。
- 特征工程和模型优化较基础,分类器性能虽优于随机但仍有提升空间。
- 策略参数对交易频率和聚类窗口敏感,简单调整可能引起性能崩溃。
- Kelly资金管理和动态止盈止损对绩效提升有限,仍需精细化设计。
缓解建议包括:扩展特征体系,改进ML模型,动态调整参数,分散投资于多资产类别,进一步提升信号质量和交易成本适应能力。
---
6. 批判性视角与细节
- 报告对信号过滤的方案较为创新,整体方法逻辑严谨,验证充分,但对交易成本敏感的初始策略实现仍存在显著漏洞,需改进。
- 集成模型虽表现优于单模型,但权重分配较为经验化,缺少优化或贝叶斯方法论支持。
- Kelly资金管理直接简化为分信号独立决策,实际组合内协方差与风险承受未显式建模,略显粗糙。
- 特征工程简单,未充分挖掘图结构复杂度及价格行为的深层次信号,未来可结合深度学习提升。
- 排除两只极端盈利股后策略表现骤降,揭示潜在过拟合信号,策略稳健性仍需加强。
- 股价波动大时策略收益表现强劲,表明在成熟市场中策略优势有限,可能更适合高波动、小市值或新兴市场资产。
- 文中参数敏感性大,实际应用场景需重点缩减参数空间或结合动态调参机制保障稳定。[page::29,30]
---
7. 结论性综合
本研究基于Cartea等(2023)提出的图聚类统计套利框架,在S&P500成份股数据上,成功集成五种机器学习分类器和Kelly资金分配,配合创新时间动态及风险加权的止盈止损方案,实现信号质量优化与风险管理改进。实证表现远超原始策略及主流市场指数,并显示极强的交易成本抵抗力。
核心贡献包括:
- 信号质量分类器提升交易信号有效性,有效过滤非盈利交易,提升利润率和风险调整收益。
- 带权集成模型比单一模型表现更佳,尤其权重加倍的HGB分类器增强整体准确性。
- 动态止盈止损及权重资金管理带来尾部风险缓和,尽管对总体收益贡献不大。
- 策略表现不敏感于合理范围的交易成本波动,具备实盘操作潜力。
- 交易频率和聚类回溯窗口为关键敏感参数,需结合数据周期与模型训练设定优化。
- 策略受少数高波动个股驱动,剔除这些个股表现大幅下降,提示需加强稳健性与分散性。
图表支撑了文本结论:权益曲线和绩效指标清晰体现改进方案的优势,而分类器概率分布和信号活跃度分析指导阈值设定,敏感性分析覆盖各主要参数维度确保策略适用性与稳健性。
总之,报告以严密的量化实验和创新方法为策略开发提供了坚实基础,指明了信号过滤与风险加权资金配置在统计套利多因子交易中的核心价值,对高频次图聚类策略的实践应用具有参考价值和启发意义。[page::0~30]
---
附图示例
- 图1:无交易费用权益曲线

- 图2:含0.05%交易费用权益曲线

- 图4:不同止盈阈值信号分类比

- 图5:加权集成预测概率分布

- 图8:策略与基准权益曲线对比

- 图13:高波动股剔除敏感性权益曲线

- 图16:交易频率与聚类窗口敏感性权益曲线

---
总结
本报告系统性地引入图论聚类技术、机器学习信号过滤、资金最优配置以及风险控制优化,针对传统统计套利交易策略进行了有效改进。实证分析以全市场多年的真实数据为基础,充分验证了策略表现及其对现实交易成本和参数扰动的鲁棒性。该研究拓宽了统计套利策略的技术路径,为学术和实务领域提供了切实可行的应用范式。未来研究可聚焦更丰富的特征构造、深度学习模型集成、跨市场适用性以及高频数据扩展等方向。
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]