`

细说回测:模拟路径拓宽回测样本——机器学习系列报告之四

创建于 更新于

摘要

报告提出针对收益率尖峰厚尾及偏度特征的SGED模型,并构建SGED-ARMA与SGED-GARCH模型以分别刻画收益率自相关性及波动聚集效应。通过滚动拟合和Monte Carlo模拟,生成300条近似真实市场统计特征的价格路径,实证检验基于RSRS指标的择时策略在模拟路径上的稳定性与参数过拟合问题,发现模拟路径能显著拓宽回测样本,降低路径依赖并提升策略评估的有效性[page::0][page::4][page::6][page::15][page::17][page::20]。

速读内容


SGED模型刻画收益率尖峰厚尾与偏度特征 [page::5][page::6]


  • 引入Skewed Generalized Error Distribution(SGED)有效反映收益率非正态分布特征。

- 通过每日开盘与收盘收益率参数滚动MLE估计,提升了模拟路径的拟合贴合度。

模拟生成路径与市场基准对比 [page::8]


  • SGED生成价格路径优于简单正态分布路径,更贴合沪深300历史走势。


SGED-ARMA与SGED-GARCH模型构建及对比 [page::9][page::10][page::11][page::13]


  • SGED-ARMA引入ARMA(1,1)模型确保模拟收益率具备真实样本一阶自相关性及偏自相关性。

- SGED-GARCH考虑波动聚集效应,通过GARCH(1,1)模型拟合波动率聚集。
  • SGED-ARMA波动率聚集稍逊,SGED-GARCH自相关性略逊于真实样本。


RSRS择时策略及参数过拟合分析 [page::16][page::17][page::19]



| 统计项 | 历史价格序列上RSRS策略效果 | 模拟路径上RSRS策略效果平均值 |
|--------------|----------------------------|------------------------------|
| 年化收益率 | 12.96% | 9.42% |
| 年化超额收益 | 8.84% | 1.23% |
| 夏普比率 | 0.89 | 0.51 |
| 最大回撤 | -19.02% | -41.10% |
| 持仓总天数 | 877 | 790 |
  • RSRS策略在模拟路径中仍表现有效,但指标参数基于单一路径的回测存在过拟合风险。

- 调整参数后,策略在模拟路径上表现更稳健,年化超额收益提升,减少路径依赖影响。

RSRS策略回测净值表现示例与参数调整效果 [page::17][page::19]



  • 多条模拟路径上策略净值曲线展示良好适应性,部分路径波动较大时策略效果下降。

- 基于300条模拟路径分析,找到更优参数组合$(N=17, M=750, S=0.6)$以平衡稳健收益。

| 统计项 | 历史价格序列上RSRS策略效果 | 模拟路径上RSRS策略效果平均值 |
|--------------|----------------------------|------------------------------|
| 年化收益率 | 11.78% | 10.46% |
| 年化超额收益 | 4.30% | 4.32% |
| 夏普比率 | 0.83 | 0.55 |

深度阅读

细说回测:模拟路径拓宽回测样本——机器学习系列报告之四 深度分析报告



---

1. 元数据与概览



报告标题:《细说回测:模拟路径拓宽回测样本——机器学习系列报告之四》
作者及联系方式:胡骥聪、刘均伟(执业证书编号分别为S0930519060002、S0930517040001,附联系电话及邮箱)
发布机构:光大证券研究所
发布日期:2019年
主题:该报告聚焦于金融量化研究中的回测方法,特别是引入基于Skewed Generalized Error Distribution (SGED) 的价格收益率模拟模型,以改善传统回测中路径依赖和样本有限带来的偏误,增强策略有效性验证的稳健性。以RSRS(阻力支撑相对强度)择时策略为案例,通过模拟路径验证该策略的稳定性和参数的过拟合问题。

核心论点:报告引入SGED模型及其衍生模型SGED-ARMA和SGED-GARCH,结合滚动拟合和拒绝法生成模拟价格路径,旨在构造具有真实市场统计特征(如尖峰厚尾、偏度、自相关及波动聚集效应)的收益率数据,并利用大量模拟路径测试策略以缓解传统回测的路径依赖问题。实证上,RSRS策略在实盘和模拟路径中均表现出一定择时能力,但传统基于单一路径优化的参数存在过拟合风险,模拟路径上的回测能更客观评估策略效果。

---

2. 逐节深度解读



2.1 模拟路径对抗路径依赖



本节论述了传统金融回测使用单一路径历史数据存在路径依赖问题,无法真实反映策略在未知未来的稳健性。因此,生成多条模拟路径、增大数据样本规模,是缓解路径依赖风险的重要手段。报告指出,收益率序列具有尖峰厚尾与偏度特征,简单正态分布拟合不足以刻画实际性质。此外,收益率自相关性和波动聚集的现象也难被忽视,需要更复杂模型进行刻画。

核心推理依据
  • 市场收益率存在非正态统计特性,且波动特征随时间变化。

- 模拟路径应忠实反映这些特征,避免生成路径与真实市场显著不符。
  • 滚动拟合使模型参数动态反映市场状态,保证模拟数据的时间相关特性。


2.2 刻画实际收益率特征



2.2.1 SGED分布及理论基础



引入了Skewed Generalized Error Distribution (SGED) 密度函数,以峰度系数k和偏度系数λ刻画收益率的尖峰厚尾和偏态,推导了其参数估计方法和高阶矩计算。利用极大似然估计(MLE)方法,结合样本均值和标准差估计,动态拟合市场收益率。

这部分详细数学推导包含了SGED的密度函数、符号函数、Gamma函数与高阶矩表达,表明SGED能更准确反映收益率非正态分布的理论依据。

2.2.2 SGED模型实证拟合沪深300分钟数据


  • 使用沪深300指数2009-2017年分钟数据样本,采集日内开盘及最后一分钟收益率,采取240个交易日的滚动窗口拟合SGED参数。

- 特殊关注开盘首分钟收益率因集合竞价跳空影响,将其单独统计拟合。
  • 图1展示了沪深300指数价格走势。

- 图2与图3分别展示每日开盘价和最后一分钟收益率参数随时间变化情况,反映了不同时间段的收益率波动性和偏度参数动态演变。
  • 通过拒绝法随机生成模拟收益率,以此生成模拟价格路径。


图4对比了SGED模拟价格路径、正态分布模拟路径与真实市场价格,结果显示SGED模拟路径更贴合市场实际走势,体现了模型对尖峰厚尾与偏度的优势。

推断:SGED模型单纯刻画了收益率的分布形态,但是忽略时间序列中的自相关性和波动聚集效应,导致其模拟路径与真实市场相比仍有差距。

2.3 处理收益率自相关性与波动聚集效应



2.3.1 SGED-ARMA模型


  • 通过图5,真实收益率自相关函数(ACF)和偏自相关函数(PACF)显示出明显的一阶自相关及偏自相关。

- 图6展示了单纯SGED模拟路径的ACF/PACF,体现出更高阶的拖尾,与真实数据差异显著。
  • 因此引入ARMA(1,1)模型到SGED均值参数估计中,使模拟收益率同时具有实际的一阶自相关性。

- 图7显示加入ARMA修正后模拟的价格路径,更贴合市场趋势波动。
  • 图8和图9展现了SGED-ARMA模型下开盘和最后一分钟收益率参数动态变化,参数震荡幅度较单纯SGED更大,体现模型反映市场变化的灵活性。

- 图10中,SGED-ARMA模拟收益率ACF与PACF表现出与真实收益率相似的1阶自相关,显示模型成功捕捉序列特征。

2.3.2 SGED-GARCH模型


  • 针对波动聚集效应,嵌入GARCH(1,1)模型估计收益率的条件方差,利用模拟标准差估计导入SGED模型。

- 图11显示模拟路径,表现出波动率的动态变化趋势。
  • 图12和图13分别展示GARCH条件下每日开盘和最后一分钟收益率参数估计,波动性较SGED平稳,较SGED-ARMA变化较小。

- 图14的ACF/PACF显示GARCH模拟序列仍存在部分自相关差异,符合模型设计重点是捕获波动聚集而非均值自相关。

2.3.3 模型对比总结


  • SGED-ARMA模型较好复刻收益率的1阶自相关性,难以表现波动聚集;

- SGED-GARCH模型较好反映波动聚集效应,均值自相关弱;
  • 由于滚动拟合已在一定程度上引入波动聚集特性,差异不大;

- 报告最终选择SGED-ARMA模型作为主验证工具。

2.4 RSRS择时策略实证检验



2.4.1 RSRS指标原理与构建


  • RSRS基于最高价与最低价序列的线性滚动回归斜率,对阻力与支撑相对强度进行衡量,反映市场预期顶底态度一致性。

- 通过斜率的z-score调整乘以决定系数,得出每日RSRS指标值。
  • 策略基于RSRS指标阈值上下穿信号开平仓。


2.4.2 实际历史数据上的RSRS表现


  • 参数设定为N=18、M=600、S=0.7,策略在沪深300上的净值趋势优于指数(图15)。

- 报告指出该参数基于单一历史路径优化,存在路径依赖。

2.4.3 在300条SGED-ARMA模拟路径上的表现


  • 表2统计显示模拟路径上RSRS策略年化收益9.42%,低于实际12.96%;夏普比率由0.89降至0.51;最大回撤扩大;胜率略有上升但盈亏比下降。

- 表现差异说明基于单一路径的参数存在一定过拟合,模拟路径检验较为保守地反映择时能力。
  • 图16展现4条模拟路径的策略净值表现,策略在部分高波动序列中效果减弱。


2.4.4 参数优化与模拟路径的优势


  • 扩大参数搜索区间(N=15~24,M=450~900,S=0.4~0.9),基于模拟路径平均超额收益确定最优参数N=17, M=750, S=0.6。

- 图17显示新参数下策略净值在模拟路径和实际沪深300表现更为接近,波动性降低,过拟合风险减少。
  • 表3统计数据表现策略在模拟路径和实际路径上均实现较高超额收益,验证模拟路径对策略参数选取的辅助价值。


---

3. 图表深度解读



(以下关键图表以报告页码标识)
  • 图1 (page 6):沪深300指数2009-2017年价格走势图。展现了真实市场长期走势波动特征,作为模型拟合基准。

- 图2、图3 (pages 7-8):每日开盘价及最后一分钟收益率的SGED参数滚动估计,显示市场收益率均值、波动、峰度(k)及偏度(λ)动态变化。特别开盘价收益率偏度波动较大,反映集合竞价跳空特性。
  • 图4 (page 8):SGED模拟路径、正态分布模拟路径与市场基准对比。SGED路径明显更接近真实价格走势,验证了尖峰厚尾与偏度对价格模拟的重要性。

- 图5-6 (pages 9-10):真实样本与SGED模拟路径的收益率自相关系数(ACF)与偏自相关系数(PACF)对比。真实收益率表现为明显一阶自相关,而SGED模拟序列表现出高阶拖尾,表明单一SGED无法捕捉序列时间依赖结构。
  • 图7-10 (pages 11-12):SGED-ARMA模型模拟价格路径及收益率参数估计与自相关分析。ARMA模型引入后模拟路径与真实样本在ACF/PACF上高度一致,成功捕获一阶自相关特征,参数波动性增强反映更动态市场状态。

- 图11-15 (pages 13-15):SGED-GARCH模型模拟路径与参数估计,自相关分析展示波动聚集效应得到较好反映,但自相关性差距仍存在,显示GARCH模型主要捕捉方差动态而非均值自相关。
  • 图15 (page 17):RSRS策略在实际沪深300上的累积净值曲线,策略明显跑赢指数。

- 图16 (page 18): RSRS策略在4条不同模拟价格路径上的净值表现,策略多表现优异,但高波动路径呈现输出下降,说明策略稳定性与路径特性相关。
  • 图17 (page 19):优化参数后RSRS策略净值对比,显示通过模拟路径优化参数使策略在模拟与历史路径上均获改进,减轻路径依赖偏误。


---

4. 估值方法(报告中未涉及估值分析)



本报告核心聚焦回测技术和模型构建,未涵盖上市公司估值方法,不存在相关估值分析内容。

---

5. 风险因素评估



报告明确风险提示:
  • 模型基于历史数据和构建假设,存在失效风险;

- 历史数据不具备重复性,未来市场环境变化可能导致模型有效性下降;
  • 模拟路径和策略表现对参数敏感,参数过拟合风险需谨慎对待。


风险提示部分短小精悍,表明研究结论须结合实际市场风险和变量慎重使用。

---

6. 批判性视角与细微差别


  • 模型选择权衡:SGED-ARMA和SGED-GARCH模型各自优劣明显,报告选择前者主要为了更匹配收益率自相关性,缺乏对波动聚集的深入刻画可能限制模拟路径对极端行情的复现能力。

- 滚动拟合隐含效果:滚动拟合虽过程层面引入了部分波动聚集特性,但报告未细致量化该效应对模型性能贡献,存在方法学上的模糊地带。
  • 参数估计不规则性:SGED-GARCH模型部分分钟参数估计波动异常,暗示模型稳定性或拟合质量存在技术挑战。

- 回测路径数量及样本依赖:仅300条模拟路径数量对提升策略稳定性虽有帮助,但是否足够代表全部可能情况无明确信息。
  • 策略有效性评估限定于单一策略RSRS,缺乏对其他策略的普适性测试,适用性范围有限。

- 报告披露有限:风险提示简洁,但未附带策略成本、滑点、交易费用等现实因素模拟,可能导致回测结果偏乐观。

---

7. 结论性综合



本报告围绕金融量化回测的核心难题——路径依赖,通过引入一套基于Skewed Generalized Error Distribution (SGED) 的概率模型家族(包括SGED、SGED-ARMA及SGED-GARCH),借助滚动拟合和拒绝法,成功模拟出了具有真实市场收益率尖峰厚尾、偏度、自相关与波动聚集效应的多条价格路径。

详细的图表佐证:
  • SGED模型显著优于正态分布模拟,能更准确反映收益率统计特征(图4)。

- SGED-ARMA模型有效捕捉收益率一阶自相关特性,模拟序列自相关系数和偏自相关系数指标与真实样本高度一致(图7-10)。
  • SGED-GARCH模型有效反映波动聚集,但在自相关结构上与市场差异显著(图11-15)。最终报告选用SGED-ARMA作为模拟回测的主力模型。


利用该模型生成的300条模拟沪深300指数路径,应用于RSRS技术择时策略回测,揭示单一历史路径参数存在的过拟合风险。模拟结果显示,基于真实路径优化参数策略的效果在模拟路径上有所降低(表2),但通过模拟路径多样性重新优化参数后,策略在历史与模拟路径均表现良好,超额收益提升明显(表3)。

这一方法创新点在于利用统计特性高度一致的模拟路径拓宽回测样本,显著降低路径依赖,提高策略外推效果的可信度,从而为金融量化领域提供了一条系统性、理论与实证兼备的策略验证新途径。

风险提示强调模型和数据限制,策略应用还需结合实际交易成本及动态市场变动谨慎展开。

总之,报告系统构筑了一个基于高阶矩和时间序列特性的收益率模拟框架,成功演示其在提升回测可靠性、避免过拟合陷阱方面的潜力,具有较强的理论和实践指导价值。[page::0,4,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]

---

注:所有结论均依托报告原文,并附带明确的页码溯源,确保分析的客观性与信息的严谨性。

报告