`

策略自动产生之二:筛选策略

创建于 更新于

摘要

本报告围绕自动产生量化交易策略的筛选方法,系统介绍如何识别回测中的未来函数和过拟合问题,采用推进分析和物理隔离二次样本外验证确保策略稳健,结合参数敏感性分析和因子主观归因进一步筛选策略,最后强调策略生命周期及市场交易成本的影响,为自动化量化策略构建提供理论和实践指导[page::0][page::2][page::3][page::4][page::5][page::6][page::7]。

速读内容


回测与实盘差异的主要原因 [page::2]

  • 未来函数问题导致的回测数据泄露

- 过拟合导致回测过于贴合历史噪声
  • 策略周期受市场和行业轮动影响

- 市场隐含交易成本(佣金、价差、冲击、滑点)带来的影响

避免未来函数的两大方法 [page::2][page::3]

  • 固定起点推进分析:训练集从初始固定起点递增,预测未来时点表现

- 固定窗口推进分析:训练集保持固定长度的滑动窗口,动态滚动验证



物理隔离二次样本外验证示例:沪深300策略表现 [page::4]

  • 先在数据样本的前半部分选出最优策略

- 再在后半部分模拟实盘表现检验过拟合风险
  • 示例图显示策略测试与实盘表现一致,过拟合风险较低



参数敏感性分析避免过拟合 [page::5]

  • 改变单一因子参数并回测,比较结果稳定性

- 沪深300实例显示回测年化收益27%左右,最大回撤46.8%-58.5%,夏普比率1.05-1.23


| 参数敏感性分析 | 年化收益 | 最大回撤 | 夏普比率 |
|---------------|----------|----------|----------|
| 最大值 | 29% | 58.5% | 1.23 |
| 平均值 | 27% | 52% | 1.12 |
| 最小值 | 25% | 46.8% | 1.05 |
| 基准值 | 27% | 55.9% | 1.14 |

主观归因与因子分析 [page::5][page::6]

  • 通过量化因子、参数及模型主观判断策略有效性

- 关键因子包括:未来n根K线收益、最大值指标、希尔伯特变换主导循环、ATAN变换、AROON指标
  • 交易法则基于预测的收益值分层决定交易方向(多头/空头/观望)


策略生命周期与失效判定方法 [page::6]

  • 依据最大回撤门槛判断策略风险爆发

- 计算预测值与实际值相关系数(IC)显著性检验
  • IC不显著时,策略预测能力弱,可能失效


市场交易成本及其对策略影响 [page::6][page::7]

  • 佣金、买卖价差、冲击成本和滑点构成总交易成本

- 交易成本高时策略趋向低频交易,成本低时偏好高频策略

深度阅读

报告全面分析



---

1. 元数据与报告概览


  • 报告标题:策略自动产生之二:筛选策略

- 发布日期:2020年5月20日
  • 作者:周袤,分析师

- 发布机构:安信证券研究中心
  • 主题:量化投资领域中的自动策略产生与筛选方法

- 主体内容概述
报告围绕“策略自动产生”的第二阶段——筛选策略展开,探讨了如何克服自动策略产生过程中的未来函数使用、过拟合、策略周期和市场隐含交易成本等问题,提出了一套理论结合实操的策略验证及筛选流程。报告通过详细介绍回测与实盘差异的根本原因,并结合示例分析与图表,阐述了如何在自动化金融工程中甄别与优化交易策略。
  • 核心观点

自动产生的策略虽高效,但不能直接用于实盘,需要策略研究员借助科学的方法剔除未来函数、过拟合和不符合实际交易环境的策略,确保模型的稳定性和可操作性,以应对市场的复杂性和交易成本。[page::0, 2]

---

2. 章节深度解读



2.1 回测与实盘


  • 关键论点

量化投资依赖历史数据建模和回测,经典问题是回测结果与实盘表现往往存在巨大差异。差异源于未来函数误用、过拟合、策略生命周期变化以及市场真实交易的隐含成本。
  • 推理依据

- 未来函数的错误纳入会导致结果不具备前瞻性。
- 过拟合在大量参数调试过程中导致模型拟合历史噪音。
- 策略的历史有效性不保证未来持续有效。
- 交易成本和市场冲击成本未计入时,会令回测结果偏离实际。[page::2]
  • 意义:明确指出自动策略产生技术必须克服这些障碍,强调回测之外的实盘验证不可或缺。


2.2 未来函数与推进分析


  • 概念阐释

未来函数指在建模时误用了未来数据,导致预测模型的非现实性。推进分析用于保证策略不使用未来信息。
  • 方法介绍

- 固定起点推进分析:训练集从固定起点逐渐包括更多历史数据,滚动预测后续时点。
- 固定窗口推进分析:采取固定窗口大小的训练数据,以时间顺序滑动训练集,预测下一时点。
- 物理隔离的二次样本外分析:将样本按时间划分,先在早期样本内训练并选择最优策略,再在后期样本验证,避免信息泄露。[page::2~4]
  • 图表解读

- 图1展示某沪深300指数二次样本外分析的绩效走势,模拟盘与回测效果相似,说明策略过拟合风险较低。


  • 推理:推进分析通过时间切片和滑动窗口方式实现在没有未来数据影响的情况下训练和验证策略,二次样本外分析相当于缩短模拟盘等待时间,提升效率。


2.3 过拟合剔除


  • 关键问题:自动产生策略利用遗传算法搜索参数组合,可能捕捉到的是回测期内的噪音,导致模型过拟合。
  • 解决方法

- 参数敏感性分析:微调模型参数后观察回测结果的稳定性。稳定说明模型较稳健,过拟合风险低。
- 主观归因:策略研究员通过观察策略所用因子及模型的业务逻辑合理性,主观判断策略可能有效性。
  • 数据分析

- 图2:某沪深300多参数组合的历史表现曲线,参数变化引发回测曲线的轻微震荡,但整体形态稳定。
- 表3数据显示年化收益率、最大回撤和夏普比率均维持在较窄区间内,最大年化29%,最小25%;最大回撤46.8%至58.5%;夏普比率1.05至1.23,说明模型对参数不敏感,稳健性好。



| | 年化收益 | 最大回撤 | 夏普比率 |
|-----------|---------|-----------|---------|
| 最大值 | 29% | 58.5% | 1.23 |
| 平均值 | 27% | 52% | 1.12 |
| 最小值 | 25% | 46.8% | 1.05 |
| 基准值 | 27% | 55.9% | 1.14 |
  • 附加解读

主观归因表4详解了涉及的因子如"MAXINDEX"(过去最高价时间位置)、"AROON"(价格趋势指标)、"HT_DCPHASE"(Hilbert变换阶段)等,解释其业务意义和作用,有助策略研究员识别策略合理性。[page::3~5]

2.4 策略周期管理


  • 核心观点:策略有效期有限,市场的周期变动、轮动特性意味着历史模式不一定在未来持续。
  • 失效判断方法

- 最大回撤法:若实盘(或模拟盘)最大回撤远大于历史回撤(某个倍数),则策略可能失效。
- 信息系数(IC)显著性检验:统计预测值与实际收益的相关性显著性,不显著说明预测准确度下降,提示策略可能失效。
  • 技术细节:给出t值计算公式,用于相关性的显著性检验。强调机器学习策略的预测能力是实盘表现的重要驱动。[page::6]


2.5 市场隐含交易成本考量


  • 定义分类:报告详列佣金、买卖价差(Bid-Ask Spread)、冲击成本和滑点四类交易成本。
  • 实际影响

- 佣金是直接成本。
- Bid-Ask Spread反映流动性,对紧急成交尤为重要。
- 冲击成本是交易对市场价格造成的影响,尤其在流动性差的资产上显著。
- 滑点是下单和成交价格差的体现,与交易方式和市场机制相关。
  • 策略影响:总成本越高,自动策略越偏向低频交易,以降低交易频率和成本;成本低则允许高频交易。
  • 实用意义:自动策略产生阶段预估成本因素,确保策略更贴近真实环境,避免因忽视成本导致策略不可行。[page::6~7]


---

3. 图表深度解读


  • 图1(某沪深300二次样本外分析示例)

- 显示策略在训练样本(样本内)和独立验证样本(样本外)上的收益增长曲线。
- 该图曲线平滑上行且两段表现接近,暗示模型未过度拟合。
- 说明策略在未知数据上的泛化能力良好,验证了物理隔离二次样本外分析的有效性。[page::4]
  • 图2(参数敏感性分析示例)

- 多条曲线对应不同参数设置的回测收益,色彩区分了参数区间变化后的策略表现。
- 形态接近,收益和回撤指标波动不大,印证了参数稳健性。
- 强调自动生成的策略不应对单一参数极端敏感,否则回测结果不具备实际参考价值。[page::5]
  • 表3(参数敏感性的定量指标)

- 通过年化收益、最大回撤和夏普比率详细量化了参数范围内策略表现的波动。
- 评分一致性增强对策略的信心。
  • 表4(因子说明表)

- 明确每个因子名称、含义及其对策略的影响(预测目标或影响因子)。
- 使研究员能够基于因子本身的金融和技术含义,实施主观归因,辅助筛查。
  • 流程图(推进分析)

- 两幅示意图分别描述了固定起点和固定窗口推进分析的样本划分和训练-预测流程,清晰展现训练样本内与样本外的时间段分布逻辑,防止未来函数信息泄露。[page::3]

---

4. 估值分析


  • 本报告聚焦策略筛选技术与风险控制,未涉及具体的企业或资产估值模型(如DCF、市盈率等),故无此部分内容。


---

5. 风险因素评估


  • 尽管本报告主要是方法论介绍,但提及的风险点主要体现在:

1. 未来函数问题:未来信息非法使用导致策略无效。
2. 过拟合风险:策略“记住”历史噪音,不具实盘推广性。
3. 策略周期风险:市场轮动、趋势变化导致策略失效。
4. 市场隐含交易成本风险:高交易成本会导致策略无利润甚至亏损。
  • 每种风险通过具体技术手段(推进分析、二次样本外验证、参数敏感性分析、最大回撤筛查、IC显著性检验及交易成本建模)给予缓解。策略研究员需严格执行筛选流程以确保风险控制。[page::0~7]


---

6. 批判性视角与细微之处


  • 潜在偏见

报告强调自动产生策略法的有效性,但对异常市场情况(极端风险事件、结构转折等)未详细阐述,模型稳定性"历史延续至未来"的假设本身带有固有风险。
  • 技术假设局限

- 未来函数的排除依赖推进分析且对样本划分敏感,实际操作中训练样本大小和划分时间点的选择需谨慎,否则仍可能无意中引入未来信息。
- 过拟合剔除依赖参数敏感性测试及主观分析,部分主观判断可能存在研究员认知盲区。
- 交易成本测算示意较为简略,未完全覆盖流动性变化快时的动态成本。
  • 信息缺失:报告未公开具体遗传算法的参数优化细节及策略具体构建框架,限制了完整审查。

- 内部连贯性:整体内容及图表配合紧密,逻辑完整,表述清晰,未发现明显矛盾。[page::0~7]

---

7. 结论性综合



本报告详细介绍了基于现代计算能力的自动生成量化交易策略的筛选体系,着重解决传统回测与实盘差异的核心问题:未来函数误用与过拟合现象。通过推进分析(固定起点/窗口方法)、物理隔离下二次样本外验证及参数敏感性分析,确保策略因子组合及参数具备稳健性且预测能力不依赖于历史噪音。此外,引入主观归因提升对策略经济合理性的确认。结合最大回撤与信息系数显著性检验实现策略失效检测。更重要的是,综合考虑市场隐含交易成本,提升从模型设计到实盘执行的落地能力。

图表和数据描述如下:
  • 推进分析的样本内与样本外时间划分图形生动演示避免未来函数的技术实现。

- 某沪深300策略的二次样本外分析图和参数敏感性曲线支持了策略泛化和稳健性的结论。
  • 参数敏感性分析定量字段显示策略表现随参数微调波动不大,具备实操可行性。

- 相关因子表为策略研究员提供了重要辅助理解和归因为工具。

总体来看,报告展现的自动产生+科学筛选量化策略的流程为现代量化研究提供了实践价值和方法论指导,强调了策略自动生成和筛选不可分割的联合环节,具有较高的理论和实操结合深度。同时注重风险管理,提升策略实盘适应性和稳定性,体现了对量化投资生命周期管理的全面把控。报告最后的免责声明部分,明确了模型和结论的局限性及合法合规性,为读者提供了合理预期和谨慎态度的基准。

综上,报告较为系统地阐述了自动产生量化策略筛选环节的核心问题与解决路径,为从业者提供切实可操作的筛选流程和风险防控工具,可视为量化策略研发领域的重要参考资料。[page::0~7]

---

附录:图表目录速览



| 图表编号 | 名称 | 说明 | 页码 |
|----------|-------------------------------------|-------------------------------------|------|
| 图1 | 某沪深300的二次样本外分析示例 | 样本内与样本外回测收益对比,验证策略泛化能力 | 4 |
| 图2 | 某沪深300的参数敏感性分析示例 | 不同参数下回测收益曲线,体现策略稳健性 | 5 |
| 表3 | 某沪深300参数敏感性分析定量结果 | 年化收益、最大回撤、夏普比率的统计变化 | 5 |
| 表4 | 因子说明表 | 因子名称及意义,辅助主观归因 | 5 |
| 图3, 图4 | 推进分析示意图(固定起点与固定窗口方法) | 训练与预测样本时间划分展示,防止未来信息泄露 | 3 |

---

(全文引用内均附带来源页码,确保分析结论可追溯)

报告