`

数据纵横:拓展差分的操作域——机器学习系列报告之三

创建于 更新于

摘要

报告创新性地将差分的操作域从整数拓展至正实数,引入非整差分概念,探讨其在金融时间序列(尤其是股价指数和个股)平稳性和平衡记忆性方面的作用。通过实证发现指数类资产多集中在0.7阶差分即可满足平稳要求,且保留较高的序列记忆。进一步基于非整差分构造信息熵及波动率因子,发现用0.7阶差分计算的信息熵较收益率信息熵含更多市场信息,并能辅助提升RSRS择时策略表现。低波动率因子的优化中,非整差分阶数约1.4-1.5时显著优于传统1阶差分,回测显示该优化波动因子在不同股票池均提升了因子IC、IR及组合年化收益与夏普比率,证实非整差分在量化因子构建中具备实际应用价值 [page::0][page::6][page::10][page::13][page::15]

速读内容


差分与非整差分扩展背景介绍 [page::0][page::5]

  • 时间序列建模中通常需处理平稳性,传统差分阶数仅为正整数,一阶差分损失过多序列记忆。

- 本报告引入非整差分,基于后移算子展开,使差分的阶数可为正实数,弥补信息损失问题。

指数及股票价格序列非整差分实证分析 [page::6][page::7][page::8][page::9]


  • 宽基指数整体最低平稳差分为0.3阶,相关系数>0.99,保留大部分记忆,但0.3阶差分在牛熊市震荡行情下平稳性不足。

- 年度分段检验需至少0.7阶差分,相关系数仍高达0.88-0.93,指数和大部分股票不必做传统1阶差分即可满足平稳。
  • 股票个体间最小平稳差分差异较大,142只沪深300股样本中仅3只年度差分为1阶。


不同阶数差分对信息熵影响与策略辅助效果 [page::9][page::10][page::11]



  • 信息熵用于衡量市场有效性,信息熵越低市场规律性越强。

- 利用0.7阶非整差分价格对数序列计算的信息熵较基于收益率序列计算的信息熵保留更多动态信息。
  • 将信息熵结合RSRS择时策略,能小幅提高择时信号的准确性,尤其在信息熵波动大的年份表现更明显。


低波动率因子基于非整差分的构建与优化 [page::12][page::13][page::14][page::15]



  • 主流低波因子通过考察收益率标准差构成,IC稳定、IR受样本长度影响明显。

- 非整差分操作使差分阶数从传统1阶延伸至1.4-1.5阶,IC和IR显著提升,最优参数独立于样本长度且普适。
  • 新因子STD(1.5,10)在不同股票池(全市场、中证500、沪深300)均表现优于传统STD(1,10),IC与IR均有所提升。

- 多空组合回测显示新构造因子的年化收益和夏普率均提升,尤其在中证500和沪深300中表现突出。
  • 多头组合收益提升有限,但夏普率改善明显,表明非整差分优化因子在组合风险调整后收益方面具优势。

深度阅读

报告详尽分析:数据纵横——拓展差分的操作域(机器学习系列报告之三)



---

一、元数据与报告概览



报告标题: 数据纵横:拓展差分的操作域——机器学习系列报告之三
作者与机构: 刘均伟(光大证券研究所)
发布日期: 2019年
主题: 主要探讨时间序列数据处理中差分操作的扩展应用,侧重非整阶差分在金融时间序列(尤其是价格和收益率序列)上的理论研究及实际应用,其中包含平稳性与记忆性权衡、信息熵分析及因子优化。
总体目标与核心论点:
  • 传统差分操作阶数仅限于正整数,但通过后移算子与级数展开方法,可以将操作域扩展至正实数,实现“非整阶差分”。

- 金融序列(指数、股票价格)在0.7阶的非整阶差分下即可满足平稳性要求,同时保留较高的序列记忆性(相关性约0.9),避免一阶差分所带来的预测信息损失。
  • 非整阶差分价格序列在计算信息熵方面效果优于传统收益率序列,辅助择时策略表现提升。

- 利用非整差分对传统量价因子(如低波动因子)进行优化,发现最优差分阶数为1.4至1.5阶,相较于默认1阶差分效果明显增强。
  • 报告警示模型及历史数据存在风险,需谨慎使用。


本报告不仅关注理论框架,也包含了大量基于中国A股市场历史数据的实证检验与应用示范,体现较强的实践指导价值。[page::0][page::4][page::5]

---

二、逐章节深度解读



1、时间序列上预测信息与可推论性的悖论(第4页)



关键点总结:
  • 预测模型成功依赖于数据内在的预测信息及模型的有效利用。

- 金融时间序列多为非平稳序列,为使其满足统计预测模型需要,通常通过差分操作获得平稳序列。
  • 这一处理常常导致序列记忆的丧失——虽然若丢失的是噪声则提升信噪比,但通常丢失的却是重要预测信息。

- 使用价格原序列作为输入模型效果差,因其不平稳;一阶差分后的收益率序列平稳性好,但只保存“最新交易信息”,此前信息丢失。

推理和假设:
报告作者强调了平稳性与信息保留之间的矛盾,指出当前量化和机器学习模型中权衡两者的重要性,明确提示过度差分减弱信息价值的风险。[page::4]

---

2、探寻记忆性与平稳性的平衡(第5-8页)



2.1 差分与非整差分(第5页)



核心内容:
  • 传统差分阶数仅支持正整数。

- 通过后移算子 \(B\) 的定义 —— \(B^k Xt = X{t-k}\),可推广阶次为任意正实数 \(d\) 的差分为 \((1-B)^d X_t\),由二项式定理展开为无穷级数。
  • 该扩展允许对时间序列实现非整数阶差分运算。


解释与解读:
这一理论扩展,使得差分阶数不必局限于整阶,从而调节差分的“力度”和序列记忆保留程度,具备更丰富的微调能力。具体计算时通过截断级数确保实际操作的可行性。

2.2 非整差分下价格序列的记忆性与平稳性(第6-8页)



研究设计(表1):
  • 数据为价格对数序列,区间2005-2018。

- 差分阶数间隔0.1,平稳性由ADF检验判断,记忆性用差分后序列与原序列相关系数衡量。

关键发现:
  • 宽基指数最低差分阶数大致相同,约0.3阶即满足整体平稳性,相关性>0.99——此时保留了几乎全部原序列信息。

- 相关性随差分阶数非线性下降,1阶差分后几乎无相关性,但0.9阶仍保留约0.5相关。
  • 0.3阶虽满足整体平稳条件,但在单年平稳性上不足。0.7阶差分保证不同年度平稳,相关性仍保持约0.9。

- 不同股票所需差分阶数差异较大,整体和年度平均分别约0.31和0.61,个别极端股票才需1阶差分。

图表解读:
  • 图1-4展示各大指数差分阶数与相关性、ADF统计值的关系曲线,红线为95%置信线,曲线趋势说明平稳性要求通常低于1阶差分即可满足。

- 图5显示单年ADF在0.3阶差分下明显波动,低于平稳阈值,说明单一年份不能保证平稳,而图6在0.7阶差分时,序列较平稳且相关性高。
  • 图7通过箱型图展示不同股票在自有最小差分阶数下相关性分布,大部分相关系数高于0.8。


综合解读:
本节强化了非整差分阶数低于一阶仍满足平稳性需要的实证结果,意味着采用非整差分可以实质保留更多时间序列的“记忆”等信息,有助于提升模型预测能力。[page::5][page::6][page::7][page::8]

---

3、非整差分的一些简单应用(第9-16页)



3.1 不同差分程度下价格序列的信息熵(第9-11页)



3.1.1 信息熵原理:
  • 信息熵由香农定义衡量序列平均信息量,信息熵越高代表序列越随机。

- 价格序列非平稳,传统以收益率序列为基础计算信息熵。非整阶差分价格序列既满足平稳且保留更多信息,能作为更优输入。

3.1.2 量价数据编码:
  • 离散化编码必要,以二元编码、分位数编码、等距编码为主。

- 二元编码直接区分收益率正负;分位数和等距编码分别基于分位数和标准差划分区间编码。

3.1.3 信息熵结果:
  • 使用5分钟频率数据(2009-2018),比较收益率序列和0.7阶差分序列的信息熵(分位数编码和等距编码)。

- 图8-11显示,分位数编码下两者波动明显;等距编码下,0.7阶差分价格序列信息熵波动明显,而收益率序列信息熵平稳几无变化。
  • 提示低阶差分价格序列信息熵能体现更多市场环境变化。


策略示例:
  • 信息熵结合RSRS择时策略,过滤低信息熵(信息量低)的交易信号,策略收益边际改善有限,表现集中于波动较大期(如2017-2018年)。

- 0.7阶差分计算的信息熵效果优于收益率序列。

综合分析:
该节充分展示了非整差分价格序列信息熵对于市场状态识别的潜在增值意义,证明了非整差分操作的实用性及对量化策略的辅助价值。[page::9][page::10][page::11]

---

3.2 波动因子构造的延伸(第12-16页)



因子背景:
  • 低波因子基于收益率标准差,是传统有效alpha因子,通常以1阶差分(收益率)序列计算。


设置与测试(表4):
  • 样本为A股(排除停牌、退市、新股等异常样本)2005-2018。

- 月频IC均值与IR为评价指标。

样本长度影响:
  • 图14显示样本长度对IC均值几乎无影响,IR随样本时间宽度增加单调下降,10交易日样本表现最佳。


非整差分优化:
  • 图15展示在固定样本长度10日内,差分阶数从0到2的扫描结果。

- 发现1阶差分非最优,IC和IR在1.4~1.5阶取得最大值,IR提升约0.05。

股票池差异(表5):
  • 全市场、中证500、沪深300均显示1.5阶差分低波因子优于1阶。

- 相关性均很高(0.94以上),说明优化基于原因子逻辑。

组合表现(表6、7 & 图16-21):
  • 多空组合:1.5阶差分因子在年化收益、累计收益和夏普率均显著优于1阶。

- 多头组合:提升较小,特别是在沪深300,体现增益主要集中于因子对股票的选优而非单纯多头。
  • 各股票池均显示稳定改进且回撤相仿。


总结:
非整差分不仅理论上合理,也通过实证表现出改进传统因子的强大潜力,表明差分阶数微调是一种有效的量价因子优化途径,可提升选股及组合风险调整收益表现。[page::12][page::13][page::14][page::15][page::16]

---

4、风险提示(第17页)


  • 明确指出所有测试基于历史数据及当前模型,未来存在失效或不适用的风险。

- 强调投资需谨慎,模型优势不保证未来表现。[page::16]

---

5、附录详尽数据(第17-19页)


  • 给出沪深300成分股的整体与年度最小差分阶数详表,表明大部分股票差分阶数远低于1阶。

- 低波动因子在不同样本长度与差分阶数下IC、IR具体统计数据,支持核心结论。
  • 数据支持报告主体观点,保证研究的透明度与可复现性。[page::17][page::18][page::19]


---

三、图表深度解读


  • 图1-4【宽基指数差分测试】: 曲线显示差分阶数与相关性及ADF统计值的变化,右侧的ADF统计值代表统计量越低,越能拒绝单位根假设(序列越平稳),左轴相关性显示差分后序列与原序列的记忆保留。指数测试中,0.3阶差分已使序列整体平稳且相关性极高(近1)。这种走势说明只要非整阶差分即可技术上满足平稳与信息保留的平衡点。
  • 图5【上证综指0.3阶差分年ADF】: 柱状图有半数年份ADF统计值未低于95%置信水平线,表明单年看平稳性不足,彰显了单纯采用低差分阶数的局限性。
  • 图6【0.7阶差分序列与价格对数对比】: 差分序列走势波动明显且与价格对数组合显示较强相关支持基于0.7阶差分的可用性。
  • 图7【股票最小差分相关性箱线图】: 展示大部分股票在最低差分阶下与原序列相关性集中在0.8以上,说明差分后序列还保留了大量记忆,非整阶差分对个股同样适用。
  • 图8-11【信息熵曲线】: 用于比较不同编码及差分序列下信息熵的时间变化,0.7阶差分序列在等距编码下表现出更多的信息动态,表明其市场信息反映力强于简单的收益率序列。
  • 图12-13【RSRS策略结合信息熵】: 曲线显示在配合信息熵时策略收益提升较缓慢,但差分序列计算的信息熵带来更明显的边际增益。
  • 图14-15【低波因子IC、IR表现】: 明显呈下降后缓慢上升趋势,最佳区间集中于1.4-1.5差分阶,用标准差作为波动度量指标效果最佳。
  • 图16-18【多空组合净值曲线】: 1.5阶差分波动因子构造的多空组合净值曲线长期表现优于传统1阶,且波动性相仿,风险收益表现均优。
  • 图19-21【多头组合净值曲线】: 差别虽小仍显示1.5阶差分因子略优,说明优化因子在个股筛选上更有效。
  • 表1-3、5-7、9-10: 系统整合了各研究设定、不同差分阶数与样本长度下的统计结果,明确支持主要结论。


整体来看,图表形式丰富且设计合理,数据与理论紧密相连,充分体现了非整差分技术在提升模型适用性与效果方面的显著价值。[page::6][page::7][page::8][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19]

---

四、估值分析



报告未涉及公司股票具体估值或传统财务估值模型,重点为时间序列金融数据的统计处理技术与因子实证优化,不包含DCF、P/E等估值方法分析,不适用本节要求。[page::0-20]

---

五、风险因素评估


  • 主要风险点在于模型基于历史数据,未来市场环境及数据特性变化可能导致模型失效。

- 无具体缓释策略,提示用户模型酌情使用。
  • 反复强调非整差分虽优于传统方法,但并非万能,需要结合具体市场环境及模型设计考量。

- 此外,差分的计算复杂度相较传统方法更高,可能带来计算与实施风险。
  • 无明确概率估计或风险量化,但风险提示贯穿全文。[page::0][page::16]


---

六、批判性视角与细微差别


  • 报告基于充分实证,理论推导结合实际市场数据,科学性较强。

- 对非整阶差分的高级理论(后移算子级数表达)解释清晰,但实务中级数截断导致误差未深度讨论,后续具体误差范围需检验。
  • 非整差分阶数选择依赖于历史序列特性,不同市场及时间段有效性存在不确定性,广泛应用需谨慎。

- 信息熵应用虽然示范有效,但策略改进幅度有限,表现受限于策略设计,需更多协同特征挖掘。
  • 优化低波因子虽带来指标提升,相关性高说明因子相似,实际投资应用增益有限。

- 报告未来更新应考虑更多非线性模型与跨市场验证。

整体来看,报告是一份严谨的研究报告,理论与实证俱备,提出新颖方法,但实际应用时需结合更多因素和风险管理,部分改进待进一步验证。这种审慎态度符合专业研究标准。[page::0-20]

---

七、结论性综合



本报告创新性地将传统差分阶数的定义由正整数阶扩展到正实数阶,实现了非整差分在金融时间序列上的应用,特别针对A股指数和股票价格序列验证,发现:
  • 在保留时间序列记忆性的同时满足平稳性要求,非整差分(约0.7阶)比传统1阶差分更科学有效。

- 通过非整差分计算的信息熵序列较传统收益率序列表现出更丰富的市场信息,有助于提升机器学习择时策略的性能。
  • 利用非整差分调整传统量价因子构造,如低波动因子得以优化,因子IC与IR提升明显,组合表现优于原因子,尤其在中证500及沪深300股票池表现更优。

- 报告结合大量图表(包含指数与股票的差分测试图、信息熵变化图、策略收益曲线及因子IC/IR表格)展示了非整差分方法的稳健性和有效性。
  • 同时,报告客观提示历史数据的局限性和模型风险,强调量化应用需关注模型适用边界。


综上,报告系统阐释了非整阶差分操作的理论基础与实务优势,为金融时间序列分析、机器学习特征构造及量化策略优化提供了新的思路和方法,可视为金融机器学习领域重要的技术进展参考。[page::0—20]

---

# 综上所述,报告通过理论创新与丰富实证研究,明确了非整差分技术在金融数据处理中的价值,既提升了数据的平稳性也保存了更多预测信息,使得基于时间序列的机器学习模型与传统量化因子的表现均得改善,为金融量化研究提供了具有实操指导意义的新方法。

报告