`

异象策略的相关性结构

创建于 更新于

摘要

本报告基于215个美股异象策略构建数据库,筛选出80个显著异象并通过层次聚类方法划分为28个聚类组合。研究发现即使在五因子模型下,依然有超过三分之一聚类组合表现显著,表明现有模型未涵盖全部风险维度。通过最佳优先搜索算法,识别了包括预期增长因子和应计项目相关组合在内的9个核心因子,能够解释所有聚类组合和显著异象,显著提升资产定价模型的解释能力和定价效力。此外,模型新增因子后最大平方夏普比显著提升,体现了该方法的有效性与实用价值 [page::0][page::1][page::5][page::6][page::8][page::9]

速读内容


异象策略聚类分析方法及结果 [page::1][page::3][page::4][page::5]


  • 构建215个美股异象策略数据库,使用显著性水平筛选80个显著异象。

- 采用层次聚类(hierarchical agglomerative clustering)算法,基于异象间相关性定义异象相异性指标,选定相关性阈值0.4。
  • 最适聚类数为28,显著减少误分类(误分类数最低为236对,约占全部3160对异象的4%)。

- 聚类平均相关性0.03,组间最高至0.57, 有效处理强相关异象。

聚类组合与基准模型拟合及显著性检验 [page::5][page::6]


  • 使用六种基准模型(CAPM、FF3、HXZ4、FF5、FF6、HMXZ5)对80个异象及28个聚类组合alpha进行显著性检验。

- 即使是表现最优的HMXZ5模型,仍有10个(36%)聚类组合alpha显著,表明模型未完备。
  • 聚类组合的alpha显著比例高于单一异象,提示聚类组合能更均衡衡量定价模型解释能力。


9因子降维模型构建及解释力 [page::6][page::7]



| 因子类别 | 因子名称 | 备注 |
|------------------|-------------------------|-------------------|
| 共同因子 | EG(预期增长) | 重要的增长因子 |
| 聚类组合因子 | Accruals(应计项目) | 尽显异象特征 |
| 共同因子 | SMB(市值规模) | 传统因子之一 |
| 聚类组合因子 | IssuanceAndYield | 发行与收益率溢价组合 |
| 共同因子 | MKTRF(市场因子) | 市场整体风险体现 |
| 聚类组合因子 | STREV(短期反转) | 反转特性组合 |
| 聚类组合因子 | Seasonality(季节效应) | 季节性市场行为 |
| 聚类组合因子 | CapexGrowth(资本支出增长)| 资本开支相关组合 |
| 聚类组合因子 | Epsconsistency(EPS持续性) | 长期盈利增长异象 |
  • 采用最佳优先搜索贪婪算法,选择该9因子组合显著减少所有聚类组合alpha显著性和无法解释方差。

- 该因子组也可将80个异象的异常收益降至不显著水平,显著提高资产定价模型的精度。

资产定价模型定价能力提升验证 [page::8]


  • 对比基准模型和基于9因子降维模型,后者最大月度平方夏普比(MS比)达到0.51,显著优于HMXZ5模型的0.37。

- 通过10万次重抽样模拟确认该提升具有高度统计显著性,表明新的因子体系增强了模型的风险定价能力。

深度阅读

金融研究报告详尽分析报告


报告元数据与概览

  • 报告标题:《异象策略的相关性结构》

- 作者:吴先兴
  • 发布机构:天风证券股份有限公司

- 发布日期:2020年10月21日
  • 核心主题

本报告基于Paul Geertsema与Helen Lu于2020年发表在《Journal of Banking and Finance》上的学术论文,主要研究大量股票市场中的资产定价异象(Anomaly)策略的相关性结构,通过聚类分析识别显著的异象群落,并从中筛选出关键因子以进一步提高资产定价模型的解释力。重点讨论了在五因子模型基础上仍无法解释的异象聚类,最终提出一种包含九个因子的简洁资产定价模型,强调预期增长因子(EG)及与应计项目相关的聚类组合在提升定价能力上的重要性。
  • 核心论点与结论

- 原始数据库包含215种异象策略,通过统计筛选后保留80个在均值上显著的异象。
- 使用层次聚类法将这80个异象组合为28个独立的异象聚类组合(cluster portfolios)。
- 当前主流资产定价模型(例如最新的五因子模型)依然无法完全解释这些聚类组合,有超过三分之一的聚类组合表现出显著alpha收益。
- 通过最佳优先搜索算法,从41个候选因子中选出9个重要因子,这些因子能够有效解释所有28个聚类组合及80个异象。
- 该研究提出的优化模型显著提升了资产定价模型的表现,最大平方夏普比从0.37提升至0.51,模型解释能力得到明显增强。
- 预期增长(EG)因子和集群的应计项目相关因子尤为关键,显著提高定价能力。

逐节深度解读



1. 简介


报告首先指出目前资产定价领域通过提出新风险因子模型来解释日益丰富的异象(异常收益现象)。Fama & French(1993)的三因子模型即基于异象。文章提出了一种基于“异象之间的相关性”来将异象聚类的新方法,旨在识别传统模型未能涵盖的维度。
作者构建了涵盖215种异象策略的数据库,这些异象基于美股多空组合策略,利用分位数分组并采用市值加权组合方式。通过5%显著性水平的筛选方法,选出80个均值显著的异象,再利用聚类分析合并成28个等权的异象聚类组合,为后续分析提供了结构化基础。[page::0][page::1]

2. 数据


使用1963年7月至2019年12月期间在NYSE、Amex或Nasdaq交易的普通股数据。异象通过分位数排序变量分组构建,排序变量来自企业特征、股票变量以及宏观经济因子载荷。215个初始变量经过筛选后,80个异象进入后续分析,平均月收益0.49%。尽管整体异象间相关性较弱,但存在明显强相关异象,支持聚类合并的合理性。[page::1][page::2]

3. 聚类分析


聚类分析采用层次聚类(hierarchical agglomerative clustering),基于异象收益序列间的相关系数进行衡量。定义相异性度量$d(xi,xj) = (1-\rho_{i,j})/2$,取值范围[0,1],越小表示越相关。平均连锁法(average linkage method)用于计算不同簇间距离,并通过迭代合并相关性强的异象组合。

为了确定最佳聚类数,设定相关阈值为0.4,将强相关异象划为一类。误分类定义为“假阳性”(簇内实际弱相关对)和“假阴性”(簇外实际强相关对),在相关阈值0.4下,各项误分类计数随聚类数变化,最优聚类数为28,此时误分类对数最低(236对,占总3160对的4%)。该方法有效地平衡了组内相关性和组间差异性,为异象组合提供了更合理的维度划分。[page::3][page::4][page::5]

图表解读

  • 图3(聚类数量)展示了误分类数(假阳性、假阴性和总误分类)对于聚类数的变化趋势。曲线显示当聚类数为28时,误分类数达到最低点,表明该分割最优。该图支持采用28个聚类组合的决策。

[page::5]

4. 收益的维度


4.1 聚类组合的alpha与无法解释的方差


使用六种不同资产定价基准模型(包括CAPM、Fama-French三因子和五因子模型等)对三个数据集(全部异象、80个过滤异象和28个聚类组合)进行alpha检验,考察模型对异象和聚类组合收益的解释能力。
结果显示,尽管HMXZ5模型(与Hou等2020有关的高维模型)表现最佳,仍有36%的聚类组合在5%显著水平下表现显著alpha,说明当前基准模型仍有遗漏风险因子,缺少解释收益的维度。聚类组合相较个别异象表现出更高比例的显著alpha,说明聚类组合的更平衡结构更准确反映基准模型的解释能力不足。[page::5][page::6]

4.2 降维搜索


针对41个候选因子,通过贪婪式的最佳优先搜索算法,选出一组能够最大限度减少显著alpha和降低聚类组合无法解释的方差的因子子集。
最终确定的九因子包括:
  1. 预期增长(Expected Growth, EG)因子

2. 应计项目聚类组合(Accruals)
  1. SMB规模因子(Fama-French三因子)

4. 发行与收益率溢价聚类组合(IssuanceAndYield)
  1. 市场超额收益因子(MKTRF)

6. 短期反转因子(STREV)
  1. 季节效应聚类组合

8. 资本增长聚类组合(CapexGrowth)
  1. 长期盈利一致性聚类组合(epsconsistency)


该模型能够解释所有28个聚类组和全部80个筛选后的异象,实现了对原始215个异象的有效降维表达。进一步分析发现预期增长(EG)与应计项目(Accruals)因子对模型的提升贡献最大。[page::6][page::7]

图表解读

  • 图5(降维)展示了最佳优先搜索方法选择因子的过程以及各因子对减少alpha显著性和无法解释方差的贡献排名。表中显示EG和Accruals因子始终排名靠前,说明其核心价值。

(此处原文无图片,需参考实际报告)

5. 资产定价


引入新因子显著提升了资产定价模型的有效性。采用Barillas和Shanken(2017)提出的最大平方夏普比(Maximum Squared Sharpe Ratio, MS比)指标进行检验,结果表明,在1972年7月至2019年12月的样本期间,传统最好基准模型HMXZ5的MS比为0.37,而基于九因子降维搜索得出的增强模型(SG9)MS比提高至0.51,显著超越传统模型,提升定价准确度。重抽样模拟(100,000次)进一步确认此结论的稳健性。

图表解读

  • 图6(最大平方夏普比)直观呈现了基准模型与增强模型之间的定价效率差距,验证了九因子模型在解释资产回报横截面差异上的优势。

(备注:报告原文未给出图片地址,故此处留空,实际使用时根据报告插图引用)[page::8]

6. 总结


基于215个异象筛选出80个重要异象并进一步聚类为28个聚类组合,通过严格统计测试确认当前资产定价模型尚有解释不足。采用最佳优先搜索算法从41个候选因子中筛选出具有最大增益的9个因子,建立了更具解释力的资产定价框架。预期增长因子和应计项目聚类组合为模型核心,极大提升了对异象收益的解释能力,实现了理论与实证的结合,推动异象策略的系统整理和定价模型的升级。

此外,报告还提醒投资者关注该研究结论基于历史数据和选定样本,具体应用时需结合实际市场环境及风险考量,且报告仅供参考,不构成投资建议。
整体报告具有较强的理论深度和实证支持,聚类方法与降维策略为复杂异象策略体系的研究提供了有力工具。[page::9][page::11]

---

风险因素评估


报告未详细展开各风险因素,但结合内容,可以归纳出核心风险点如下:
  • 模型假设风险:因子模型本身依赖历史统计关系,可能面临结构性变化、样本外失效的风险。

- 聚类和降维的误分类风险:聚类分析虽选出28组较优组合,但依旧存在误分类可能,影响因子解释效力。
  • 因子选择的稳健性:最佳优先搜索方法提供的是上界解,可能存在更优模型结构或替代表因子组合。

- 市场环境变化风险:因子表现受宏观经济、政策及市场情绪影响,未来可能不再有效。
报告未提供针对风险的缓解措施,但对模型创新和超越传统资产定价框架具有积极指导意义。[page::11]

批判性视角与细微差别

  • 报告充分基于经验证据和严格的统计方法构建结构,较为严谨。

- 但聚类法与贪婪搜索算法固有的“启发式”特征可能导致非全局最优解,建议结合其他机器学习算法验证。
  • 报告部分结论依赖显著性水平的统计测试,存在多重检验问题未明确说明,可能引入假阳性。

- 虽强调EG和Accruals因子的关键作用,但未对经济机制深入展开,理论基础略显薄弱。
  • 报告未披露具体数据的横向比较与异象策略覆盖完整性,后续研究可能需补充此领域。


结论性综合


本报告系统梳理和分析了股票市场中丰富的异象策略的相关性结构,通过聚类分析归纳成28个代表性聚类组合,从而为资产定价模型的改进提供了坚实基础。利用最佳优先搜索算法从候选因子库中筛选出9个核心因子,包括预期增长、应计项目等关键因子,大幅提升了模型对异象收益的解释能力。改进后的模型最大平方夏普比显著提高,展现出较传统五因子模型更强的定价能力和业绩解释力。

聚类图表清晰展示了误分类随聚类数变化过程,为精确定义异象之间的相关结构提供了数据支持,降低了多重异象的干扰。收益维度分析和alpha检测结果进一步确认了新模型的必要性和有效性。总之,本文的研究框架和方法为深入理解和利用异象策略提供了创新且实用的途径,尤其是强调了预期增长及应计项目相关因子的核心价值。

该报告结论对金融工程和量化投资实践具有重要启示意义,鼓励通过系统性方法解析资产定价异象,完善风险定价工具,推动资产管理模式优化。

---

(全文引用标注:[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::11][page::12])

报告