`

机器学习模拟投资者分歧

创建于 更新于

摘要

本报告基于机器学习方法模拟投资者分歧,通过构建预测股票未来收益的多个模型,采用模型预测差异的标准差作为分歧度因子,有效刻画投资者观点分歧。该因子在全A股回测期内表现优异,年化超额收益约9.71%,并验证了投资者分歧度与股票未来收益负相关性。通过树模型(如LightGBM)高效模拟多投资者预测,分析了超参数、做空限制、动量及认可度对分歧度因子的影响,揭示了做空限制等因素对分歧度因子表现的显著贡献,投资者认可度辅助提升复合因子表现,回测结果稳健,交易频率适中,为股权市场的量化投资提供新视角与工具 [page::0][page::3][page::4][page::6][page::14]。

速读内容


机器学习模拟投资者分歧的核心方法 [page::0][page::4][page::6]


  • 将股票估值、成长、财务质量、量价、一致预期等43个特征分随机子集输入多个LightGBM模型,模拟多投资者对股价未来收益的异质预测。

- 通过计算多模型对同一股票同一交易日预测的标准差,构建机器学习分歧度因子,具备有效预测未来收益能力。

分歧度因子回测表现优异 [page::4][page::7]


| 因子 | RankIC均值 | ICIR | TOP组合年化超额收益率 | TOP组合换手率 |
|--------------------|------------|-------|-----------------------|---------------|
| 机器学习分歧度因子 | 7.66% | 0.75 | 9.71% | 61.97% |
| 深度学习分歧度因子 | 6.06% | 0.85 | 9.75% | 117.70% |

  • 机器学习分歧度因子在2017年至2024年间表现出显著的分层单调性,分歧度最高组收益最低,验证了分歧度与未来收益负相关。

- 相比深度学习因子,机器学习因子换手率更低,更具实用价值。

超参数敏感性分析 [page::7][page::8][page::9]


  • 预测周期:以预测未来10日收益率构建的因子效果最佳,且换手率适中。

- 投资者数量:投资者数量从25扩展至100,RankIC略增,换手率略减,数量设置过少降低效果。
  • 特征数量:随机特征数量过多反而降低分歧度因子表现,最优为约10~20个特征。

- 机器学习模型:LightGBM表现最佳,XGBoost换手率最低,CatBoost略逊于前两者。

分歧度因子相关性及优势 [page::9][page::10]


  • 分歧度因子与换手率(0.60)和特质波动率(0.61)相关性较高,这两者亦为文献中常用分歧代理指标。

- 机器学习分歧度因子的多头超额收益比换手率和特质波动率更稳健,波动性更低,近期无大幅回撤。

做空限制显著影响分歧度因子表现 [page::10][page::11]


| 机构持股比例 | 分歧度低 | 2 | 3 | 4 | 分歧度高 |
|---------------- |----------|---------|---------|----------|----------|
| 机构持股比例低 | 8.68% | 5.30% | 0.40% | -8.94% | -30.44% |
| 机构持股比例高 | 10.97% | 11.21% | 9.75% | 3.37% | -9.20% |
  • 机构持股比例低(做空难度高)的股票池,分歧度因子多空表现更显著,空头收益大幅提升至54.05%,验证做空限制强化了投资者分歧效应。

- 机构持股比例高的股票,分歧度因子预测能力减弱,多空效应较小。

动量因素与分歧度因子表现 [page::11][page::12]


| 近期收益 | 分歧度低 | 2 | 3 | 4 | 分歧度高 |
|-------------|----------|---------|---------|----------|----------|
| 近期收益低 | 10.17% | 4.78% | 5.78% | 0.51% | -4.80% |
| 近期收益高 | 2.99% | -0.98% | -9.59% | -25.06% | -38.20% |
  • 近期涨幅大的股票中,分歧度因子多空组合的空头表现尤为突出,年化收益高达63.04%,说明乐观投资者主导市场,分歧影响买卖不对称。

- 近期下跌的股票中,分歧度因子表现不规则,反映悲观观点已部分释放,分歧效应减弱。

投资者认可度因子及复合因子表现 [page::12][page::13]



| 因子 | RankIC均值 | IC
IR | TOP年化超额收益率 | TOP换手率 |
|--------------|------------|-------|-------------------|-----------|
| 分歧度因子 | 7.66% | 0.75 | 9.71% | 61.97% |
| 认可度因子 | 8.34% | 0.93 | 12.57% | 65.45% |
| 复合因子 | 9.02% | 0.95 | 13.07% | 64.41% |
  • 认可度因子构建基于模型预测均值,能正向预测股票未来收益。

- 分歧度与认可度因子等权合成的复合因子表现最佳,进一步提升了预测能力和收益水平。

结论与风险提示 [page::14]

  • 利用机器学习模型预测异质观点构建的分歧度因子有效刻画投资者分歧,对股票未来收益显著负相关,是潜力因子。

- 采用树模型模拟多投资者观点使得因子构建更高效,且表现优异。
  • 超参数(预测周期、投资者数量、特征数量等)对因子表现影响有限。

- 做空限制、动量和投资者认可度均显著影响分歧因子表现。
  • 风险提示:回测未计交易费用,机器学习策略存在过拟合及历史有效性不代表未来表现风险。

深度阅读

《机器学习模拟投资者分歧》报告详尽分析



---

一、元数据与报告概览


  • 报告标题:《机器学习模拟投资者分歧》

- 发布机构:华泰证券研究所
  • 发布日期:2024年6月15日

- 作者:林晓明、何康、卢炯
  • 主题:针对中国内地全A股市场,运用机器学习方法量化投资者分歧及其对个股未来收益的预测能力。


核心论点与目标



报告提出基于机器学习的“分歧度因子”来模拟投资者群体间的信息差异,验证了投资者分歧度与股票未来收益的负相关关系。通过50个LightGBM树模型构建分歧度因子,在全A股范围内以2017年至2024年5月的回测数据显示,该因子具备稳定的预测能力,且部分关键模型参数对回测表现影响较小。

报告同时深入探讨了卖空限制、动量效应以及投资者认可度对分歧度因子的作用,提出结合多个因子能进一步提升预测精度,为资产定价与量化投资提供新的研究和实践工具。

[page::0,14]



---

二、逐节深度解读



2.1 投资者分歧与资产定价



本部分回顾经典文献和理论基础:
  • Miller(1977)观点:投资者分歧导致股票价格偏高,未来回报下降。原因在于乐观投资者推高股价,悲观投资者受做空限制影响力较弱,市场存在买卖不对称。

- 代理指标:历史盈利波动率、公司年龄、换手率、特质波动率、分析师预测标准差,这些都是投资者分歧的间接反映,但大多不能及时反映市场近期观点变化。
  • 机器学习模拟投资者分歧的国内外研究文献基础,尤其基于NBER论文《Machine Forecast Disagreement》(Bali等,2023),提出用机器学习模型模拟异质投资者预测,计算预测值的标准差作为分歧度指标,并验证了其强大的预测能力。


[page::3]

2.2 机器学习模拟投资者分歧的具体方法



报告介绍其机器学习建模框架:
  • 模型设计:借鉴Bali等学术成果,采用多模型、多特征子集结合的策略:

- 输入为股票截面数据,43类特征(估值、成长性、财务质量、量价指标、一致预期等)。
- 采用50个LightGBM模型,每个随机选择20个特征训练,模拟不同投资者接收的差异化信息。
- 预测未来10交易日收益率。
- 每年训练一次模型,采用近6年数据,70%训练集,30%验证集,未做超参数调优。
  • 分歧度因子构建:计算同一只股票同一交易日多模型预测结果的标准差,标准差即为分歧度度量。


[page::0,6]

---

2.3 深度学习与机器学习分歧度因子比较


  • 深度学习分歧度因子

- 基于多频段量价数据(日K、周K、月K、分钟K、逐笔成交、委托)训练多种模型(GRU、PatchModel等)。
- 分歧度因子(预测未来10日收益)平均RankIC为6.06%,5层TOP组合年化超额收益9.75%,换手率117.70%。
- 预示较强的收益预测能力但换手率较高,训练成本大。
  • 机器学习分歧度因子

- 采用50个LightGBM模型,随机选20个特征,模拟50投资者。
- RankIC提升至7.66%,年化超额收益9.71%,换手率大幅下降至61.97%,显示效率和效果的改进。
- 单因子表现分层单调,第一层(分歧低)收益显著高于第五层(分歧高)。

[page::5,7]

2.4 参数敏感性分析



对预测周期、投资者数量、特征数量、机器学习模型展开敏感性测试,主旨如下:
  • 预测周期:5日、10日、20日收益率的预测因子表现相近,但10日因子表现最佳,长周期预测换手率更低(长线投资者视角下分歧变化较小)。

- 投资者数量:25、50、100个投资者模型表现差异不大,数量太少(如8个深度学习模型)导致分歧度因子表现弱。随着投资者数量增多,RankIC略微提升,换手率降低。
  • 特征数量:随机选取特征的数目影响显著,过多特征导致模型间预测趋同,分歧度减弱,相关收益和RankIC降低,换手率反而升高。

- 机器学习模型:LightGBM、XGBoost、CatBoost均表现稳定,LightGBM在RankIC和收益率上略优,XGBoost换手率最低。

图表显示分层组合相对净值及累计RankIC均支持上述结论。

[page::7,8,9]

2.5 相关性与影响因素分析


  • 相关性分析:机器学习分歧度因子与换手率(0.60)和特质波动率(0.61)相关性较高,说明其有效捕获投资者分歧相关信息。多头超额收益稳定,回撤较小,优于单纯的换手率和特质波动率因子。

- 做空限制
- 以机构持股比例衡量做空难易,低机构持股股票做空难,分歧度因子表现更强,特别是空头组合收益更突出(多空收益率54.05% vs 32.89%总体)。
- 机构持股比例高的股票分歧度因子表现较弱,验证卖空限制对分歧效应的基础作用。
  • 动量效应

- 按20日涨跌分组,近期涨幅大股票中,分歧度因子多空收益显著(最高达63.04%),表明乐观投资者主导,观点分歧导致买卖不对称增强。
- 近期跌幅大股票中,分歧度因子表现不稳定,说明悲观情绪已部分释放。
  • 投资者认可度因子

- 计算模型预测均值构建认可度因子,具有正向收益预测能力(排名IC平均8.34%,年化超额收益12.57%)。
- 分歧度和认可度交叉分析显示,一致看多(低分歧+高认可度)组合收益最高,争议看空(高分歧+低认可度)组合预期最低。
- 将两因子等权合成复合因子,RankIC和收益率均有提升,表明组合使用更稳健。

[page::9,10,11,12,13]

---

三、图表深度解读



图表1 & 9:机器学习模拟投资者分歧方法示意图


  • 展示了多特征子集随机选择过程和对应多模型训练,模拟“投资者”。

- 通过计算多模型对同一股票、同一交易日预测值的标准差作为分歧度。
  • 图形结构清晰,结构类似集成学习框架,体现了异质信息处理。


图表2 & 10:机器学习分歧度因子RankIC和分层回测结果汇总


  • RankIC均值7.66%,标准差10.18%,信息比率0.75,IC>0比例77.78%。

- TOP组合年化超额收益9.71%,信息比率2.46,胜率68.54%,换手率61.97%。
  • 显示因子预测稳定且交易成本相对可控。


图表3 & 11:因子分层相对净值曲线


  • 1层(分歧最低)表现最佳,净值近7年翻倍近2倍。

- 5层(分歧最高)表现弱,净值甚至大幅缩水(至约0.25-0.3)。
  • 较好地展现分歧度与股票未来收益的负相关性。


图表4, 8, 12:累计RankIC曲线连续上升


  • 累计RankIC稳步升高,说明因子表现持续有效无明显衰减。


图表5 & 7:深度学习模型结构及对应分歧因子表现


  • 多频段、不同结构神经网络组成,成本高但有力支持机器学习分歧模拟思路。

- 该因子IC和收益表现略逊于机器学习模型,换手率更高。

相关参数敏感性图表(13~24)


  • 不同预测周期、投资者数量、特征数量、模型类型对因子表现影响有限,验证模型稳定性。

- 换手率随预测周期变长、投资者数量增多、特征数量减少而降低。

做空限制、动量效应分组表现(27~34)


  • 按机构持股和近期涨跌率划分组合明显揭示模型在特定市场环境中的有效性。

- 做空难股票中分歧收益表现尤为突出(年化收益54.05%),动量买卖不对称逻辑成立。

认可度因子及复合因子表现(35~44)


  • 认可度因子单独能预测未来收益,复合分歧度与认可度因子提升预测效果。

- 复合因子最高层组合累计收益大幅领先基准。

---

四、估值方法



本文报告核心并非单一标的估值,而是提出机器学习分歧度因子的构建及应用,回测验证其预测能力和策略表现。所用因子均为基于机器学习模型预测未来收益的统计指标,不涉及直接现金流折现等传统企业估值方法。

---

五、风险因素评估



报告明示风险主要围绕:
  • 策略失效风险:机器学习模型基于历史数据训练,存在未来样本失效风险。

- 过拟合风险:机器学习过程可能捕捉到噪声,导致模型在新数据上表现下降。
  • 交易成本缺失:回测未考虑手续费与滑点,实际净收益可能低于回测表现。


书面风险提示显示分析师和机构均无利益冲突,强调报告仅供参考不构成投资建议。

[page::0,14]

---

六、批判性视角与细微差别


  • 模型设计稳健但简化:模型超参数固定,训练频率较低(每年一次),可能未充分利用高频信息或实现模型最优。

- 数据覆盖与特征解释空间有限:43个特征尽管涵盖多维财务与市场信息,但缺乏心理、舆论等软信息,这些也可能影响投资者分歧。
  • 样本外验证不足:现金流预测、宏观经济周期等参数未明确纳入,可能限制模型适应环境变化的能力。

- 交易成本和实际策略执行难度未充分量化:尤其是在高换手率策略下,交易费用阻碍盈利转化,需进一步实务验证。
  • 投资者群体模拟假设的合理性:将随机特征子集+LightGBM模型视为不同投资者存在一定理论创意,但抽象化程度较高,是否能完全代表真实异质性投资者行为仍需市场验证。


---

七、结论性综合



该报告创新地将机器学习模型集成视为投资者异质化信息处理与观点分歧的模拟方法,创新点突出,方法科学,数据详实。
  • 投资者分歧影响机制顺畅继承经典理论,即分歧度越高,股票未来预期收益越低。具体机制体现为乐观投资者推高股价,悲观投资者做空受限,导致价格虚高和预期回报下降。

- 分歧度因子的机器学习构建表现优秀,以50个LightGBM模型训练的分歧度因子表现稳定,RankIC 7.66%,超额收益近10%,同时换手率降低,减少交易摩擦。
  • 因子对预测周期、投资者数量、特征数量、模型类型敏感性较低,说明方法具有一定鲁棒性和泛化能力。

- 外部市场环境因素(做空限制、动量效应、认可度)对因子表现有重要调节作用,实证检验支持理论基础。
  • 认可度因子与分歧度因子结合提升因子信号质量,呈现复合因子预测能力优于单因子的证据。


报告配套大量图表,清晰展示分层净值曲线、累计RankIC、相关性分析及多维度分组表现,直观证实机器学习模拟投资者分歧的有效性。

最终,报告提出基于机器学习构建的分歧度因子为资产定价及量化选股提供了新的工具和视角,为投资实际操作和学术研究均具参考价值。

---

图表展示示例



机器学习分歧度因子分层组合相对净值(2017年至2024年):



机器学习分歧度因子累计RankIC走势:



复合因子TOP组合相对净值:



---

参考文献


  1. Miller E. M. (1977). Risk, uncertainty, and divergence of opinion. The Journal of Finance, 32(4), 1151-1168.

2. Diether K. B., Malloy C. J., Scherbina A. (2002). Differences of opinion and the cross section of stock returns. The Journal of Finance, 57(5), 2113-2141.
  1. Bali T. G., Kelly B. T., Mörke M., et al. (2023). Machine Forecast Disagreement. NBER Working Paper.

4. Fama E. F., French K. R. (2015). A five-factor asset pricing model. Journal of Financial Economics, 116(1), 1-22.

---

总结



整体来看,报告提供了系统且深入的机器学习视角下投资者分歧模拟框架,结合理论、实证和量化回测,具备较高的创新性和实用价值,为理解投资者行为与资产价格关系贡献了有力工具,也对相关量化策略开发提供了可行路径。

[page::0,3,4,5,6,7,8,9,10,11,12,13,14]

报告