`

人工智能系列之 80:机器学习用于模拟投资者分歧

创建于 更新于

摘要

本报告借鉴国际前沿研究,运用多模型机器学习构建投资者分歧度因子,模拟投资群体不同信息源下的异质预测,验证分歧度因子对未来股票收益的显著负相关性。通过50个LightGBM模型模拟投资者观点,分歧度因子在A股2017-2024年回测期表现优异,年化超额收益达9.71%,换手率显著下降。参数敏感性分析表明超参数影响有限,做空限制、动量及投资者认可度等因素对分歧度影响显著。分歧与认可度因子复合后,预期收益和因子稳定性均有所提升 [page::0][page::3][page::4][page::6][page::14]

速读内容


机器学习模拟投资者分歧框架与理论基础 [page::3][page::4][page::6]


  • 采用50个LightGBM模型,随机从43个股票截面特征中抽取20个特征,用以模拟不同投资者接收信息差异。

- 通过计算同一股票、同一交易日的预测值标准差,构建分歧度因子。
  • 基于Miller(1977)及Bali等(2023)理论,投资者分歧导致股票价格高估,推高风险溢价。


分歧度因子回测表现及特征分析 [page::4][page::7]


| 因子类型 | RankIC均值 | 年化超额收益率 | 换手率 | 信息比率 |
|--------------|-----------|--------------|---------|--------|
| 机器学习分歧度因子 | 7.66% | 9.71% | 61.97% | 2.46 |
| 深度学习分歧度因子 | 6.06% | 9.75% | 117.70% | 3.03 |
  • 机器学习分歧度因子相比深度学习表现出更高的RankIC和更低的换手率,增强策略稳定性。

- 分层组合净值及累计RankIC曲线显示分歧度因子具有良好的单调性和预测能力。

参数敏感性分析 [page::7][page::8][page::9]



  • 预测周期主要影响换手率,周期越长换手率越低,回测表现相近。

- 投资者数量越多,RankIC略升,换手率下降,数量不足会降低因子效果。
  • 特征数量过多会削弱投资者间预测差异,导致分歧度因子表现下降。

- LightGBM、XGBoost、CatBoost模型均适用,LightGBM表现略优。

相关性及多头收益对比 [page::9][page::10]


  • 分歧度因子与换手率(0.60)和特质波动率(0.61)相关较高,但表现更加稳定,回撤较少。


影响因素分析:做空限制、动量和认可度 [page::10][page::11][page::12][page::13]


| 组合维度 | 分歧度因子多空组合年化收益率 |
|----------------|--------------------------|
| 所有股票 | 32.89% |
| 机构持股比例低 | 54.05% |
| 机构持股比例高 | 21.14% |
  • 机构持股比例低(做空难)股票中,分歧度因子多空收益显著提升,支持卖空限制对分歧效应的经济基础。

- 近期涨幅高的股票池中,分歧度因子多空组合年化收益率达到63.04%,买卖不对称性更强。
  • 认可度因子基于模型预测均值构建,具有正向预测能力,TOP组合年化超额收益12.57%。

- 分歧度与认可度因子等权组合,性能进一步提升,年化超额收益13.07%。

机器学习分歧度因子构建步骤总结 [page::4][page::6]


  • 输入43个股票截面特征,随机选取20个为每个LightGBM模型特征子集。

- 训练50个模型预测未来10日收益率,计算预测标准差作为分歧度因子值。
  • 动态年更新模型,采用过去6年数据,7:3划分训练和验证集。


研究风险提示与总结汇总 [page::14]

  • 机器学习模型存在过拟合风险,回测未计交易费用,历史表现不保证未来有效性。

- 分歧度因子为投资者观点异质性的量化体现,对资产定价具显著解释力和投资价值。

深度阅读

机器学习模拟投资者分歧 — 华泰研究报告深度剖析



---

一、元数据与概览



标题:机器学习模拟投资者分歧
作者:研究员林晓明、何康,联系人卢炯
发布机构:华泰证券股份有限公司
发布时间:2024年6月15日
地域:中国内地
主题:通过机器学习技术模拟投资者分歧,构建分歧度因子,分析投资者分歧对股票未来收益的预测能力。

报告核心论点和评级
  • 通过将股票截面多类特征分组并输入多个机器学习模型,模拟出投资群体的异质化预测,形成了机器学习分歧度因子;

- 该因子能有效刻画投资者分歧,呈现分歧越大,未来股票预期收益越低的规律,符合Miller(1977)理论;
  • 回测表现优异,机器学习分歧度因子周频RankIC均值达到7.66%,年化超额收益稳定在约9.7%;

- 超参数调整对因子表现影响有限,适度特征随机选择生成投资观点差异,模型类型间表现接近;
  • 股票做空限制(机构持股比例)、动量及投资者认可度对因子表现有显著影响,结合认可度因子的复合因子表现进一步优异;

- 风险包括机器学习模型可能出现的过拟合、策略失效风险和回测未考虑交易费用。

总体看,华泰研究系统地结合前沿机器学习与金融资产定价理论,构建了创新的投资者分歧量化工具,且在A股市场具备稳定预测力,具备重要的研究和应用价值[page::0,14]。

---

二、逐节深度解读



2.1 投资者分歧与资产定价(第3页)



本节深入介绍投资者分歧的金融经济学基础和测度方法:
  • 投资者分歧定义为不同投资者对未来股价或收益预期的差异,驱动交易并影响资产定价。

- 经典逻辑:Miller(1977)认为乐观投资者推高股价,悲观投资者由于做空限制影响力较弱,造成价格虚高,未来回报走低。
  • 现有测度分为代理指标,如盈利波动率、换手率、特质波动率及分析师预测分歧,均存在间接性或局限。

- 介绍了Bali等(2023)的“机器预测分歧(MFD)”概念,利用机器学习模型模拟投资者异质观点,克服传统指标的局限。
  • MFD基于大规模多因子、滚动训练、随机森林模型,实证表明高分歧股票未来收益显著低于低分歧股票,且与卖空成本、套利限制相关。

- 该文献为本报告所借鉴和展开的理论基础,印证了机器学习在投资者分歧测量和资产定价领域的良好表现[page::3]。

2.2 机器学习模拟投资者分歧的方法论(第4页及第6页)


  • 本报告沿用上述NBER论文的核心思想,使用多模型、多特征随机采样的方式,模拟投资者分别接收不同信息生产差异化预测。

- 采用了LightGBM作为核心机器学习模型,随机选取20个特征、构建50个“投资者模型”,输出未来10日收益率预测值。
  • 计算这些模型对同一支股票同一交易日预测结果的标准差,作为“机器学习分歧度因子”,此标准差反映了投资者观点的分歧程度。

- 模型训练采用6年滚动窗口数据,每年更新,6:3比例拆分训练和验证集,避免未来信息泄露。
  • 因子数据预处理包括去极值、行业和市值中性化,以及标准化,保证因子稳定性和可比性。

- 方法相较深度学习模型具备计算效率和规模适应力,更容易实际应用于全市场[page::4,6]。

2.3 深度学习分歧度因子与机器学习分歧度因子对比(第5-7页)


  • 报告先基于前期深度学习模型计算分歧度,回测区间覆盖2017年初至2024年5月。

- 深度学习分歧度因子周度RankIC均值6.06%,年化超额收益9.75%,换手率高达117.7%,显示出较强预测能力但换手较频繁。
  • 机器学习分歧度因子RankIC均值提升至7.66%,年化收益为9.71%,换手率降至61.97%,因子表现更优,成本更低。

- 两者的分层净值图(图表3和11)均表现良好的单调收益趋势,分歧度最低(第1层)组合收益最高,分歧度最高(第5层)组合收益明显落后。
  • 因子累计RankIC曲线呈持续稳健上升趋势,说明因子具有长期、稳定的预测能力。

- 结论是基于机器学习的分歧度因子兼顾了效能和性能优势,适合规模化商业应用[page::5,6,7]。

2.4 参数敏感性分析(第7-9页)


  • 不同预测日期(5/10/20日)对因子表现影响很小,10日预测稍占优,且预测周期越长换手率越低,体现长期观点的稳定性。

- 投资者数量在25、50、100之间变化,因子表现接近,50个投资者模型平衡了计算量和预测能力。投资者数目过少,分歧度表现下降且换手率升高。
  • 特征数量对分歧度健康度影响明显,少特征(10个)产生更高RankIC和更低换手率,特征配置过大(30个)反而降低观点差异,表现稍差。

- 不同机器学习树模型(LightGBM, XGBoost, CatBoost)整体表现接近,LightGBM稍优,XGBoost换手率最低。
  • 相关性分析显示机器学习分歧度因子与换手率和特质波动率相关度较高,这两者为传统分歧率代理,但机器学习因子表现更稳定,回撤更小[page::7-9]。


2.5 影响因素分析(第10-13页)


  • 做空限制:通过机构持股比例划分股票池,做空难度高(机构持股低)的股票上,分歧度因子的多空收益效果更加显著,支持Miller模型的理论基础。机构持股比例低的股票多空年化收益超过54%,远超整体32.89%。

- 动量:将股票按近20日涨跌幅分组,在高涨幅股票中分歧度因子表现尤为突出,年化多空收益高达63.04%。表明近期上涨(乐观情绪占优)强化了分歧带来的买卖不对称,增强空头收益。
  • 投资者认可度因子:以机器模型预测均值代替标准差构建认可度因子,该因子正向预测股票收益,年化收益12.57%。结合分歧度和认可度因子形成复合因子,RankIC和年化收益均得到提升,如复合因子年化超额收益达到13.07%。

- 分歧度高且认可度低的“争议看空”股票表现最差,认可度高且分歧度低股票组合表现最佳,与行为金融中的"共识乐观"和"分歧悲观"观点一致。
  • 以上因子多空组合净值图和累计RankIC曲线(图29至44)反映了强烈的策略稳定性和经济解释力[page::10-13]。


---

三、图表深度解读



3.1 机器学习分歧度因子构建流程(图表4、图表9)


  • 图示将全部股票特征随机拆分成多个子集,每个子集训练一个LightGBM模型,模拟一个投资者的观点;

- 预测未来10日收益率,计算不同投资者模型对同一股票同一交易日预测的标准差,作为分歧度的量化指标;
  • 这种机制捕捉信息源分散和观点异质性,模拟了现实投资者分歧产生的机制,是创新性的机器学习量化投资方法[page::4,6]。


3.2 分歧度因子表现及分层净值(图表3、图表7、图表11)


  • 不论深度学习还是机器学习分歧因子,分层相对净值图均表现第1层(低分歧)组合累计收益最高,第5层(高分歧)组合最弱,呈现清晰的分歧—收益负相关,验证理论预期。

- 近七年期间,前者第1层相对净值上涨约2倍,第5层缩水至0.3左右,表现差异显著。
  • 机器学习模型优化换手率(60%以下),更加适合实际交易[page::4,6,7]。


3.3 参数敏感性图表(图表13-24)


  • 不同预测周期下因子TOP组合净值(图表14)趋同,10日期表现稍好,变化不大,换手率显示预测周期越短换手率越高。

- 不同投资者数目模拟间净值走势几乎重合,显示投资者规模适度即可取得效果。
  • 选取不同数量特征(10,20,30)构建因子时,10或20个特征略优于30个,分层净值曲线更为陡峭。

- LightGBM模型稍显优势,净值曲线领先且累计RankIC最高。
  • 以上图表说明参数灵敏度不大,但适宜调整以平衡复杂度和稳定性[page::8,9]。


3.4 相关性与多头净值对比(图表25、26)


  • 机器学习分歧度因子与换手率(0.60)和特质波动率(0.61)呈较高正相关,表明捕捉了投资者分歧的核心维度。

- 多头净值表现显示机器学习分歧度因子回撤更低且趋势更平稳,具有更好的策略稳定性与实际应用价值[page::9,10]。

3.5 做空限制、动量与认可度影响(图表27至44)


  • 机构持股比例低(做空困难)股票中,分歧度因子策略表现最佳,年化多空收益大幅提升,图表29、30分歧度因子多空净值表现突出。

- 近期涨幅较大股票中,分歧度因子表现最强,远超其他分组,对应图表33、34所示净值。
  • 认可度因子(模型预测均值)单独表现优秀,与分歧度结合后复合因子净值和累计RankIC水平最高(图表43、44),表明正向认同和观点分化共同作用下,策略增强。

- 分歧与认可双因子交叉分组中,“争议看空”(高分歧低认可度)组合表现极差,符合市场行为预期,增添经济学解释力[page::10-13]。

---

四、估值分析



本报告属于因子研究与投资策略开发,主要聚焦于机器学习方法对投资者分歧的建模及预测能力验证,没有涉及具体的公司估值模型或目标价制定,因此无传统意义上的估值分析章节。但跨领域应用机器学习方法拟合市场预期,构成了对资产价格有效性和投资组合构建的创新贡献。

---

五、风险因素评估


  • 历史回测和未来表现不确定性:报告强调机器学习选股策略是基于历史数据的经验总结,未来市场环境变化可能导致策略失效。

- 过拟合风险:机器学习模型若未正确控制训练过程和超参数,可能捕捉噪声,导致泛化能力不足。
  • 未计交易成本:回测过程中未考虑买卖交易费用,实际收益率可能有所降低。

- 数据和模型稳定性依赖:机器学习模型依赖输入特征质量与稳定性,特征数据异常或缺失可能影响因子表现。
  • 政策与市场行为变化:制度性做空限制或市场结构转变可能改变模型假设条件。


报告对以上风险均有明确提示,体现了研究的谨慎和科学态度[page::0,14]。

---

六、批判性视角与细微差别


  • 报告中利用标准差作为分歧因子核心度量,虽能有效捕捉观点分化,但标准差可能受极端值干扰,是否结合稳健统计量尚不明确。

- 机器学习模型依赖过去六年的训练数据,每年更新,尽管形式上可缓解过拟合,但长期稳定性仍需进一步跟踪。
  • 换手率较高(虽较深度学习模型已显著下降),在实际应用中需考虑实盘交易滑点与冲击成本。

- 虽然使用了多类机器学习算法做对比,报告未详述特征工程细节与模型选择背后的经济学解释,未来可进一步强化理论结合。
  • 报告强调了炒作者机构持股和做空限制的关联,然而机构持股比例作为做空难易代理仍有局限性,因其受多种因素影响。

- 认可度因子表现优异,结合分歧度构建复合因子时提升,还可探索其他交互指标或加权方法优化效果。

整体而言,报告趋于谨慎客观,结合实证支持机器学习在投资者观点建模的推动作用,尚需在细节层面挖掘更深的经济含义与监测机制[page::14]。

---

七、结论性综合



本文以机器学习为技术手段创新性地构建了投资者分歧度因子,实现了对投资观点异质性及其对股票收益影响的量化模拟。结合Miller(1977)经典理论和Bali等(2023)前沿研究框架,华泰研究采用全A股样本,(2017-2024)7年多频数据,基于LightGBM树模型随机采样多特征集训练50个模型,计算预测标准差作为分歧度指标,回测表现卓著:
  • 因子性能优异:分歧度因子周度RankIC均值7.66%,年化超额收益约9.7%,且换手率相比深度学习模型下降近一半,显示机器学习模型在捕捉投资分歧的效率和效果上的提升。

- 稳定性好:因子累计RankIC持续攀升,分层净值表现出较强的单调性,分歧度最低的组合收益最优,验证了负相关的经济学逻辑。
  • 参数稳健:预测周期、模型数量、特征集大小和机器学习算法类型等关键超参数对因子性能影响有限,但存在最优区间为机器学习实际应用提供指导。

- 经济解释力强:通过对做空限制、动量和认可度的专题分析,因子表现受机构持股比例和股票近期走势影响显著,尤其在做空受限和近期强势股票中策略表现极佳,且认可度因子与分歧度因子交互提升预测能力。
  • 图表支持充分:多张分层净值和累计IC图展示了因子的持久性和稳定性,分组收益率表则体现了策略对不同市场环境和特征组合的适应性。


综上,报告成功实现将机器学习技术与行为金融学理论结合,构建了一种能够系统、稳定地度量并应用投资者分歧的新型因子,为市场定价研究和投资策略开发提供了重要方法论和实证基础[page::0-14]。

---

关键图表示例说明(Markdown格式引用)


  1. 机器学习分歧度因子分层组合相对净值(图表3):


显示机器学习构建的分歧度因子根据分歧程度划分为5个层级组合,2017年至2024年间,第1层(分歧最低)组合累计净值稳定上升至约2倍,第5层(分歧最高)组合净值不断下滑至约0.25,复现分歧与收益的显著负相关关系。
  1. 机器学习分歧度因子回测表现综合指标表(图表10):

- RankIC均值7.66%
- TOP组合年化超额收益9.71%
- 换手率61.97%
表明该因子在全A市场表现稳定且换手较低,适合实际交易应用。

---

综上,本报告围绕机器学习模拟投资者分歧展开,系统设计并验证了以模型预测分歧为核心的量化因子,兼顾理论基础、算法实现、实证回测与风险解读,全面且富有洞察力,具有较高的实用价值和学术贡献。

免责声明和附录



报告内容系基于公开信息及历史数据分析,不构成投资建议,存在策略模型过拟合和市场变化风险,回测未计交易成本,读者需审慎使用。华泰证券相关法律及监管声明详见报告后附[page::14-18]。

---

(全文字数约2100字,涵盖报告各层面详尽分析和数据解读)

报告