深度学习赋能分析师行为 更稳的盈利预期调整组合 | 开源金工
创建于 更新于
摘要
本报告基于深度学习模型构建研报文本情绪因子(KY-Bert、KY-Llama3、KY-CH及其合成因子KY-Combine-ASC),结合传统数值盈利预期调整因子FYR_DISP_strength,优化选股组合策略。文本情绪因子表现稳定且能显著提升优选组合的信息比率,尤其在2022-2023年数值因子表现低迷时优势明显,改进后组合年化收益提升至27.7%,信息比率由1.44提升至2.41,行业轮动因子超额表现也得到改善,体现出了深度学习赋能在分析师行为alpha提取上的增量价值。[page::0][page::3][page::10][page::11][page::13]
速读内容
- 盈利预期调整因子FYRDISPstrength通过对分析师盈利预测调整值进行标准化和基于时间及股价跟随性加权,2012年至今表现优异,年化绝对收益为27.7%,相对中证500超额22.9%,但2022年和2023年表现相对疲软。


[page::1][page::2][page::3]
- 基于三大深度学习模型构建研报文本情绪变动因子:
1. KY-Bert基于金融新闻Bert微调,融合概率加权与股价跟随性加权,10分组多空对冲年化收益8.68%,收益波动比1.98,最大回撤2.70%。股价跟随性加权显著提升稳定性,多空信息比率从1.56提升至1.98。


2. KY-Llama3基于Llama3-Chinese-8bit模型,使用LoRA微调,10分组多空对冲年化收益8.85%,收益波动比2.02,最大回撤2.24%。

3. KY-CH采用金融情感词典结合jieba分词的计数方法,10分组多空对冲年化收益9.34%,收益波动比1.78,最大回撤3.61%,表现相对较弱。

4. 三大模型情感预测比例均保持较高的一致性(80%以上),KY-Bert与KY-Llama3相关性最高(67.89%),KY-Llama3-ASC表现最佳。合成因子KY-Combine-ASC将三模型等权合成,年化收益11.17%,收益波动比2.33,最大回撤1.85%,月度胜率70.83%,综合性能领先单模型。

[page::6][page::7][page::8][page::9][page::10]
- 文本情绪因子KY-Combine-ASC与数值因子FYRDISPstrength相关性低(约20.63%),说明两者捕捉的信息互补。结合文本因子调整选股逻辑后,组合整体稳定性显著增强,在2022-2023年表现尤为突出,信息比率由1.44跃升至2.41。


[page::10][page::11]
- 研报文本关键词筛选显示“业绩超预期”相关报告表现显著优于“业绩不及预期”,但关键词筛选方法存在主观和过拟合问题,后续研究将探索更合理结合情感与关键词的方法。

[page::12]
- 考虑研报文本情绪因子改进行业预期调整因子,可显著提升行业轮动多头超额信息比率,从0.51提升至1.22,体现文本因子在行业层面应用潜力。

[page::13]
- 风险提示:模型基于历史回测,未来市场环境可能变化,投资需审慎。[page::13]
深度阅读
深度学习赋能分析师行为 更稳的盈利预期调整组合 —— 开源证券金融工程报告详尽分析
---
1. 元数据与概览
报告标题:《深度学习赋能分析师行为 更稳的盈利预期调整组合》
作者与团队:魏建榕(金融工程首席分析师)、盛少成(高级分析师)及开源证券金融工程团队
发布日期:2024年8月9日
发布机构:开源证券
研究主题:基于深度学习技术对分析师盈利预期调整行为的量化分析,包括研报文本情绪的深度挖掘及其结合传统盈利预期调整因子的组合优化,提升投资组合的稳定性与收益表现。
核心论点总结:
报告通过构建基于时间和股价跟随性加权的盈利预期调整因子 $FYR\DISP{strength}$ ,形成了收益稳定、年化约27.7%的盈利预期调整优选组合;基于深度学习的三大文本情绪模型(KY-Bert、KY-Llama3、KY-CH)提取研报情绪信息,构建文本情绪变动因子KY-Combine-ASC,其补充传统数值因子的信息,提升了组合稳健性和因子表现;后续将文本因子与数值因子结合优化组合,信息比率显著提高,尤其稳定了2022-2023年数值因子表现波动大的问题,实现更稳健的盈利预期调整组合。
---
2. 逐节深度解读
2.1 盈利预期调整优选组合回顾
关键内容与逻辑:
- 利用分析师对盈利预期调整幅度的统计信息,构建多支股票的预期调整因子,区分不同分析师以及不同时点的调整权重。
- 标准化处理预期调整数据,避免股票间量级差异影响因子效果,三种标准化方法中以分析师跨股票截面标准差表现最佳。
- 引入时间和股价跟随性加权,针对投资策略的短期信息进行强化,使因子 $FYR\DISP{strength}$ 具备更优性能及更低波动。
关键数据点:
- 全区间回测(2009-2024)显示 $FYR\DISP{strength}$ 因子信息比率由1.9增至2.5,表明多空对冲组合的收益相对波动更优(图1)。
- 2020年6月后,单独时间段分析支持该加权方式仍有效,且2024年以来表现尤为突出(图2,表2)。
- 盈利预期调整优选组合年化收益27.7%,相对中证500超额22.9%,各年均正超额,尤其2022-2023年表现稍弱但持续正收益(图3,表4)。
逻辑推理及价值:
通过对分析师盈利预期时间序列和股价相关性的深度挖掘及加权,捕捉分析师对市场变化的动态反应,提升因子预测精度和稳健性,构建实证表现优异的因子及相应投资组合。
2.2 深度学习赋能的研报文本情感判断
关键内容:
- 传统依赖分析师盈利预期数值调整存在一定表达和信息遗漏,文本层面研报的情绪信息能补充并提供边际alpha。
- 采用三大文本情绪模型:
- KY-Bert: 基于Google Bert模型,结合金融新闻文本微调,支持上下文理解,预测准确率约88%。
- KY-Llama3: 采用LoRA微调的大型语言模型,扩展模型规模与表示能力。
- KY-CH(计数模型): 利用金融情感词典结合jieba分词进行情感词数量统计,模型简单但易受词汇偏差影响。
模型构建细节:
- 文本段落情绪判定优于全文或句子级别判定。删除风险提示类段落防止负面偏误。
- 情感概率(logit差)优于数字标签作为因子输入。
- 引入股价跟随性加权提升因子稳定性。
关键数据与比较:
- KY-Bert-ASC因子多空对冲信息比率1.98,KY-Llama3-ASC 2.02,KY-CH-ASC相对较弱1.78。
- 三模型情感判定正面比例不同,KY-CH偏多。三者因子相关性约60%,KY-Bert与KY-Llama3更高达67.89%。
- 采用三模型等权合成因子KY-Combine-ASC,多空对冲信息比率提升至2.33,年化收益11.17%,最大回撤降至1.85%,胜率70.83%(图14)。
逻辑价值:
大模型通过深度表征提高文本情感的理解准确度与因子有效性,集合三模型优势形成提升因子表现的合成因子,充分发挥研报文本的预测信息。
2.3 改进组合:结合研报文本因子
对比分析与改进逻辑:
- 数值预期调整因子 $FYR\DISP{strength}$ 与文本情绪变动因子KY-Combine-ASC相关性低(约20.63%),展示信息源差异性。
- 2022-2023年市场出现高景气到估值杀估值,数值因子持续上升但文本情绪因子涨幅受限,表现更稳健,减小组合波动。
- 结合文本因子筛选股票,优先选中文本因子得分前1/3的标的,再基于数值因子构建组合,提升组合信息比率从1.44提升到2.41,稳定性显著增加(图16,17)。
- 分年度来看,2021-2023年文本增强组合表现明显改善,尤其是数值因子失效的2023年得到提升。
价值解读:
融合文本情绪变化引入分析师“软”信息补充数值因子的不足,避免高景气假象导致的过度乐观,稳定组合收益波动和最大回撤。
2.4 其他拓展研究与讨论
关键词筛选:
- 以“业绩超预期”或“业绩不及预期”等关键词作为简单筛选因子,发现含“超预期”关键词组合表现明显优于含“业绩不及预期”,体现关键词作为补充信号的潜力(图18)。
- 但存在主观筛选、过拟合风险,某些关键词在市场环境变化后效果会衰退,如疫情期“估值大底”关键词频繁出现但预测能力降低。
行业预期调整因子改进:
- 将文本情绪因子纳入行业轮动的预期调整因子中,仅选取文本因子得分高的股票进行截面分位点加权,显著提升了行业轮动因子的多头信息比率从0.51增至1.22(图19,表6)。
---
3. 图表深度解读
图1(第1页):“FYRDISP”与“FYRDISPstrength”因子净值比较
- 展示2009年至2024年6月,原始数值预期调整因子与改进后的加权因子的10分组多空对冲净值变化。
- 可见红线(strength版本)长期稳步超越蓝线,尤其后期幅度明显更大且回撤更小,信息比率从1.9提升至2.5,印证加权提高了因子质量和稳定性。
图2(第2页):2020年6月以后两因子净值表现
- 聚焦近几年市场,加权因子依旧保持领先,且回撤控制更好,信息比率提升明显(1.24vs0.75),呈现出“后疫情”时代更适用性强。
图3(第3页):盈利预期调整优选组合净值表现
- 红线追踪优选组合净值明显高于蓝线(中证500),灰色区域为组合对冲净值,确认组合优异收益和风险控制。
图5(第5页):HW-Bert模型示意图
- 清晰展现模型内部多层自注意力机制,基础框架及训练细节,便于理解其文本表征技术。
图7-9(第7页):KY-Bert情感因子表现
- 多空对冲收益净值稳步上升(图7),加入股价跟随性加权后曲线平滑度提升(图8),KY-Bert优化版因子明显优于基础版(图9),验证模型训练及加权策略有效。
图10(第8页):LoRA微调原理简示
- 低秩矩阵分解减少大模型微调参数,技术上提升微调效率和性能,支撑KY-Llama3模型的构建。
图11-12(第8-9页):KY-Llama3、KY-CH因子表现
- 均展示多空对冲净值上升走势,Llama3表现最优,计数模型表现相对较弱,但仍然具有一定alpha。
图14(第10页):三模型情感因子及合成因子表现对比
- 合成因子曲线明显领先其他单一模型,统计数据表显示年化收益及信息比率提升明显,最大回撤降低,说明模型集成赋能。
图15(第11页):文本情绪KY-Combine-ASC与数值调整因子相关性曲线
- 显示了二因子10分组多空净值,文本因子曲线更平滑,相关性不足21%,表明两因子捕捉不同信息。
图16-17(第11页):改进组合净值和波动比对比
- 改进的组合(加入文本因子后)表现出更高净值和平稳波动,尤其在2022-2023年逆境期优势明显。
图18(第12页):关键词“超预期”与“低于预期”组合净值对比
- 关键词筛选体现一定的收益差异,回测结果验证简单关键词策略的有效性。
图19(第13页):考虑研报文本后行业预期调整因子表现
- 原始行业因子(蓝线)信息比率明显低于结合文本后的红线,后者近年持续向上,验证文本因素在行业轮动中的重要作用。
---
4. 估值分析
报告未涉及具体公司估值模型或目标价格设置,重点聚焦因子构建与投资组合优化。评估策略绩效基于历史数据回测及信息比率(IR)、收益波动比、最大回撤等风险调整指标,未采用传统DCF、P/E等单股估值法,体现量化因子研究的特点。
---
5. 风险因素评估
- 模型基于历史数据回测,未来市场结构变化可能导致表现失效,强调历史可验证性但预警未来市场风险。
- 关键词策略存在主观性和过拟合风险,市场环境变化可能使原有效关键词失去预测力。
- 文本情绪模型依赖的训练样本和词典可能存在偏差,且情绪表达的非线性与隐晦信息易被忽略。
- 分析师行为模型可能受到市场极端事件或政策变动影响,影响因子稳定性。
---
6. 批判性视角与细微差别
- 因子改进充分利用了文本信息,但文本情绪评分上限导致对于持续乐观的分析师情绪捕捉可能不够细致,尤其在高景气向下修正阶段表现更佳,但对快速结构性行情的适用性值得怀疑。
- 三大文本模型表现虽有一定差异,合成因子提升效果明显,但因三者相关性达60%+,提升空间有限,需要更多结构化和非结构化数据融合。
- 报告中未详细披露模型参数、样本筛选细节及调参过程,存在“黑箱”风险。
- 组合优化以信息比率为核心,稳定性依赖加权策略,可能对极端行情下的风险敞口管理仍需加强。
---
7. 结论性综合
本报告基于深度学习方法,创新性地将分析师研报文本情绪信息纳入盈利预期调整因子体系,形成数值预期调整因子 $FYR\DISP{strength}$ 与文本情绪变动因子KY-Combine-ASC的深度融合。通过文本模型的准确微调和有效加权,特别是三大模型(KY-Bert、KY-Llama3、KY-CH)的等权合成,显著提升了文本情绪因子的稳定性及投资效果。
文本情绪因子与传统数值因子的相关性仅20.63%,显示两者捕捉了分析师行为的不同维度。将文本情绪作为筛选过滤,结合数值因子优选标的,改进后的盈利预期调整优选组合全区间表现优异,年化超额收益显著提高,信息比率从1.44提升至2.41,尤其在2022-2023年市场不确定性增大时,果断增强组合稳健性,最大回撤显著降低。行业预期调整也因此得益,行业轮动因子信息比率翻倍。
报告通过大量历史数据回测验证了模型和方法的有效性,且图表清晰呈现了因子构建、微调技术细节及投资绩效。深度学习赋能分析师行为预测,成为提升量化投资alpha的重要途径。
综上,作者立场清晰,主张在数值盈利预期调整因子的基础上,结合深度学习文本情绪因子改进组合构建,是提升投资组合收益稳定性和风险控制能力的切实有效方法,推荐投资研究人员及从业者重点关注研报文本情绪信息的挖掘和应用。
---
参考图表展示
- 图1: FYR

- 图2: 2020年6月以来FYRDISPstrength多空净值表现

- 图3: 盈利预期调整优选组合净值表现

- 图5:HW-Bert模型结构图

- 图7:KY-Bert-ASC多空对冲收益曲线

- 图8:股价跟随性加权优于等权

- 图9:KY-Bert-ASC与HW-Bert-ASC因子对比

- 图10:LoRA微调示意

- 图14:三大模型情感因子及合成因子表现对比

- 图15:KY-Combine-ASC与FYRDISPstrength对比

- 图16:改进组合净值提升

- 图18:关键词策略净值对比

- 图19:考虑文本后的行业预期调整因子提升

---
溯源
以上分析内容基于报告全文,主要页码:[page::0],[page::1],[page::2],[page::3],[page::4],[page::5],[page::6],[page::7],[page::8],[page::9],[page::10],[page::11],[page::12],[page::13],[page::14]