深度学习赋能分析师行为:更稳的盈利预期调整组合
创建于 更新于
摘要
本报告回顾了基于数值预期调整的盈利预期调整优选组合,并创新性引入深度学习模型(KY-Bert、KY-Llama3、KY-CH)对研报文本情感进行判定,构建文本情绪变动因子KY-Combine-ASC。通过结合文本情绪因子与数值预期调整因子,改进后的组合在稳定性和信息比率上均得到显著提升,实现年化收益率27.7%和对冲中证500年化超额22.9%。此外,引入研报文本情绪也显著优化了行业轮动预期调整因子的表现,信息比率由0.51提升至1.22 [page::0][page::3][page::14][page::16]。
速读内容
盈利预期调整因子及组合回顾 [page::3][page::5]
- 提出基于分析师预期调整幅度的标准化因子FYRDISP及基于时间和股价跟随性加权的改进因子FYRDISPstrength,后者多空信息比率从1.9提升至2.5,波动率和最大回撤明显减少。
- 2020年6月后加权方式依旧有效,FYRDISPstrength在2024年表现尤为突出。
- 构建的盈利预期调整优选组合自2012年以来均实现正超额收益,绝对年化收益27.7%,相对中证500年化超额22.9%。


深度学习模型构建研报文本情感因子 [page::7][page::9][page::11][page::13]
- 采用三大模型KY-Bert、KY-Llama3(基于Llama3-Chinese-8bit及LoRA微调)、KY-CH(基于金融情感词典计数法)对研报文本情绪进行判定。
- KY-Bert模型基于金融新闻中文文本微调,正确率约88%,采用去标题、段落级预测及概率加权的策略构建文本情感变动因子KY-Bert-ASC,年化收益8.68%、收益波动比1.98、最大回撤2.7%。
- KY-Llama3-ASC因子年化收益8.85%、最大回撤2.24%,表现略优于KY-Bert。
- KY-CH-ASC因子较简单,年化收益9.34%,但最大回撤最高达3.61%。
- 三模型因子合成的KY-Combine-ASC因子综合年化收益11.17%、收益波动比2.33、最大回撤降至1.85%,绩效明显优于单一模型因子。



盈利预期调整组合改进及稳定性提升 [page::13][page::14][page::15]
- 文本情绪因子KY-Combine-ASC与数值预期调整因子FYR
- 结合文本情绪优化选股逻辑,设置股票需同时满足FYRDISP_strength及KY-Combine-ASC前1/3分位,改进组合信息比率从1.44提升至2.41。
- 改进组合在2021-2023年表现优于原始组合,降低了波动与最大回撤。


关键词及行业轮动因子改进 [page::15][page::16]
- 通过关键词筛选发现含“业绩超预期”报告对应股票表现明显优于“业绩不及预期”。
- 考虑研报文本改进行业预期调整因子,使用文本因子过滤后行业轮动多头信息比率提升从0.51至1.22,显著增强了行业轮动策略效果。


深度阅读
深度学习赋能分析师行为:更稳的盈利预期调整组合 — 详尽分析报告
---
一、元数据与报告概览
- 报告标题:《深度学习赋能分析师行为:更稳的盈利预期调整组合》
- 作者及团队:金融工程研究团队,首席分析师魏建榕带领,多位分析师及研究员参与。
- 发布机构:开源证券研究所
- 发布日期:2024年8月8日
- 报告类型:开源量化评论(第99期)
- 主要研究内容:结合深度学习自然语言处理技术,利用研报文本情绪分析优化传统基于盈利预期调整的股票选股因子,从而构建更加稳定且业绩突出的投资组合。
- 核心结论:基于数值预期调整构建的选股组合表现优异,并通过结合基于深度学习的三大文本情绪判定模型(KY-Bert、KY-Llama3、KY-CH)改进收益稳定性和信息比率,最终合成文本情绪因子使得多空对冲年化收益达11.17%,信息比率提升至2.33,显著优于单一因子表现。改进后组合对冲中证500的信息比率从1.44提升至2.41,且大幅提高行业轮动因子的多头超额信息比率,表现稳定且抗回撤能力强。[page::0][page::1]
---
二、逐节深度解读
1. 盈利预期调整优选组合回顾
1.1 $FYR\DISP{strength}$ 因子定义及优化
- 定义与创新点:$FYR\DISP$因子表示分析师盈利预期的分歧,报告中对各类标准化方法进行了对比,最终确定以“该股票所有分析师盈利预测的截面标准差”作为分母标准化因子效果最佳。随后引入了“时间加权”和“股价跟随性加权”,合成了更优的$FYR\DISP{strength}$因子。
- 数据表现:表1呈现不同加权方式下指标表现,$FYR\DISP{strength}$因子RankICIR达到2.54,远超未加权的2.00,显示该因子更好的预测能力。其多空年化收益17.44%,信息比率2.53,最大回撤11.36%,月度胜率83.24%,均优于其他加权版本。
- 趋势图(图1):该因子自2009年至今净值稳步上升,且回撤明显低于原始$FYR\
- 2020年6月至后续表现:因子在该时间段内波动也有所增大,但仍保持改进后的波动与回撤更低。2022-2023年份表现略弱,2024年重新拉升,整体呈现相对稳定的强势走势。[page::3][page::4]
1.2 优选组合构建流程与绩效
- 构建流程(表3):以$FYR\DISP{strength}$为核心选股因子,配合多重风险剔除(评级、资金流、风险因子等)和因子正值过滤,最终选取30只股票组成组合。
- 绩效表现(图3+表4):组合自2012年起绝对收益年化27.7%,相对中证500年化超额22.9%。每年均录得正超额,除2022、2023年超额表现略削弱(分别7.58%、3.33%),2024年颇为亮眼。
- 风险控制:通过各类风险剔除措施,组合月度最大回撤控制在合理水平,多数年份月度胜率超70%,表现稳定性强。[page::5][page::6]
---
2. 深度学习赋能:研报文本情感判断
2.1 三大模型构建与文本情感因子
- 背景:分析师报告中的数值预期调整与文本研报情绪间常有偏差,尝试通过深度学习模型进行文本情绪判定作为alpha补充。
- 模型一 — KY-Bert
- 基于Google BERT,结合金融领域的HW-Bert基础进行微调,训练集包括2014-2019年间数库A股相关金融新闻。
- 使用三种文本输入策略,最终采用分段情绪预测综合方法(去除风险提示段)效果最佳。
- 情绪预测表现准确率约88%。
- 不考虑标题、使用概率输出、股价跟随性加权的情绪变动因子,名为KY-Bert-ASC,年化收益8.68%,收益波动比1.98,最大回撤2.7%,月度胜率68.75%(图7、8);股价跟随性权重大幅提升稳定性,IR提升显著(表5)。
- 与HW-Bert对比,微调后的KY-Bert-ASC因子表现优于HW-Bert(IR 1.98 vs 1.55)(图9)。[page::7][page::8][page::9][page::10][page::11]
- 模型二 — KY-Llama3
- 基于LLM Llama3-Chinese-8bit版本,采用LoRA技术进行低秩矩阵微调,训练数据与KY-Bert相同。
- 该因子(KY-Llama3-ASC)表现稍优于KY-Bert-ASC,年化收益8.85%,收益波动比2.02,最大回撤2.24%,月度胜率66.67%(图11)。
- LoRA模型微调流程解释简明,充分利用预训练大模型优势,适合高效微调。
- 模型三 — KY-CH
- 利用金融情绪词典和jieba分词技术进行简易情感词汇计数,该方法因受限上下文理解能力,表现略逊于两大深度模型。
- 年化收益9.34%,收益波动比1.78,最大回撤3.61%,月度胜率66.67%(图12)。
- 三模型综合分析
- 三模型情感预测比例均较高,KY-CH倾向给出更多正面评价,显示其较简单词汇法限制;
- 因子相关性大约60%,KY-Bert与KY-Llama3相关性最高(67.89%),性能也较优;
- 选择将三模型等权合成(KY-Combine-ASC),年化收益提升至11.17%,风险指标亦改善(图14),显示集成模型带来明显绩效提升。[page::11][page::12][page::13]
---
3. 研报文本情绪对选股因子改进的作用
3.1 文本情绪因子与数值预期调整因子的相关性及差异
- 相关性仅20.63%,表明两个因子强互补;
- 文本因子更侧重边际变化,能够捕捉细微的情绪异动,适应高景气赛道中数值因子持续上调但实际情绪饱和的场景,减少估值杀跌风险;
- 图15显示KY-Combine-ASC信息比率高达2.33,而$FYR\DISP{strength}$为1.24,组合稳定性显著提升。[page::13][page::14]
3.2 文本情绪因子引入后对组合稳定性提升
- 从2020-2024年分段表现看,加入研报文本后组合,尤其在2022-2023年市场波动大时,更能维稳(图16)。
- 改进组合对冲中证500信息比率由1.44升至2.41,月度胜率较大幅提升(表17)。
- 但在2020年和2024年原组合表现更佳,可能与市场环境及极端行情因素有关。[page::14][page::15]
---
4. 其他重要讨论
4.1 关键词筛选法对文本研报的辅助作用
- 研报中“业绩超预期”“业绩不及预期”等关键词对股价走势具有显著影响,含“超预期”关键词股票净值明显优于“低于预期”类股票(图18)。
- 关键词法简单易用但存在主观筛选风险和容易过拟合的缺点,面对新周期及市场冲击,关键词的有效性可能大幅波动。
- 后续研究拟探索结合关键词与情绪评分的综合模型以提升文本研究稳定性。[page::15]
4.2 行业轮动因子的文本情绪改进
- 原本行业预期调整因子基于数值预测分位聚合,存在波动大、回撤风险较高问题。
- 结合文本情绪指标,仅聚焦KY-Combine-ASC排名前1/3的股票组,重新聚合行业分位,显著提升行业多头等权组超额收益信息比率由0.51提升至1.22(图19,表6)。
- 表明文本因子同样可有效提高行业轮动策略的稳定性与收益表现。[page::16]
---
5. 风险提示与声明
- 报告模型基于历史数据及其假设,未来市场若发生重大结构变化,模型有效性及表现可能受影响。
- 相关投资建议及评级具有时效性,用户需结合自身风险承受能力合理决策。
- 报告存在适用客户限定与版权保护声明,使用时应遵守相关法规与规定。[page::0][page::16][page::17][page::18]
---
三、重要图表详析
- 图1及图2:对$FYR\DISP$与$FYR\DISP{strength}$因子的净值曲线对比,改进因子呈现更高信息比率和更低波动回撤,显著优于基础因子。2020年后的数据验证了因子稳定性。
- 表1和表2:多个标准化及加权版本阶段回测数据对比,$FYR\DISP{strength}$因子在精细化加权后相关指标均优化,真实体现模型优化成效。
- 图3与表4:盈利预期调整优选组合全时期及分年份回测,体现长期、跨周期策略表现稳健,虽2022、2023年表现回落,仍维持正超额。
- 图7、图8:KY-Bert-ASC因子多空对冲净值与收益波动比示意,股价跟随性加权提升了因子稳定性,使其IR达1.98。
- 图9:同一Bert技术变体间对比,市场适配调优对文本情绪因子绩效产生明显正向影响。
- 图11、图12:KY-Llama3及KY-CH因子多空对冲净值表现,展示不同建模手段对文本情绪预测的多样化表现。
- 图13和表格:三大独立文本情绪模型的相关性及因子效果对比,反映模型间既有共性也体现互补价值。
- 图14:三模型等权合成因子效果一览,综合因子带来了收益、波动率及最大回撤的全面提升。
- 图15:KY-Combine-ASC与$FYR\
- 图16和图17:改进组合的净值增厚及风险调整后收益指标均优于原组合,印证文本情绪因子介入优化选股策略的重要作用。
- 图18:关键词“业绩超预期”与“业绩不及预期”对应的净值表现对比,直观反映研报特殊词汇对股价走势影响。
- 图19和表6:行业轮动因子结合文本情绪的表现,显示多头超额及信息比率均获得大幅提升。
---
四、估值分析
本报告重点聚焦因子构建与组合绩效分析,未直接涉及传统估值模型(DCF、P/E、EV/EBITDA等)或证券具体目标价的设定,研究重点为Alpha因子融合与组合优化,属于量化因子研究报告范畴。
---
五、风险因素评估
- 模型历史数据依赖:模型基于历史数据回测得出,无法保证未来在市场结构、政策环境、宏观经济转向等情况下持续有效;
- 文本情绪分析局限:
- 微调模型对非文本或突发事件反应可能滞后;
- 模型对情绪极端表达的判定依赖训练数据,存在理解偏差风险;
- 市场环境变化:
- 2022-2023年的市场波动对组合收益产生一定挑战,影响了特别是数值预期调整因子的绩效表现;
- 关键词在特殊环境下效果波动加大,可能带来策略表现不一致;
- 技术实现风险:自然语言处理模型本身存在泛化能力、数据偏差和样本不均衡问题,对因子稳定性和准确性构成隐患。
- 报告未特别披露缓解措施,用户需结合自身风险偏好和风控体系使用因子结果。[page::0][page::16]
---
六、批判性视角与细微差别
- 潜在偏见和假设敏感:
- 文本情绪模型微调虽基于大样本新闻数据,仍难全面捕捉分析师文本细粒度情绪,存在理解偏差风险;
- KY-CH模型作为简单计数方法偏向正面,显示单一技术方案局限。
- 数据时间跨度局限:
- 文本情绪模型训练和月度统计时间点主要为2020至2024年,较短历史区间可能导致波动性对模型影响偏大。
- 模型融合方法:
- 合成因子采用等权,未体现不同模型在不同阶段表现权重调整,可能降低理论上的最优组合效应。
- 逻辑层面:
- 研报文本情绪与数值预期调整低相关性提示二者捕捉不同信号,如何更科学结合仍待挖掘;
- 关键词研究虽有实证支持,但却带主观性强、过拟合风险,后续需要更严谨验证体系。
- 矛盾细节:
- 2020与2024年原组合表现优于改进组合,意味着文本因子并非全时段均优,需注意适用环境的漂移。
- 总体来看,研究在结合文本深度学习模型提升选股因子性能方面具有创新和实用价值,但仍需结合更丰富数据和动态权重优化等方法完善。[page::15][page::17]
---
七、结论性综合
本报告创新地将深度学习技术应用于金融分析师行为的alpha挖掘,成功构建了基于数值盈利预期调整的$FYR\DISP{strength}$因子,并进一步利用三大文本情绪判定模型(KY-Bert、KY-Llama3、KY-CH)提取研报中分析师情绪变化信号,最终通过等权合成提升组合表现和稳定性。关键发现包括:
- 数值预期调整因子$FYR\
- 文本情绪因子独立于数值因子,信息捕捉差异性大,两者组合后信息比率由1.24大幅提升至2.33,显著增强Alpha信号的稳定性;
- 合成文本因子月度胜率达70.83%,最大回撤降至1.85%,超越任何单一模型,充分体现模型集成效用;
- 组合优化方案中,引入文本筛选(排除情绪较弱股票)改进了选股的稳定性和收益表现,特别在2022-2023年市场波动较大时体现优势;
- 关键词研究验证“业绩超预期”类表述对应更优股价表现,尽管主观性和过拟合风险存在,但为情绪文本研究提供辅助验证手段;
- 行业轮动策略因引入文本情绪筛选,再次带来多头超额信息比率由0.51提升至1.22,说明研报文本情绪因子具备行业层面增益;
- 研究采用的BERT与Llama3深度学习及LoRA微调方法有效针对金融文本优化情绪判定,技术上具备前瞻性与可复制性。
图表清晰展示了各因子回测净值曲线、收益波动比、信息比率及最大回撤等,论证严密全面,为量化选股和情绪投资提供落地路径和经验借鉴。报告合理披露了风险因素和假设限定,态度严谨。
总体而言,本报告立场积极,推荐结合研报文本情绪因子的盈利预期调整策略优化投资组合,借助先进的自然语言处理技术提升分析师行为Alpha的稳定性和业绩表现,为国内资本市场投资策略研究提供了有力参考和创新范式。未来进一步结合模型动态权重调整、多源文本分析和跨市场样本验证等,研究空间广阔。
---
参考图表示例
- 图1:[FYR

- 图3:[盈利预期调整优选组合净值表现]

- 图7:[KY-Bert-ASC收益波动比]

- 图14:[三大模型因子合成表现]

- 图15:[KY-Combine-ASC与FYR_DISPstrength净值对比]

- 图18:[关键词“业绩超预期”对比净值]

- 图19:[改进行业预期调整因子信息比率提升]

---
以上为《深度学习赋能分析师行为:更稳的盈利预期调整组合》报告的全方位、细致的综合分析解读,涵盖了报告的逻辑结构、核心数据支撑、技术模型构造、关键图表解析、风险评估及未来研究价值,客观呈现了报告的研究深度和实用价值。
[page::0][page::1][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18]