`

华泰金工 | 利用文本和反转改进机构调研选股

创建于 更新于

摘要

本文基于机构调研数据,构建并测试多种因子,包括调研数量因子、反转因子、分析师研报文本因子及一致预期因子。通过层次筛选法构建两种选股策略,实现相对中证500长期显著超额收益。调研数量和反转因子表现较好,研报文本因子和一致预期因子为机构调研选股提供增量信息,而调研问答文本因子效果欠佳。策略体现了高估值、高成长和高Beta特征,优选行业包括电子、计算机和医药等中小市值股票 [page::0][page::1][page::2][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15]

速读内容

  • 机构调研活动的数量自2012年以来稳步上升,2020年后加速增长,显示机构调研日趋频繁。证券公司、基金公司及投资公司为主要调研力量,占比超过80% [page::3][page::4].


  • 机构调研股票市值多集中于中小市值,市值中位数接近中证1000,且存在明显行业偏向,电子、计算机和医药行业受关注度最高 [page::4][page::5][page::6].


  • 机构调研股票池数量稳定增长,基础机构调研股票池组合相对沪深300和中证500有一定超额收益,但表现不稳定 [page::6][page::7].


  • 机构调研数量因子测试结果显示,调研次数越多的股票具有显著正向超额收益,但近年来收益有所回撤,单独使用提升有限 [page::7].

  • 基础机构调研股票池内反转因子表现显著,低位股票表现优于前期涨幅过大的股票,适合用作负向剔除因子 [page::8].

  • 分析师研报文本因子通过基于研报标题和摘要的词频特征,利用XGBoost模型滚动训练测试,表现出稳健的选股能力,多头组合有显著的超额收益 [page::8][page::9].

  • 一致预期EPS季度环比变化率因子测试显示,多头组合具有显著超额收益,但近年有一定回撤,反映分析师对盈利预期变动的有效性 [page::9][page::10].

  • 机构调研问答文本因子利用正则表达式法提取正负面信息,及多种文本学习模型,但因子表现未达预期,选股效果不佳 [page::10][page::11].

  • 基于因子测试结果,设计两种层次筛选选股策略:

- 选股策略1:先用分析师类因子和反转因子做负向剔除,再以调研数量因子选股。此策略年化收益率高达29.03%,超额收益22.17%,信息比率2.09,表现优于策略2且弹性更强 [page::11][page::12][page::13][page::15].


- 选股策略2:先用反转因子负向剔除,再将调研数量因子、研报文本因子和一致预期因子等权合成正向选股。年化超额收益带波动较小,但整体低于策略1 [page::13][page::14][page::15].

  • 策略特征分析表明:策略倾向于持有高估值、高成长、高Beta的股票,行业集中在电子、机械、医药和计算机等成长性较好的板块 [page::13].


  • 风险提示:因子和模型基于历史数据,存在失效风险;机构调研股票多为中小市值,极端大市值行情中策略表现可能受限 [page::1][page::15].

深度阅读

华泰金工 | 利用文本和反转改进机构调研选股——深度分析报告



---

一、元数据与概览


  • 报告标题:《利用文本和反转改进机构调研选股》

- 作者:林晓明,李子钰
  • 发布机构:华泰证券金融工程团队

- 发布时间:2023年2月13日
  • 研究主题:A股机构调研活动及相关文本数据对选股策略的影响,探索基于机构调研文本的因子构建及其选股表现,构建以机构调研数据为核心的量化选股策略。

- 核心论点
- 机构调研信息作为市场增量信息源,能够反映机构投资者的关注热点。
- 机构调研次数(调研数量因子)和股价反转(反转因子)因素均具有显著的选股能力。
- 分析师研报文本因子及一致预期因子也显示出较好的选股表现。
- 机构调研问答文本因子效果不佳,难以提炼有效的正负面投资信号。
- 通过层次筛选法结合多因子,构建的机构调研选股策略在相对中证500上展现出长期显著超额收益,年化超额收益率最高可达约22%。
  • 目标:探索如何从机构调研及相关文本数据中挖掘信号,提高量化选股效率,并构建可实际应用的机构调研量化选股策略。


---

二、逐节深度解读



1. 研究导读


  • 关键观点

- 随着A股市场成熟,机构投资者行为影响增强,机构调研活动频繁且系统性增强。
- 机构调研信息涵盖机构与上市公司间信息交流,反映机构投资兴趣,是投资者增量信息的重要来源。
- 三大研究方向:
1. 利用调研后卖方分析师研报文本和一致预期辅助选股。
2. 利用股价反转逻辑,对调研股票中前期价格涨幅过大者绕开。
3. 利用机构调研问答文本提取正负面信息。
  • 数据来源

- 机构调研活动数据(AshareISActivity等表)
- 机构调研参与主体数据(AshareISParticipant等表)
- 机构调研问答明细(AshareISQA)
- 分析师一致预期数据与研报文本
  • 方法论框架:(见图表1)涵盖了数据描述分析、因子构建测试及策略构建三大模块。


2. A股机构调研概况


  • 调研数量趋势

- 自2012年以来,A股机构调研活动呈持续上升趋势,2020年后显著加速,显示机构日益关注市场调研活动。(图表3和4)
- 多对一调研普遍存在,多个机构同时调研一家上市公司。
  • 参与机构类型

- 证券公司、基金公司、投资公司占调研次数80%以上,且近年证券公司的比例有所下降,基金公司份额有所上升。(图表5)
  • 调研活动类型

- 以“特定对象调研”占比最高(50%以上,2018年前高达70%),该类型调研必须备案但非公开;其他类型包括一对一沟通、业绩说明会、分析师会议、媒体采访等。(图表6)
  • 被调研股票市值

- 调研股票偏中小市值,市值中位数接近中证1000(约100亿元市值),远低于中证500的市值中位数,说明机构偏好中小盘股调研。(图表7)
  • 行业偏好

- 电子、计算机、医药、家电等成长性行业受关注度高,调研频次年平均均超过30次,2021年起多行业调研频次进一步加大。(图表8)
- 传统周期行业如煤炭、金融较少被调研,因其投资逻辑和盈利较为透明,需求较低。

3. 机构调研相关因子构建和测试


  • 基础机构调研股票池构造

- 筛选调研公告和日期相近(10个自然日内)、未剔除任何机构或调研类型数据、合并多对一调研,仅剔除ST股及停牌股。
- 每月第一个交易日回溯60个交易日调研事件确定池内股票。
- 股票池数量从约500至1500只波动。(图表9)
  • 基础机构调研池表现

- 等权配置基础调研股票池,整体相较沪深300和中证500表现有一定超额收益,但不稳定。(图表10)
  • 机构调研数量因子

- 逻辑:调研次数越多,机构关注越集中,预期股票获得买入力度越强。
- 分层测试结果显示,多头组合(调研次数最高组)显著跑赢基准,但2021年后出现回撤。(图表11、12)
- IC均值为0.79,表明因子具有一定预测能力。
  • 机构调研股票池内反转因子

- 逻辑:调研多是因股价已涨引发关注,前期涨幅大的股票短期续涨可能性下降,存在反转需求。
- 反转因子计算过去60日收益率取反,多头组合(近期跌幅大者)表现相对优异,负向剔除前期涨幅大股有积极效果。(图表13、14)
- IC均值为0.47,表现优良。
  • 分析师研报文本因子

- 利用XGBoost模型对研报标题和摘要构建词频矩阵,通过近似标签(相对超额收益)监督学习训练筛选股票。使用年度滚动训练和测试。(图表15)
- 因子表现良好,多头组合长期有较显著超额收益。(图表16、17)
- IC均值2.28%表现稳健。
  • 一致预期EPS季度环比变化率因子

- 分析师调研后盈利预期的变化反映机构对基本面修正的反应。
- 多头组合收益良好,存在一定回撤风险,IC均值0.33。表现积极。(图表18、19)
  • 机构调研问答文本因子

- 试图提取调研问答中的正负面情绪,利用BERT、文本PEAD、正则表达式法等多种文本处理方法。
- 以正则表达式为例,选择23条表达正负面情绪的关键词组合对问答文本打分,如盈利“增长”得正分,盈利“下滑”得负分。
- 典型调研问答文本示例展示了具体问题和回答内容,并标注正则表达式得分。(图表20)
- 分层回测结果未能显示出有效的选股能力,因子表现不单调,缺乏预测价值。(图表21、22)

4. 机构调研选股策略构建和测试


  • 设计思路

- 策略基于多因子层次筛选,规避传统全市场择时及选股空间不足。
- 两种主要选股策略:
- 选股策略1:先使用分析师研报文本因子和一致预期EPS变化率因子(分析师类因子)与反转因子做负向剔除,之后基于调研数量因子选股。
- 选股策略2:先用反转因子负向剔除,之后用调研次数因子和分析师类因子正向选股。
  • 选股策略1参数设定及回测

- 参数ratio1(分析师类因子剔除比例)、ratio2(反转因子剔除比例)。
- 年化超额收益率随ratio2减小呈提升趋势,加入分析师类因子剔除 (ratio1=0.1) 可优化策略收益。
- 回撤情况无明显规律,信息比率可达2以上,表现出高收益高稳定性。(图表23、24)
- 最优参数配置(ratio1=0.1,ratio2=0.6):
- 年化收益率29.03%,年化超额收益22.17%,夏普比率1.0,信息比率2.09。
- 带来极佳的风险调整后报酬,月均换手率约为110%。
- 策略年度收益波动较大,2015年及2020年突出表现,2021年起回撤有所收敛。(图表25、26)
- 策略风格解读(Barra风格因子):
- 高估值(负向Book-to-Price)、高成长、高Beta,高成长性行业配置比例较大,排名前10行业包括电子、机械、医药、计算机等。(图表29、30)
  • 选股策略2参数设定及回测

- 参数ratio表示反转因子剔除比例。
- 年化超额收益率在16%-19%波动,整体低于策略1,收益弹性较小,回撤控制相对较好。(图表31)
- 最优参数配置(ratio=0.6):
- 年化收益率26.16%,年化超额收益19.44%,夏普比率约0.9。
- 月均换手率较高,策略稳定性较选股策略1略逊。
- 年度收益同样在2015年和2020年表现非常突出。(图表32、33)
- 策略净值及超额收益表现稳健。(图表34、35)

5. 总结及风险提示


  • 总结

- 机构调研信息含丰富增量信息,尤其是调研数量和股价反转因子表现优异。
- 机构调研问答文本因子实证效果不佳,难以有效提取投资信号。
- 通过分析师研报文本和一致预期因子辅助挖掘机构调研价值,进一步提升选股效率。
- 层次筛选策略结合多因子构建出稳定的机构调研选股方案,长期超越中证500基准,展现较好风险调整收益。
- 策略主要偏好中小市值及高成长行业,具有高估值荷载和Beta属性。
  • 风险提示

- 因子测试与模型均基于历史数据,未来存在失效风险。
- 中小市值股票占比重,高市值股票主导行情时策略表现可能受限。
- 机器学习模型的稳定性和文本因子构建效果受限,需持续监测。

---

三、图表深度解读



下面选取部分关键图表进行详细解析。

图表3-4:机构调研数量趋势


  • 描述:图3展示不合并多对一家上市公司的月调研次数,图4展示合并情况。

- 解读:不合并统计显示2020年后频次陡增最高接近8万次/月,合并后仍呈增长趋势,反映机构参与调研热情大幅上升。
  • 价值:证明机构调研已成为市场重要信息源,数量和活跃度的增加为后续因子构建提供了数据基础。[page::3]


图表5-6:机构调研机构类型与活动类型构成


  • 描述

- 图5显示各机构类型调研次数占比,证券公司、基金公司、投资公司合计超过80%。
- 图6显示调研活动类型分布,特定对象调研占比较大。
  • 解读

- 机构类型构成揭示市场主力调研主体变化趋势,基金公司调研占比提升反映其市场影响力增强。
- 活动类型多样侧面展现调研渠道丰富,数据覆盖全面。
  • 价值:支持因子构建不需过度限制机构和调研类型,提高数据代表性和广泛性。[page::4]


图表7:调研股票市值中位数


  • 描述

- 调研股票市值中位数约100亿元,接近中证1000的水平,远低于中证500中位数。
  • 解读

- 机构调研聚焦中小盘股,未过度集中于大盘股。
  • 价值

- 该属性影响策略构建和风险敞口,强调策略会在中小市值股票环境中表现更优。[page::5]

图表11-12:机构调研数量因子分层测试


  • 描述

- 因子多头(调研次数最多)组合净值远超其他档次。
- IC均值接近0.8,胜率高达76%,说明因子有效。
  • 解读

- 调研次数高的股票往往未来表现更优,因子模型稳定。
  • 价值

- 为选股提供重要信号但2021年起回撤风险增加,提示需要其他因子辅助稳健性提升。[page::7]

图表13-14:机构调研股票池内反转因子


  • 描述

- 反转因子多头(过去60日跌幅最大)组合净值明显优于大盘。
- IC值0.47,表现显著。
  • 解读

- 显著的短期反转效应,强调低位调研标的优于高位标的。
  • 价值

- 反转因子适用作负向剔除,避免买入炒作过热标的,以提升策略质量。[page::8]

图表16-17:分析师研报文本因子


  • 描述

- 经模型处理过滤,因子分层明显,多头组合净值领先。
- IC均值2.28%,说明研报文本确实蕴含有助于选股的信息。
  • 解读

- 分析师视角与市场预期信息对选股价值明显。
  • 价值

- 研报文本信息为机构调研选股策略增添了高价值的非结构化数据支持。[page::9]

图表18-19:一致预期EPS季度环比变化率


  • 描述

- 多头组合(预期提升)长期优于大盘且超额收益显著。
- IC均值0.33,胜率约60%。
  • 解读

- 预期VAR是市场捕捉自然价值变动的重要因子。
  • 价值

- 一致预期因子与文本因子协同作用,增加模型预测能力。[page::10]

图表21-22:机构调研问答文本因子


  • 描述

- 分层曲线起伏无明显规律,多头组合未显著优于其他组合。
- IC均值小,甚至为负数,胜率不足50%。
  • 解读

- 该因子提取的情绪信息噪音大,未有效捕捉预期价格波动。
  • 价值

- 反映当前正则表达式及基于简单模型情绪分析手法对调研问答文本效果有限,未来需更先进NLP技术支持。[page::11]

图表23-30:选股策略1回测


  • 描述

- 年化超额收益在13%~22%之间浮动,最优参数为ratio1=0.1和ratio2=0.6。
- 最大回撤稳定,信息比率达2.09,表现优异。
- 年度收益波动表明策略在不同市场条件下适应性强,尤其2015、2020表现亮眼。
- Barra风格因子暴露显示偏向高成长、高估值、高Beta,行业配置集中于电子、机械、医药等成长行业。
  • 解读

- 层次筛选结合调研数量、反转及分析师文本的策略有效整合了多个选股信号。
- 策略业绩优异且风险控制合理。
  • 价值

- 提供量化选股实操模板,指导投资实践。[page::12-13]

图表31-35:选股策略2回测


  • 描述

- 年化超额收益16%-19%,相较策略1下降约3%-6个百分点,稳定性稍高。
- 最大回撤维持低水平,信息比率1.7左右。
- 对应年度收益表现稳定,换手率较策略1略高。
  • 解读

- 作为右侧选股策略,对高因子得分股票进行直接买入,收益弹性较小。
  • 价值

- 补充策略1,提供不同风险偏好投资者参考。[page::13-14]

---

四、估值分析



报告中未显式涉及经典的估值模型分析(如DCF、P/E倍数法等),但通过Barra风格因子分析,策略偏好高估值股票(负Book-to-Price暴露),意味着策略倾向于成长属性较强的个股,这可能隐含对成长股估值溢价的认可。估值风险成了策略潜在风险之一。

---

五、风险因素评估


  • 因子失效风险

- 历史因子和机器学习模型基于以往市场规律总结,未来可能因市场环境变化失效。
  • 市场风格风险

- 策略偏中小市值及成长风格,在大市值、价值股占优行情时可能表现不佳。
  • 数据与技术风险

- 文本因子尤其调研问答文本提取存在模型局限,当前技术未必足以捕捉全部有效信号。
  • 操作性风险

- 换手率较高可能导致交易成本增加,影响实盘收益。
  • 缓解措施

- 多因子结合,降低单一因子失效风险。
- 长期跟踪更新模型及参数,适时调整策略结构。

---

六、批判性视角与细微差别


  • 潜在偏见

- 过分依赖机构调研数据,忽略调研有效性与真实信息含量差异。
- 研报文本因子和一致预期因子虽表现佳,但因果关系复杂,可能受市场情绪、研报质量波动影响。
  • 问答文本因子表现不佳,可能因文本结构复杂、调研问答内容相对机械或标准化,难以机器解读。

- 股价反转因子的应用体现了对市场短期异象的认同,但过度关注反转可能忽视趋势股长期投资价值。
  • 策略高估值属性信息提示策略将面临价值股行情低迷的风险。


---

七、结论性综合



本报告系统性地分析了A股机构调研数据的特性、相关文本以及衍生因子对量化选股的作用。通过对调研数量、股价反转、分析师研报文本、一致预期及调研问答文本等多个因子的深入测试,得出以下关键结论:
  • A股机构调研活动日益活跃,主要由证券公司、基金和投资公司主导,调研对象倾向于中小市值和电子、计算机、医药等成长型行业。

- 调研数量因子具有稳定、显著的超额收益能力,但单用风险较大。
  • 股价反转因子在机构调研股票池内有效,特别适合作为负向剔除工具。

- 分析师研报文本因子与一致预期EPS变化率因子均展示良好预测价值,能够有效辅助提升选股策略质量。
  • 机构调研问答文本因子当前未带来显著选股优势,表明对非结构化问答文本的解析仍面临挑战。

- 基于上述因子使用层次筛选法构建的机构调研选股策略实现了相对中证500的长期显著超额收益,年化超额收益率可达22%以上,风险调整效率高。
  • 策略倾向于成长风格,偏好中小市值股票,需警惕市场风格切换风险。

- 策略的实盘应用需注意换手率和可能的模型失效风险,持续跟踪改进模型与参数。

图表27-30和34-35清晰地展示了策略净值的显著跑赢基准,并通过Barra因子检测策略的风格属性,有助于投资者理解风险结构和行业暴露。

综上,报告为机构调研数据与文本在量化选股中的应用提供了系统且成熟的解决方案,证明了机构调研相关因子特别是调研数量和分析师文本因子的实用性,尽管部分文本因子仍需进一步技术突破以提高有效性。报告的研究成果对量化投资者理解并利用机构调研数据极具参考价值。

---

参考文献与附录


  • Barra风格因子介绍:(附录)包括Size、Beta、Momentum、Residual Volatility、Book-to-Price、Liquidity、Earning Yield、Growth、Leverage等十个子因子,构成多维度风险剖面,战略风格解读依据。


---

结语



本报告以详实数据分析和稳健的实验设计,揭示了机构调研活动中信息的选股潜力及其量化利用路径。既丰富了学术研究,也具有重要的实盘指导意义,特别是对中小市值成长股的机构调研背景下的量化选股策略构建,提供了创新方法和模型框架。

---

溯源



本分析基于报告第0-15页内容的综合解读,引用具体页码详见每处引用后标注。[page::0-15]

---

(注:报告中所有图表均按照原文标注图片链接,具体数值及趋势描述均基于文本和图表内容准确还原。)

报告