利用文本和反转改进机构调研选股
创建于 更新于
摘要
本报告基于A股机构调研数据,构建调研数量因子、反转因子、分析师研报文本因子及一致预期因子,运用层次筛选法形成机构调研选股策略。调研数量和反转因子表现突出,文本问答因子效果不佳;策略相较中证500长期实现显著超额收益,年化收益率最高达29.03%,信息比率2.09,策略偏好中小市值及电子、计算机等行业,反映机构关注热点及选股增量信息[pidx::0][pidx::16]
速读内容
- 机构调研现状及特征[pidx::3][pidx::4][pidx::5]

- 2012年以来月度机构调研数量逐步上升,2020年后增长加速。
- 主要调研机构为证券公司、基金公司和投资公司,合计占比超过80%。
- 调研偏向中小市值股票,市值中位数约100亿元,接近中证1000水准。
- 行业偏向电子、计算机、医药等成长性行业,关注度显著高于周期和金融行业。
- 机构调研相关多因子测试及表现[pidx::7][pidx::8][pidx::9][pidx::10][pidx::11]
- 调研数量因子:过去90自然日调研次数越多的股票未来表现越好,分层检验多头组合超额收益显著,但2021年后效果有所回撤。

- 反转因子:过去60交易日收益率取反构建,剔除价格大幅上涨股票,负向剔除效果显著,提示选股应规避调研前涨幅大标的。

- 分析师研报文本因子:基于标题和摘要词频矩阵用XGBoost滚动训练和测试,分层表现良好,多头组合稳定超额收益。

- 一致预期EPS季度环比变化率因子:多头组合超额收益明显,反映分析师盈利预期调整的正向选股价值。

- 机构调研问答文本因子:多种文本技术测试无明显稳定选股能力,表现不佳。

- 机构调研选股策略构建与回测[pidx::12][pidx::13][pidx::14][pidx::15]
- 选股策略1:
- 负向剔除分析师研报文本因子与一致预期因子表现差股票,剔除反转因子表现差的股票。
- 通过调研数量因子选择前30支股票,权重按log(调研次数)分配。
- 年化收益29.03%,超中证500超额收益22.17%,信息比率2.09,表现稳定优异。


- 策略因子特征:偏高估值、高成长、高Beta,行业集中于电子、机械和医药等。


- 选股策略2:
- 反转因子负向筛选后,合成调研次数、研报文本因子和一致预期因子正向选取前30股票。
- 年化超额收益约19.44%,波动幅度较策略1小。


- 研究结论与风险提示[pidx::16]
- 机构调研信息蕴含有效的选股信号,调研次数和反转因子为主要驱动力。
- 分析师研报文本因子和一致预期因子能为选股提供增量信息,问答文本数据挖掘效果有限。
- 层次筛选法构建机构调研策略显著优于基准中证500。
- 该策略偏重中小市值股票,在极端大盘行情和高估值环境下可能表现不佳。
深度阅读
金融研究报告详尽分析:利用文本和反转改进机构调研选股 —— 华泰研究,2023年2月9日
---
1. 元数据与报告概览
- 报告标题:利用文本和反转改进机构调研选股
- 作者:林晓明、李子钰、何康(PhD)
- 发布机构:华泰证券股份有限公司
- 发布日期:2023年2月9日
- 研究对象:A股市场机构调研相关数据与选股策略
- 主题聚焦:通过对机构调研问答文本、分析师研报文本与反转因子的深入研究,探索如何利用机构调研数据构建有效的选股策略,旨在实现相对于中证500指数的长期超额收益。
- 核心论点:
- A股机构调研数量稳步增长,调研股票偏向中小市值且行业存在明显偏向。
- 调研数量因子和股票价格反转因子均表现出显著的选股能力,而利用调研问答文本构造的因子效果不佳。
- 分析师研报文本因子和一致预期因子在调研股票池内表现良好。
- 基于上述因子,采用层次筛选法构建的机构调研选股策略能实现持续、显著的超额收益。
- 选股策略评级与回测结果:
- 策略1年化收益率达到29.03%,年化超额收益率22.17%,信息比率2.09,收益弹性较优。
- 主要结论:
机构调研信息结合文本分析与反转因子,能有效提升基于机构行为的选股策略表现,但文本因子构建仍存在技术挑战。[pidx::0] [pidx::16]
---
2. 逐章深度解读
2.1 本文研究导读与数据介绍
报告首先明确指出机构调研的重要性,机构投资者的调研活动不仅反映其关注热点,也提供了市场之外的增量信息,强调研究的三个主要方向:
- 挖掘机构调研后卖方分析师研报文本及一致预期信息。
2. 在调研股票中探讨股价反转效应,即规避前期已经大幅上涨的股票。
- 利用调研问答文本提取正负面信息。
数据来源包括Wind数据库的机构调研事件、参与主体、问答详细信息及分析师相关数据。详见图表1和图表2,体现研究以丰富、结构化数据为基础。[pidx::2]
2.2 A股机构调研概况
调研数量趋势
- 月度调研次数自2012年起稳步上升,2020年后明显加速,显示机构调研活跃度增加。
- 采用合并和未合并多对一调研两种统计口径,均呈现增长趋势(图表3、4)。
调研机构类型
- 证券公司、基金公司、投资公司三类机构占全部调研活动的80%以上(图表5)。
- 证券公司调研份额从2020年开始下降,基金公司及外资机构调研活动增加。
- 机构调研涉猎多种活动类型,特定对象调研占比最高,长期在50%以上(图表6)。
被调研股票特征
- 股票市值中位数约为100亿元,接近中证1000级别,偏中小市值(图表7)。
- 行业关注偏向电子、计算机、医药、家电等成长性及消费类行业,反映投资者偏好和行业研究需求(图表8)。
- 不同行业调研强度差异显著,周期性行业和金融行业调研频率较低,因其投资逻辑透明,信息需求较少。[pidx::3] [pidx::4] [pidx::5] [pidx::6]
2.3 机构调研相关因子构建与测试
2.3.1 基础机构调研股票池构建
- 包括过去60个交易日内调研日期与公告日期不超过10天、全部机构类型和调研活动类型均纳入,处理多对一调研仅计一次。
- 股票池涵盖数量呈波动增长趋势,最高超1500只(图表9)。
- 该基础股票组合相较沪深300与中证500取得一定超额收益,但不稳定(图表10)。
2.3.2 调研数量因子
- 假设调研次数越多显示机构关注度越高,预期获得买入支持。
- 因子以过去90自然日调研次数计数。
- 多头组合(组合1)表现显著,年化超额收益可观,但近年回撤增大(图表11、12)。
- 单独使用该因子提升有限,需配合其他因子。
2.3.3 反转因子
- 基于调研股票池内,规避过去60交易日涨幅居前的股票(反转因子即相反数)。
- 测试显示反转效应明显,尤其高涨幅组表现最差,低涨幅组表现较好,适合进行负向筛选(图表13、14)。
2.3.4 分析师研报文本因子
- 利用研报标题和摘要词频矩阵,采用XGBoost模型滚动训练测试。
- 研报文本因子对调研股票具有较好的正向选股能力,多头组合超额收益显著(图表15、16、17)。
2.3.5 一致预期因子
- 以调研期间分析师一致预期EPS季度环比增长率作为因子。
- 多头组合呈现显著超额收益,IC值与信息比率均优(图表18、19)。
2.3.6 调研问答文本因子
- 尝试从调研问答文本中抽取正负面情绪,采用BERT模型及正则表达式匹配23条正负面关键词规则。
- 案例展示双星新材问答内容及正则得分(图表20)。
- 该因子整体分层表现不稳定,未呈现出明显选股能力,推测文本信息较为噪声大或模型提取效果有限(图表21、22)。[pidx::7] [pidx::8] [pidx::9] [pidx::10] [pidx::11]
2.4 机构调研选股策略构建与测试
选股策略1(负向剔除+正向筛选)
- 先用分析师文本因子和一致预期因子合成因子(ratio1参数)进行负向剔除;再用过去60日超额收益反转因子(ratio2参数)负向剔除拉高股票;最后按调研次数因子排序选前30只股票加权持仓。
- 参数遍历显示,随着ratio2减小(更严格剔除前期涨幅股票),年化超额收益率提高,最佳参数为ratio1=0.1,ratio2=0.6时,年化超额收益达22.17%,信息比率2.09,最大回撤约14.42%(图表23-25)。
- 多年历年表现稳定,策略净值显著优于中证500(图表26-28)。
- 风格因子暴露:高估值、高成长、高β,行业偏电子、机械、医药等(图表29-30)。
选股策略2(正向筛选)
- 先用反转因子负向剔除过去涨幅高股票,再将在剔除后股票中将调研次数、研报文本及一致预期EPS环比三个因子等权合成,选取前30股票等权配置。
- 参数遍历显示年化超额收益率约为16-19%,收益波动更小但整体收益略低于策略1,最大回撤约13.5%-16.9%(图表31-33)。
- 回测净值和超额收益图清晰体现优于中证500(图表34、35)。
总体看,策略1弹性更大,策略2稳定性稍强,均优于基准。[pidx::12] [pidx::13] [pidx::14] [pidx::15]
---
3. 图表深度解读
- 图表1~2:框架梳理与数据来源,清晰展现研究流程从数据描述到因子测试再到策略构建的逻辑链条。
- 图表3~4:机构调研月度频次稳步增长,尤其是2020后呈爆发式,反映机构调研活跃度提升。
- 图表5~6:机构调研机构类型和调研活动类型占比展现证券公司、基金、私募基金为主力,特定对象调研占多数,体现数据覆盖广泛。
- 图表7:调研股票市值中位数对比,明显偏中小市值,低于中证500市值水平。
- 图表8:各行业调研次数差异明显,电子、医药等成长行业调研需求旺盛,验证了文本中对行业偏好的观察。
- 图表9~10:基础调研股票池股票数量变化反映市场份额变动,基础组合表现优于沪深300与中证500,但波动较大。
- 图表11~12:调研数量因子分层收益逐层递增,表明因子有效性;但2021年起回撤加大,提示不应单因子使用。
- 图表13~14:反转因子有效性体现在高涨幅股票表现最差,支持在选股中过滤高涨股票的策略。
- 图表15~17:分析师研报文本因子经过机器学习模型训练后分层表现良好,蓝筹化选股能力突出。
- 图表18~19:一致预期EPS环比变化因子也能捕捉调研后的盈利预期变化,具有预测超额收益能力。
- 图表20~22:调研问答文本因子采用正则表达式得分示例和因子表现图表,略显杂乱分层无明显规律。
- 图表23~35:两套选股策略在不同参数组合下的表现详解,详细呈现年化收益、回撤、换手率、信息比率、行业风格暴露等指标,突显策略稳健且具高弹性和成长属性。
- 图表29~30策略风格因子和行业暴露,验证策略偏成长高β行业,符合机构关注的主流中小市值行业特征。
---
4. 估值分析
报告未明确详细估值方法,但策略分析中涉及Barra风格因子暴露:
- Barra USE4模型涉及市值(Size)、贝塔(Beta)、动量(Momentum)、波动率、账面市值比(Book to Price)、流动性(Liquidity)、盈利收益率(Earning Yield)、成长性(Growth)、杠杆率(Leverage)十个风格因子。
- 该模型用于理解选股策略的风格定位,策略偏向高估值、高成长、高Beta,行业暴露在电子、机械、医药等成长型行业。
- 报告未披露具体DCF、相对估值等传统估值操作,而侧重基于因子模型进行风险与收益分析。
综上可见,估值分析主要侧重于风格理解和风险因子暴露,而非传统贴现现金流估值。[pidx::17]
---
5. 风险因素评估
报告明确指出的风险如下:
- 历史数据依赖与模型失效风险:因子测试、机器学习及量化选股模型均基于历史数据,未来可能失效,尤其在市场结构或投资行为发生重大变化时。
- 股票市值偏小:机构调研股票整体偏中小市值,在极端大市值股票占优行情下,相关策略或表现不佳。
- 因子稳定性风险:如调研问答文本因子有效性不彰,提示信息抽取及模型应用带来的不确定性。
- 交易成本及流动性风险:高频调仓(2个月调仓周期)及换手率均较高,可能因流动性不足造成执行困难。
- 市场系统风险:如行业偏好变化、监管政策调整等外部因素可能对策略影响较大。
报告未详细提供对冲或缓解方案,但强调整体谨慎,提示用户应注意因子及模型的局限性,不宜盲目跟从。[pidx::0] [pidx::16]
---
6. 批判性视角与细微差别
- 文本因子构建难点:报告中提及机构调研问答文本因子未能构建良好因子,表明该领域存在信息噪声和提取模型局限。尽管尝试多种机器学习方法和正则表达式,但未获得理想结果,暗示该因子构建方法尚需深化。
- 因子效应的时间变异性:调研数量因子和一致预期因子均呈现2021年后部分回撤,提示因子时效性或受市场环境影响。
- 偏重中小市值的局限:策略系统偏中小市值股票,虽然符合机构调研特点,但在大盘股行情盛行时潜在表现受限,可能导致波动加剧。
- 多因子层次筛选策略设计合理,但部分参数选择依赖经验,未见严格统计显著性检验,需进一步验证策略的稳健性和优化空间。
- 文本处理方法偏传统,未来可引入更先进的自然语言处理手段以提升问答文本因子质量。
- 策略交易成本较高(换手率达100%以上),可能侵蚀一部分超额收益,报告稍显忽略实际执行层面影响。
---
7. 结论性综合
本文华泰证券研究团队通过系统化分析A股机构调研数据,利用机构调研问答文本、分析师研报与一致预期数据,结合价格反转效应,构建了多维度机构调研选股因子。
- 机构调研数量因子与反转因子均表现稳定有效,反转因子特别说明在股票池内剔除涨幅过大的股票显著提升策略表现。
- 分析师研报文本和一致预期因子有效挖掘机构调研后盈利信息变化,增强选股信号。
- 机构调研问答文本因子尝试了多种文本挖掘技术,未取得选股优势,凸显文本信号提炼技术目前仍面临较大挑战。
- 两套基于因子层次筛选的机构调研选股策略,均在2013年至2023年长周期内实现显著超额收益,相对基准中证500信息比率超过2,表现突出。
- 策略展现明显成长风格,偏中小市值,行业集中于电子、医药、机械等热点行业,风险与成长潜力并存。
- 风险提示涵盖模型历史依赖、策略对市值与风格偏好的限制以及潜在策略失效可能,提醒投资者需结合宏观环境与市场变动审慎应用。
整体而言,报告充分体现了机构调研数据在A股选股中的价值,利用文本及反转信息提升策略表现,方法论严密,实证充分,策略表现优异。但也指出文本因子及模型稳定性仍需进一步研究突破,策略亦需注意市场环境变化及实施成本。该研究为机构投资者洞察机构调研信息、构建科学有效的选股策略提供了重要参考和方法框架。[pidx::0] [pidx::16]
---
附:图表示例
- 机构调研选股策略1净值(图表27)

- 策略1超额收益(图表28)

- 机构调研股票市值中位数比较(图表7)

- 机构调研数量因子分层净值(图表11)

---
报告对机构调研数据的细致剖析,结合多因子实验和量化策略回测,体现了中国A股市场机构行为研究的前沿动向,对量化选股实践具有较高参考价值。