猎金系列之三十三:网络关注度因子真的有选股 Alpha 吗
创建于 更新于
摘要
本报告基于百度搜索引擎的搜索指数数据,构建周度和月度的网络关注度因子,并检验其在A股市场的选股有效性和特异性。实证结果显示,关注度因子IC均显著正向,且多空组合年化收益率及夏普比率表现优异,特别是行业市值中性化处理后周度关注度因子多空收益率达44.8%,夏普比率3.95,表明关注度因子具备稳定的Alpha选股能力。但进一步分析发现因子与流动性等因子存在一定相关性,导致其特异性有所减弱。报告详细阐述了关注度因子的构建逻辑、数据覆盖度以及在宽基指数下的表现差异,为基于互联网另类数据的因子研究提供了实证支持。[page::0][page::8][page::9][page::13][page::14][page::15]
速读内容
网络关注度因子构建逻辑及数据来源 [page::2][page::5][page::8]
- 以百度搜索指数为基础,使用股票代码(数字部分)搜索频次构建个股关注度因子,分别构造周度和月度关注度。
- 该数据覆盖A股约3922只个股,截至2021年9月覆盖率达73%,保证了因子的样本代表性。
- 关注度反映市场情绪波动与非理性行为,预期与后期股价收益存在负相关性。
关注度因子有效性检验及回测结果 [page::8][page::9][page::10]
| 因子 | 周度关注度 | 月度关注度 |
| ------------- | --------------- | --------------- |
| IC均值 | 6.51% | 8.57% |
| T值 | 12.14 | 6.61 |
| 多空组合年化收益 | 42.9% | 27.7% |
| 夏普比率 | 2.51 | 1.32 |
- 关注度因子在多种频度下均表现出显著的选股能力,分位数组合收益严格单调。
- 行业市值中性化处理提高因子稳健性,周度多空组合夏普比率提升至3.95,年化收益44.8%,最大回撤13.3%。
- 回测净值曲线持续向上,表现稳定,月度因子表现次之但同样有效。


关注度因子在宽基指数范围内表现与覆盖率分析 [page::11][page::12][page::13]
- 在沪深300与中证500成分股内表现有所削弱,年化多空超额收益分别约11%~28%,显著低于全市场表现。
- 因为宽基指数成分股规模较大,关注度天然较高,信息传播更快,因子Alpha效应相对减弱。
- 数据显示沪深300和中证500的平均关注度水平始终高于全市场其他股票。
关注度因子的特异性及相关性分析 [page::14][page::15]
- 关注度因子与Barra十大风格因子相关性低,独立贡献收益解释力;流动性因子相关性较高。
- 剥离流动性后因子仍具有显著收益率预测能力,表明关注度因子具备一定特异性。
- 与兴证金工165个底层因子中5个流动性和市场结构相关因子呈较高相关性,整体特异性弱化。
- 联合回归测试显示,当包括这5个相关因子后,关注度因子对收益的解释力度明显减弱。
风险提示与结论 [page::0][page::15]
- 本报告所有模型与结论基于历史数据分析,面对未来市场变化存在模型失效风险。
- 关注度因子作为另类数据方向的尝试,证明了互联网热度指标对选股具备Alpha潜力,但应注意其与流动性等传统因子的关系。
深度阅读
报告详尽分析与解构——《猎金系列之三十三:网络关注度因子真的有选股 Alpha 吗》
---
1. 元数据与报告概览
- 报告标题:《猎金系列之三十三:网络关注度因子真的有选股 Alpha 吗》
- 分析师:郑兆磊
- 机构:兴业证券经济与金融研究院
- 发布日期:2021年12月6日
- 研究主题:基于互联网文本数据(尤其是百度搜索指数)构建的关注度因子能否产生有效的选股Alpha?
核心论点与信息:
报告围绕互联网文本数据中的关注度因子展开,核心关注点是基于百度搜索指数,构建周度与月度关注度因子,探讨其是否具备选股能力和Alpha收益。通过因子IC检验、分位数组合收益分析、Fama-MacBeth回归等指标,报告验证了关注度因子的有效性和特异性,但也指出其与流动性等市场因子存在一定相关性,特异性在剔除后下降明显。整体评级并无明确投资建议,但强调模型与结论基于历史数据,存在失效风险[page::0-1]。
---
2. 逐节深度解读
2.1 引言:互联网关注度成为量化投资新焦点
报告开篇强调传统金融数据已趋同质化,挖掘Alpha空间受限,互联网产生的替代数据或“另类数据”成为突破口。网络数据的三大利用方向为情绪挖掘、主题聚焦及关注度指标构建,关注度指标尤受关注。量化投资借助互联网搜索行为数据(尤其是百度指数)透明反映市场参与者对个股的关注度,为挖掘Alpha提供新视角。百度作为中国主流搜索引擎,覆盖10亿用户,拥有庞大搜索行为数据,形成了可靠的关注度数据基础[page::2-3]。
2.2 百度指数数据详解与数据获取方法
百度搜索指数基于网民在百度搜索的搜索量加权,区分PC、移动端及合并指数。百度资讯指数则包含媒体报道、点赞、评论等行为,但后者主观色彩较强,数据跨度较短,故本报告采用的是百度搜索指数。
关注度因子选取股票代码(数字部分)作为关键词,原因是股票代码反映的搜索更准确代表投资者行为,而非简单查询信息的用户。未被收录的股票视为关注度极低并剔除,涵盖中国全A市场共3922只股票,时间跨度从2011年1月至2021年9月。
该选择减少了基于股名的噪音,强化信号纯度。测试中股票代码指标效果明显优于股票简称指标,反映投资者真正的交易兴趣[page::5-6]。
2.3 百度搜索指数数据表现及市场覆盖度分析
百度搜索总指数走势与万得全A指数高度同步,尤其2015年股灾期间表现出强烈联动,说明搜索指数在整体市场热度及情绪上的敏感性。
覆盖度方面,自2011年约52.5%提升至2021年9月的73%,并趋于稳定,说明大部分活跃股票均被涵盖,支持基于此数据构建的选股因子的可行性及完整性。
该稳定性保证了因子构建的广泛覆盖和代表市场的深度[page::6-7]。
2.4 关注度因子构建逻辑
报告引入经济学和行为金融学观点,解释市场中投资者的非理性行为及其对股价的过度反映。理论支持关注度(即热度)与股价走势存在反向滞后关系:当个股被过度追捧时,股价往往过高(过度反映),搜索关注度会随之飙升;随后股价往往回归至真实价值,关注度下降,股价出现修正。因此,构造期内的关注度总和作为因子,负相关于下期的股价收益。
具体做法为将某只股票在一个统计周期(如一周)内每日搜索指数累加,形成周期关注度,如周度关注度因子。数据覆盖市场内所有被收录股,剔除关注度极低且未收录股票,保证数据质量。
该逻辑基于情绪反转和市场非理性的金融理论,指向关注度因子可作为反向择时指标[page::7-8]。
2.5 关注度因子有效性检验
使用信息系数(IC)检验因子解释能力,周度关注度因子平均IC为6.51%,月度为8.57%,均具显著统计意义(t统计量分别为12.14与6.61),表明因子与未来收益率存在正相关关系。
分位数组合测试显示:
- 周度因子多头组合年化收益24.7%,多空组合收益达42.9%,夏普比率高达2.51,展现优秀的风险调整收益。
- 月度因子表现略逊,多头收益21.6%,多空组合收益27.7%,夏普比率1.32,仍具较好表现。
行业及市值中性化调整后,因子IC均值略下降,但稳健性提升,夏普比明显增强,周度因子多空组合收益年化高达44.8%,波动率仅为11.3%,夏普比3.95,月度因子置于20.1%收益,13.1%波动率,夏普比1.53。
多空组合净值曲线表现出持续显著上升趋势,验证了关注度因子良好的投资绩效。
因此关注度因子既有统计显著性,也具备经济实用性,高夏普比表明其适合用于构建量化策略[page::8-10]。
2.6 关注度因子在沪深300及中证500指数成分中的表现
缩小股票池至沪深300和中证500两大宽基指数,IC及分位数组合结果均有所下降,但依旧具备统计与实质显著的选股能力。
- 在沪深300中,周度关注度因子IC平均值降至2.85%,月度4.38%,依然实现显著的多空组合超额收益。
- 中证500表现相对更好,分别达到4.65%和5.64%的IC。
报告指出,规模较大的宽基成分股通常关注度已较高,信息披露更快,市场效率更强,因而关注度因子的Alpha效应相对减弱。
通过图表19和20可见,沪深300整体关注度水平高于中证500,进一步佐证上述结论[page::11-13]。
2.7 关注度因子的特异性与相关性分析
通过与Barra十大风格因子相关性分析,关注度因子相关性较低,除流动性因子外,未显示显著重叠。
剥离流动性因子后,关注度因子依然保持有效性,表明关注度并非纯粹反映市场流动性。
Fama-MacBeth回归进一步验证了关注度因子对未来收益的解释力,统计显著,尤其是周度因子。
然而,扩大回归范围至兴证金工165个底层因子,发现关注度因子与5个市场流动性及市场结构因子相关性较高(相关系数>0.3),将这些流动性因子放入联合多因子回归,关注度因子的特异性明显减弱,对收益率的解释力降低,显示部分Alpha源自流动性相关因素。
这提示关注度因子虽有Alpha,但需警惕其潜在的系统性风险因子重叠风险[page::14-15]。
---
3. 图表深度解读
图表1(大数据基金)
罗列了基于百度另类数据构建的两只大数据量化基金,显示百度指数对市场已具一定产品应用基础,说明数据具金融市场实用性。
图表2和3(百度搜索及资讯指数趋势界面)
界面截图说明数据来源透明,数据实时性佳(每日12点-16点更新),强调百度指数包含PC和移动端数据,代表广大互联网用户行为。
图表4(股票简称与代码搜索指数对比)
以贵州茅台为例,代码搜索指数波动较简洁且与价格走势更贴合,简称搜索波动更大,有较多干扰,验证代码搜索对投资者行为的代表性更强。
图表5(搜索总指数与万得全A指数对比)
百度搜索总指数与市场指数线走势高度契合,尤其15年股灾期间同步波动,证实搜索指数的敏感度和市场相关性。
图表6(股票覆盖度)
图示股票百度搜索覆盖度从近50%提升至70%+,说明数据全面性和代表性逐步提高。
图表7(价格与价值偏离原理图)
展示了同一资产价格由于短期非理性膨胀后回归内在价值的过程,理论基础解释因子反向选股逻辑。
图表8-13(IC检验及分位数收益)
数据表清晰展示关注度因子无论周度还是月度,IC均大于0,且经过市值行业中性化后表现更稳健,多空组合收益率极高,夏普比高,最大回撤率较低。
图表14和15(多空组合净值走势)
净值曲线显示多空组合逐年上涨,体现高收益与较低波动特性,市场择时潜力强。
图表16-18(窄市场宽基指数内表现)
宽基指数范围内因子表现依旧稳健但较弱,如沪深300 IC显著下降,组合收益也低于全市场,说明关注度因子对大市值股票的Alpha贡献有限。
图表19和20(指数关注度平均水平)
沪深300关注度普遍高于中证500,与因子表现下降对应。
图表21-25(相关性与回归检验)
显示关注度因子主要与流动性因子相关,剔除流动性后仍有效,但与部分底层流动性指标相关,联合回归下关注度因子显著性减弱。
---
4. 估值分析
报告不涉及传统企业估值模型如DCF或PE估值,重点在因子有效性与Alpha识别,属于因子研究与量化模型验证范畴,无直接股票目标价或估值区间。
---
5. 风险因素评估
- 市场环境变化风险:报告明确指出所有模型及结论都是基于历史数据,未来市场环境变化可能导致模型失效,Alpha失灵。该风险属于量化策略的通用风险。
- 相关性与特异性风险:关注度因子与流动性等市场因子相关较高,当市场流动性环境出现变化时,因子表现可能波动或失效。
- 数据覆盖及质量风险:百度指数覆盖率虽高,但仍有部分股票未收录,数据的完整性和准确性依赖百度反作弊机制和数据稳定性。
- 市场参与者行为变化:随着市场参与者行为变化和信息透明度提高,关注度因子的前置效应可能减弱。
- 模型稳健性风险:不同频率和处理方式因子表现存在差异,行业市值中性化等方法虽提升稳健性,但也引入样本外风险。
报告总体未明确给出缓解策略,但通过多因子回归、稳健性检验进行了风险控制层面分析,并提示需持续关注因子表现[page::0,15].
---
6. 批判性视角与细微差别
- 报告对关注度因子的有效性作了全面验证,但也坦诚其特异性在剥离流动性等因子后明显衰减,提示该因子可能并非完全独立的Alpha源,而是存在流动性等市场情绪共振风险。
- 采用股票代码而非股票简称作为关键词固然提升了代表性,减少了噪声,但也可能忽略部分投资者通过名称搜索产生的因子信息,存在“信息遗漏”的隐忧。
- 百度搜索指数虽然大数据规模宏大,但算法规则及防作弊细节未具体披露,存在不透明因素,可能影响数据的长期稳定性和中性。
- 关注度因子对大市值股票(沪深300)选股能力明显减弱,表明该因子更适合中小市值及覆盖度较低的市场,这限制了其作为通用Alpha因子的有效性。
- 由于数据主要覆盖中国市场,该因子的适用性及表现是否能跨市场具有不确定性,未来研究可扩展跨市场验证。
---
7. 结论性综合
本报告通过详细的数据分析和实证检验,确认了基于百度搜索引擎搜索指数构建的关注度因子具备显著的选股Alpha能力。主要结论包括:
- 选股能力显著:周度及月度关注度因子的IC均值及分位数组合超额收益率均远超市场基准,尤其行业市值中性化处理后多空组合年化收益达到44.8%(周度),夏普比接近4,显示其优异的风险调整能力。
- 有效性在宽基指数中有所减弱:在沪深300和中证500成分股中选股效果降低,反映大市值股票的信息效率较高,关注度因子的Alpha主要源于中小市值或低关注股票。
- 因子特异性存在局限:关注度因子与流动性等市场因子存在较强相关性,联合回归模型中其解释力度显著减弱,提示部分Alpha是流动性溢价的体现,独立Alpha需谨慎解读。
- 数据覆盖率高,样本充足:百度索引股票覆盖率近年来维持在70%以上,数据时间跨度超过10年,保证研究的代表性和有效的数据量。
- 理论逻辑合理,基于市场情绪非理性溢价:关注度因子契合行为金融学对市场情绪过热和修正的认知,能捕捉投资者关注度的波动趋势对应价差反转。
总体上,报告提出关注度因子作为另类数据衍生的量化因子,具备较好的Alpha潜能,适合作为多因子投资组合中的补充因子,但需关注其与流动性因子间的相关性和潜在市场环境变动的风险,避免因子失效。投资者使用时建议配合其他因子进行风险分散。
---
参考引用
本文所有结论和数据均来源于所引页面,详见[page::0-16]。
---
重要图表摘要(Markdown格式图示)
- 百度搜索指数趋势界面(图4)

- 百度资讯指数趋势界面(图3)

- 股票简称与代码搜索指数对比(贵州茅台,图6)

- 百度搜索总指数与万得全A指数对比(图5)

- 股价过度反映原理示意图(图7)

- 行业市值中性化周度关注度因子多空组合净值表现(图14)

- 行业市值中性化月度关注度因子多空组合净值表现(图15)

- 月度关注度因子与兴证金工底层因子相关性分析(图24)

---
总结
本报告通过严谨的数据获取、合理的因子构造、多个层面的实证检验,展示了基于百度搜索指数的关注度因子的强选股能力及其潜在风险,丰富了另类数据在量化投资中的应用范式,为市场参与者提供了可复制的Alpha因子探索方向,具有较高的参考价值。
[page::0-16]