新闻舆情数据选股能力初探
创建于 更新于
摘要
本报告基于通联数据的新闻舆情情感打分,构建了基于舆情分数变化量的选股因子∆MSN,发现其在中证500选股域表现优异,双周频调仓下多空对冲年化收益率达12.00%,多头收益显著超越基准,且剔除其他常见因子后仍具有较强独立性,表明新闻舆情数据具备较大选股Alpha潜力,为量化因子挖掘提供有力支持[page::0][page::2][page::3][page::4][page::5][page::6].
速读内容
因子拥挤困境及另类数据价值预示 [page::0][page::2]
- 随着量化投资规模扩大,传统因子同质化严重,Alpha空间被压缩。
- 另类数据中的新闻舆情因子蕴含独特情绪信息,为扩展Alpha空间提供前景。
新闻舆情数据样本特征及描述 [page::2][page::3][page::4]



- 共计487万条舆情数据,日均活跃个股约1600只,情感分数总体偏正。
- 新闻频次呈显著月度效应,财报季(尤其4月)新闻量最高。
舆情因子构建与初步性能验证 [page::4][page::5]

- 用过去N天舆情分数均值作为因子,表现不佳。
- 构造新因子∆MSN = MS{t-N,t} - MS{t-2N-1,t-N-1}即舆情均值变化量,显示明显提升。

- ∆MSN因子在中证500选股域表现最优,多空收益波动比最高。
策略调仓频率及收益表现 [page::5][page::6]


- 三频率调仓表现顺序:双周频 > 月频 > 周频。
- 双周频多空对冲年化收益12.00%,多头相对中证500超额收益4.61%,年化ICIR优异。
| 指标 | 月频 | 双周频 | 周频 |
|------------------|---------|---------|---------|
| 年化收益率 (多空对冲) | 11.92% | 12.00% | 10.74% |
| 收益波动比 (多空对冲) | 2.166 | 2.649 | 2.037 |
| 年化收益率 (多头) | 2.58% | 3.43% | 0.15% |
| 年化收益率 (多头相对中证500) | 4.61% | 1.72% | 1.74% |
| 年化ICIR | -2.009 | -2.311 | -2.394 |
相关性与因子剥离测试 [page::6]
| 因子名称 | 20日涨跌幅 | Beta | 价值 | 杠杆 | 盈利 | 成长 | 流动性 | 规模 | 非线性市值 | 波动 |
|-----------------|------------|--------|--------|--------|------|--------|--------|--------|---------|--------|
| 相关性 | 0.098 | -0.005 | -0.005 | 0.003 | 0.000| -0.004 | -0.006 | 0.005 | -0.002 | 0.005 |
- 与20日涨跌幅因子相关性较高,但与其他主流因子相关性较弱,因子相对独立。
- 剥离常见因子效果依然优异,提升因子独立Alpha价值。

| 指标 | 第一组 | 第二组 | 第三组 | 第四组 | 第五组 | 多空对冲 | 中证500指数 | 多头对冲基准 |
|------------|--------|--------|---------|--------|---------|----------|------------|--------------|
| 年化收益率 | 5.89% | 0.89% | -3.64% | 0.23% | -5.14% | 11.60% | 1.00% | 4.86% |
| 年化波动率 | 20.39% | 19.99% | 19.67% | 19.93% | 19.75% | 4.40% | 19.04% | 6.94% |
| 收益波动比 | 0.29 | 0.04 | -0.19 | 0.01 | -0.26 | 2.64 | 0.05 | 0.70 |
| 最大回撤 | 35.62% | 35.85% | 39.50% | 41.11% | 42.80% | 2.50% | 36.88% | 4.84% |
| 胜率 | 50.98% | 47.06% | 45.10% | 45.10% | 43.14% | 80.39% | 47.06% | 56.86% |
| 盈亏比 | 1.29 | 1.26 | 1.13 | 1.33 | 1.15 | 1.60 | 1.27 | 1.35 |
风险提示 [page::0][page::7]
- 模型基于历史回测,未来市场环境可能变化导致结果不同。
深度阅读
报告名称与概览
本报告题为《新闻舆情数据选股能力初探》,由开源证券金融工程研究团队于2021年7月9日发布。分析师团队由魏建榕(首席分析师)领衔,张翔、傅开波、高鹏、苏俊豪、胡亮勇、王志豪、盛少成、苏良等多位成员共同参与完成。
报告聚焦于以通联数据提供的新闻舆情数据构建选股因子,探索其在A股市场,尤其是中证500指数选股域内的投资绩效表现。核心论点指出,传统量化策略因因子拥挤导致Alpha空间收窄,新闻舆情这类另类数据则蕴含独特的Alpha信息,能够为量化投资带来新的成长机遇。关键发现是构造基于舆情变化量的新型因子∆MS(舆情均值变化量),该因子在中证500上表现优异,年化多空对冲收益率可达约12%,收益波动比超过2倍,具备较好的风险调整收益特征[page::0, page::2, page::5]。
---
报告详细解读
1. 因子拥挤导致Alpha衰减,另类数据前景广阔
报告首先指出,传统量化投资策略主要依赖财务和量价数据,随着量化投资规模巨大扩展,策略趋于同质化,形成因子拥挤(Factors Crowding)效应,导致Alpha收益被蚕食。为突破这一瓶颈,采用另类数据(如招聘数据、高频持股数据、资金流向数据等)成为趋势,新闻舆情数据因蕴含鲜明的市场情绪信息,具备显著的潜在Alpha空间。
本报告基于通联数据丰富的另类数据库之一:新闻舆情模块,通过对新闻文本情感打分(SentimentScore)进行定量分析,验证新闻舆情数据的选股能力,目的是发掘其稳定的Alpha信号,为量化策略提供新的因子来源[page::0, page::2]。
---
2. 新闻舆情数据的基本特征
2.1 数据样例及字段说明
通联新闻舆情数据覆盖面广,主要以对上市公司新闻内容进行情感打分,情感分数越高,表明新闻文本情绪越正面。报告展示了部分样例数据(图1)和参数说明(表1,包括新闻ID、证券代码、情感分数、新闻发布时间、新闻类型、行业分类等),数据经过筛选剔除月度报告、图片新闻、宏观及非上市公司新闻,确保样本针对性和纯净度[page::2, page::3]。
2.2 描述性统计及数据特征
- 新闻个股覆盖度:日均涉及新闻舆情约1600只个股(图2),显示数据覆盖面广泛,具备代表性。
- 情感分数分布:舆情分数整体略微偏向正面(图3),反映新闻总体语气略为乐观。
- 月度效应明显:新闻发布数量呈现明显的月度效应,特别是在财报季(尤其4月)新闻量激增,得益于年报和一季报披露带来的市场关注度提升(图4),这种时间上的非均质分布影响因子构建的时点选择和信号强度[page::3, page::4]。
---
3. ∆MSN因子构建及表现分析
舆情均值因子表现不足
报告最初尝试以过去N天的舆情分数平均值 \( M S{t-N,t} \) 作为单因子测试,但结果显示不理想,尤其在沪深300和中证500中表现较差,未能捕获有效Alpha(图5)。这说明仅使用“水平”舆情情绪值难以支撑强劲选股信号[page::4]。
舆情均值变化量∆MSN因子的定义及优势
为改进,报告提出利用舆情均值的“变化量”:
\[
\Delta M S{N} = M S{t-N,t} - M S{t - 2N - 1, t - N - 1}
\]
即过去N天均值与之前同等长度时间段均值的差异,捕捉情绪的趋势变化,而非静态水平。
该因子在三个样本域(全样本,沪深300,中证500)多空收益波动比均优于原始舆情均值因子,且在中证500上表现尤为突出,说明中小市值股票对新闻舆情动态更为敏感,具备良好选股价值(图6)[page::4, page::5]。
中证500选股实证
选取\(\ N=20 \)设定,在中证500选股域下,按月换仓回测显示:
- 多空收益波动比达到2.2,表明风险调整后收益不错;
- 多头组合年化超额收益约为4.6%;
- 多头与空头组合呈明显分化,提示因子较强的预测能力(图7)[page::5]。
换仓频率的影响
换仓频率测试表明:
- 双周换仓表现最佳,多空对冲年化收益率为12.00%,多头相对中证500年化超额收益为1.72%,年化ICIR为-2.3;
- 月频略逊于双周,但多头相对中证500年化超额收益达4.61%;
- 周频最差(图8、图9),说明过度频繁换仓收益受损,应适当平衡信号时效性与交易成本[page::5, page::6]。
与常见因子的相关性和剥离测试
因子与常见10个风格和技术因子的相关性较低,仅与过去20日涨跌幅略有正相关(∼0.1),表明该因子提供了有别于传统因子的Alpha信息(表2)。
剔除这10个传统因子后,∆MS因子在中证500上的表现依然优异(图10,表3):
- 多空收益波动比提升至2.64;
- 年化ICIR改善至-2.27;
- 多头超额收益为4.86%;
- 最大回撤仅2.5%,胜率超80%,盈亏比1.6,风险收益特征良好。
说明该舆情变化因子具备较强独立选股能力和稳健性[page::6, page::7]。
---
4. 风险提示
报告明确指出模型测试基于历史数据,且市场环境不断变化,未来表现可能受到系统性风险或结构性变化影响,存在不确定性风险[page::0, page::7]。
---
5. 估值与评级说明
报告不涉及具体股票估值或投资评级,属于策略类、因子研究性质的专题报告。其结论旨在于展示新闻舆情数据构建选股因子的潜力,并不针对单一标的作买卖建议。风控等级为R3(中风险),仅适合专业投资者及部分风险承受能力较强普通投资者阅读[page::0, page::8]。
---
图表详解与洞察
- 图2(日均涉新闻个股数约1600只)显示新闻覆盖度庞大,具广泛代表性,支持后续因子构建的样本基础牢靠。
- 图3(新闻情感分布略偏正向)反映市场新闻总体情绪偏好积极,符合经济运行逻辑及多头市场情绪,一定程度佐证数据与现实市场情绪同步。
- 图4(新闻数量月度效应)揭示财报季尤其4月信息披露密集,说明舆情因子信号强弱具时间依赖性,应避免简单使用整体样本,考虑事件驱动窗口。
- 图5(过去N天均值指标表现不佳)体现新闻情绪水平本身波动大且易受噪音影响,难以稳定捕捉Alpha。
- 图6(∆MSN因子表现提升)显示转换为“变化量”指标大幅提高预测能力,凸显动态趋势信号因子优于静态均值的投资价值。
- 图7(中证500按月调仓多空净值分组表现)清晰展示分层收益差异明显,多空对冲策略风险调整后效果显著。
- 图8、图9(三种换仓频率绩效对比)表明换仓频率设计对收益稳定性有较大影响。太频繁增加交易成本,太稀疏可能错失调整机会。
- 图10(剥离常见因子后仍保持优秀表现)印证该因子具备独立信息量,非其他已知因子的复合表现,具有真实alpha信号价值。
- 表2(与常见因子相关性)数据支撑因子信息独立性,降低因子重复风险。
- 表3(多空组合绩效指标)胜率、最大回撤及盈亏比等指标体现策略稳健性,风险收益结构大幅优于基准[page::3-7]。
---
批判性视角与细节考量
- 报告基于487万条新闻舆情数据,数据量大且多源,具有较高的信息代表性,但新闻文本情感打分依赖于文本挖掘与自然语言处理模型,可能存在分类误差及行业偏好,未详细披露情感模型的具体技术路线,存在一定的模型盲点风险。
- 舆情分数的“略偏正”分布及月度高峰效应,提示情绪非均匀分布,特殊时间节点信号噪音可能加大,因子表现或受季节性事件影响有波动,长期稳定性需持续监测。
- 相关性剥离虽然降低了与传统因子的重复性,但因相关系数本身相对较低,仍需结合更多宏观及市场状态因素验证该因子的市场适用范围。
- 换仓频率和手续费模型对收益率有重要影响,实际应用中交易成本、市场冲击成本及流动性风险未充分披露,因而实操表现可能偏低。
- 年化ICIR数值呈负数(例如-2.3),这稍显异常,传统ICIR为正时值代表因子稳定正向收益,负值可能暗示因子表现不稳,或者指标定义不同,需关注指标含义解读及验证。
- 报告未展开估值框架及具体投资组合构建细节,缺少策略风险管理方案,且风险提示较为泛泛,未明确解释面对极端市场环境的表现如何,应进一步丰富[page::5, page::7]。
---
结论性综合
《新闻舆情数据选股能力初探》报告系统地展示了新闻舆情这一另类数据在量化选股领域的应用潜力。通过构建基于新闻情绪变化量的∆MS因子,实现了较传统均值舆情指标明显更优的选股表现,尤其在中证500指数涵盖的中小市值股票中,5年多空对冲年化收益率达到12%左右,且风险调整后的收益波动比超过2倍,胜率高达八成以上。
报告通过详实数据样例、丰富图表和多维度统计,论证了通联新闻舆情数据库数据规模大、覆盖广、客观公正,且蕴含独特的市场情绪信息,配合合理的因子构建方法,能够挖掘出有效Alpha,补充传统量化因子为因子拥挤带来的策略收益衰减问题提供可行思路。
然而,报告也提醒投资者需警惕历史效果并不保证未来表现,舆情数据也存在噪音及时间效应,交易成本和策略实施细节尚需完善以验证实操可行性。整体来看,该研究为新闻舆情在量化投资中的应用提供了切实有力的实证基础,显示新闻舆情因子作为另类因子的潜力广阔,为后续更深入的策略开发及多因子集成提供了坚实的起点[page::0-7]。
---
参考图表链接
- 图2:
- 图3:

- 图4:
- 图5:

- 图6:
- 图7:

- 图8:
- 图10:

---
溯源标注
内容及数据均来自开源证券《新闻舆情数据选股能力初探》,发布于2021年7月9日,页码依次对应引用内容页码为[page::0, page::1, page::2, page::3, page::4, page::5, page::6, page::7]。