新闻舆情数据选股能力初探 | 开源金工
创建于 更新于
摘要
本报告聚焦新闻舆情数据在量化选股中的应用价值,基于通联数据487万条新闻情感评分构建$\Delta MS_N$因子,实证发现该因子在中证500选股域上表现优异,尤其以回看20天数据的变化量表现最佳,年化收益率可达12%,且与传统因子相关性较低,具备独特的Alpha贡献能力,为突破因子拥挤困境提供了重要路径[page::0][page::1][page::2][page::3][page::4][page::5]。
速读内容
- 新闻舆情数据样本量大且来源广泛,日均覆盖约1600支个股,情感分数分布略偏正向,呈现显著的财报季月度效应,尤其每年4月新闻频次最高[page::2][page::3]。



- 以过去N天舆情平均值($MS{t-N,t}$)为因子的直接单因子测试表现不佳,尤其在沪深300及全市场中效果较弱,但在中证500略有改进[page::3]。

- 对舆情平均值做差分处理,构建$\Delta MSN = MS{t-N,t} - MS{t-2N-1,t-N-1}$,该因子多空收益波动比显著提升,尤其在中证500选股域表现最优,回看20天时多空收益比超过2.2[page::3]。

- 以$\Delta MS{N=20}$因子在中证500上的表现进行深入分析,按月调仓时多空收益波动比达2.2,多头超额年化收益率达4.6%[page::4]。

- $\Delta MS{N=20}$因子在不同调仓频率下表现差异明显:双周频率表现最佳,多空对冲年化收益率12%,年化ICIR约-2.3,月频次紧随其后,而周频表现相对逊色[page::4]。

- $\Delta MS{N=20}$因子与常见因子相关性较低,除与过去20日涨跌幅有轻微正相关外,与其他因子关联较弱,表明其提供了较为独立的Alpha信号[page::4]。
| 因子名称 | 20日涨跌幅 | Beta | 价值 | 杠杆 | 盈利 | 成长 | 流动性 | 规模 | 非线性市值 | 波动 |
|--------------|------------|-------|--------|--------|--------|--------|--------|--------|-------------|--------|
| 相关性 | 0.098 | -0.005| -0.005 | 0.003 | 0.000 | -0.004 | -0.006 | 0.005 | -0.002 | 0.005 |
- 剥离掉表中10个常见因子的影响后,$\Delta MS{N=20}$因子依然在中证500上表现良好,收益波动比2.64,年化ICIR-2.27,多头超额年化收益率4.86%。该因子多空组合最大回撤仅2.5%,胜率超过80%,盈亏比1.6,展示出较强的稳定性和风险控制能力[page::5]。
| 指标 | 第一组 | 第二组 | 第三组 | 第四组 | 第五组 | 多空对冲 | 中证500指数 | 多头对冲基准 |
|----------------|---------|--------|---------|--------|---------|----------|-------------|--------------|
| 年化收益率 | 5.89% | 0.89% | -3.64% | 0.23% | -5.14% | 11.60% | 1.00% | 4.86% |
| 年化波动率 | 20.39% | 19.99% | 19.67% | 19.93% | 19.75% | 4.40% | 19.04% | 6.94% |
| 收益波动比 | 0.29 | 0.04 | -0.19 | 0.01 | -0.26 | 2.64 | 0.05 | 0.70 |
| 最大回撤 | 35.62% | 35.85% | 39.50% | 41.11% | 42.80% | 2.50% | 36.88% | 4.84% |
| 胜率 | 50.98% | 47.06% | 45.10% | 45.10% | 43.14% | 80.39% | 47.06% | 56.86% |
| 盈亏比 | 1.29 | 1.26 | 1.13 | 1.33 | 1.15 | 1.60 | 1.27 | 1.35 |
- 结论:新闻舆情$\Delta MS_N$因子通过捕捉舆情变化带来的市场情绪波动,显著增强了Alpha信号的有效性,在中证500细分市场效果尤为突出,具备突破因子拥挤环境的潜力,建议后续研究结合更多另类数据和多因子框架,持续挖掘其选股能力[page::0][page::3][page::4][page::5]。
深度阅读
金融研究报告详尽分析报告
报告名称:新闻舆情数据选股能力初探
作者与发布机构:开源证券金融工程首席分析师魏建榕及金融工程团队,开源证券发布
发布日期:2021年7月9日
主题:以新闻舆情另类数据(一种量化情绪因子)为核心,探讨其在中国资本市场选股中的Alpha挖掘潜力与表现
核心论点:
- 传统量化因子面临拥挤和Alpha衰退,另类数据(如新闻舆情)可提供新的独特Alpha信号。
- 使用通联数据(Datayes)庞大新闻舆情数据库,利用情感分析赋分,构建了$\Delta MSN$因子(过去N天新闻情感均值变化)检验其选股能力。
- 实证发现$\Delta MS
- 因子在不同调仓频率均表现良好,双周调仓最优。
- 风险揭示基于历史回测,未来可能变化。
---
一、元数据与报告概览
该报告为开源证券金融工程团队原创量化研究,作者主要为魏建榕博士(复旦理论物理学背景,量化投资近十年经验),团队专注另类数据挖掘、因子模型和资产配置。报告背景是量化投资领域因子同质化严重导致Alpha空间收缩,介绍了新闻舆情数据这一另类因子的潜力,特别是利用通联数据库的情感得分构造因子$\Delta MSN$并展开全面实证测试。报告的目标是验证新闻舆情因子在不同指数选股范围的有效性及应用前景。报告全部实证均基于2017年至2021年的通联全市场新闻舆情数据。[page::0,1]
---
二、逐章节详解
2.1 背景与因子困境
报告开篇提出传统基于财务指标和价格数据的量化策略面临同质化拥挤,Alpha衰减严重,迫切需要挖掘另类数据中蕴含的新Alpha信号。目前开源金工团队围绕诸如招聘数据、高频资金动向等多个另类数据因子开展研究,这篇报告重点检验新闻舆情数据作为另类因子的潜力。[page::1]
2.2 新闻舆情数据基本特征
- 数据类型:基于通联数据“getNewsRelatedScoreV2”接口,获取上市公司相关的新闻新闻条目与情感得分(SentimentScore),得分区间可正可负,越高表示积极情绪。
- 数据清理:只保留与上市公司强关联的新闻,排除行业类、宏观类新闻,以及图片新闻和月度报表类,保证数据针对个股。
- 样本规模:约487万条新闻样本,覆盖近1600支股票日均有新闻报道。情感分布略显正偏(脾气偏积极),且新闻发布在财报季尤其是4月份异常密集,体现重要时点效应。[page::1,2,3]
2.3 因子构建与单因子测试
- 传统情感均值因子$MS
- 创新因子 $\Delta MSN$定义:取过去N天情感均值减去前一个N天的均值,即表示情感变化趋势。
- 实证表现:$\Delta MSN$在三大样本选股域均表现良好,尤其中证500区间多空收益波动比显著(高于2),代表因子拥有稳定的选股信号和抗噪声能力(图6)。[page::3]
2.4 $\Delta MS{20}$ 深度性能分析
- 具体选择N=20进行详细测试,理由为该回看窗口能够较佳捕捉中期情绪波动信号。
- 月度调仓表现:多空组合收益走势稳定,年化收益率达11.6%,多空收益波动比为2.2,表明风险调整后表现优良,且多头相对中证500指数超额收益4.6%(图7)。
- 不同换仓频率测试:双周调仓优于月频,月频优于周频。双周频下年化多空收益率12%,多头超额收益1.72%,ICIR(信息比率)显著,为-2.3(图8及表9)。
- 与常见因子相关性低:表2显示$\Delta MS{20}$与价格因子20日涨跌幅存在微弱正相关(0.1),与Beta、价值、盈利、成长等流行基本面因子相关性极低,说明该因子提供了非冗余信息。
- 剥离常见因子后仍优:对$\Delta MS{20}$剥离其他10个常见因子残差的单因子测试,多空收益波动比提升至2.64,ICIR-2.27,多头超额收益保持4.86%,表明该因子具备纯Alpha信息,非因子替代。[page::4,5]
---
三、图表深度解读
- 图2(日均有新闻个股数,约1600只):条形图呈现2017年至2021年新闻覆盖范围整体呈增长趋势,显示新闻采集和报道活跃度逐年提高,数据样本稳定且广泛。
- 图3(新闻情感分数频数分布):柱状图显示多数新闻情感在零附近轻微正偏分布,说明市场整体新闻倾向稍趋积极,这为建立情绪因子提供稳健基础。
- 图4(月度新闻情感分布):条形图表现财报季(尤其4月)新闻数量明显上升,强调新闻数据的时间敏感性及信息爆发窗口,为情绪因子性能的周期性提供解释。
- 图5(用情感均值$MS{t-N,t}$测试效果):线图显示沪深300、中证500及全市场的多空收益波动比均不高,评估单纯情感均值因子选股能力不足。
- 图6($\Delta MSN$因子多空收益波动比):与图5形成鲜明对比,尤其中证500的收益波动比显著攀升超过2,体现通过关注情感变化捕捉Alpha的潜力。
- 图7($\Delta MS{20}$因子多头多空收益净值走势):累计净值曲线向上,右轴多空收益波动比稳步增长显示因子表现稳定,具备可靠的选股能力。
- 图8(不同换仓频率下多空净值):双周换仓净值领先月频和周频,表明因子信号的持久性和频率对应风险收益特性。
- 表9(换仓频率绩效指标):显示双周换仓的IC均值及年化收益率优于其他策略,但均为负IC均值,体现因子虽有Alpha但信号噪声仍存在。
- 表2(相关性矩阵):$\Delta MS{20}$与常用风格及市场因子独立性强,是潜在的增量Alpha来源。
- 图10及表3(剔除常见因子的纯因子表现):净值曲线稳定上升,多空组合风险调整后表现更优,胜率80%,盈亏比1.6,回撤较低,突出其风险收益优势。
整体图表详细展示了因子从构建、表现、稳定性到独立性的全方位衡量。[page::2-5]
---
四、估值分析
报告为因子研究性质,不涉及公司估值或目标价。主要使用的方法是单因子多空组合回测,通过收益波动比、年化收益率、ICIR、胜率、最大回撤等指标衡量因子Alpha表现和风险调整收益能力。因子构造及分析注重统计显著性与经济意义,未涉及DCF或同行分析估值技术。
---
五、风险因素评估
报告明确提示模型与因子测试基于历史数据,强调历史表现不代表未来绩效,市场结构及信息环境变化可能影响因子有效性。提醒投资者因子策略存在模型风险,谨防未来新闻数据质量、市场情绪机制或交易成本变化带来的性能衰减。报告未详细提出缓解方案,风险意识贯穿全文。
---
六、批判性视角与细微差别
- IC与ICIR指标均为负,存在一定统计噪声,值得深入探讨因子信号稳定性和经济意义。
- 相关性虽低但不为零,与过去20日涨跌幅的正相关约0.1,提示因子部分反映价格惯性,需警惕纯粹情绪还是价格反馈机制。
- 不同换仓频率表现差异明显,双周换仓收益好于月频和周频,说明因子信号在不同市场阶段不同程度有效,实操中需要谨慎调仓周期选择。
- 虽剥离了常用因子,但仍基于公开新闻数据,市场广泛关注的新闻可能迅速被价格吸收,因子依赖数据时效性和文本质量,存在潜在过拟合风险。
- 新闻舆情数据偏正态的样本分布和财报季情绪激增可能导致因子在特定时段表现波动,需要进一步研究季节性调节机制。
- 报告缺乏对因子归因解析和资金规模承载力讨论,未来研究需关注因子在更大实盘环境中的容量和风险管理。
总体报告专业严谨,结论建立在大量数据和多维度测试基础上,但模型及数据先验局限仍需投资者警觉。[page::4,5]
---
七、结论性综合
该报告首次系统性地以中国市场通联新闻舆情数据为背景,深入探讨新闻舆情情感变化因子($\Delta MSN$)在股票选股中的Alpha潜力。通过构造过去N天情绪均值变化$\Delta MSN$,测试发现此因子有效捕捉市场情绪波动,特别是在中证500中展现出稳定而显著的多空收益波动比(>2)及超额年化收益(约4.6%)[page::0,3,4]。
报告多层面测试因子在不同调仓周期、样本选择及剥离常见因子后的表现依旧优良,体现其非传统因子可替代的独立Alpha信号。同时,细致揭示了新闻数据量大、覆盖广且情绪分布略偏正的特性,强调财报季等时间点上的新闻信息爆发,对因子表现有积极贡献。表格和图表细节丰富,横向比较多空策略风险调整后的优势与换仓策略微调效果,是量化因子设计的典范。
风险方面,报告提醒历史回测的局限和市场未来变化的不确定性,投资者需结合自身风险承受能力谨慎运用该因子。
总结而言,开源金工团队的这份研究报告不仅补充了中国市场另类数据因子的实证研究空白,也为量化投资者提供了一种创新且具备良好风险收益平衡的选股工具,彰显了新闻舆情数据在Alpha挖掘的广阔前景。[page::0-5]
---
附:关键图表举例(Markdown格式)
图2:日均有新闻舆情的个股约1600只

图3:新闻舆情分数分布略偏正

图4:新闻舆情月度效应,财报季信息爆发

图6:$\Delta MSN$因子在中证500收益波动比卓越

图7:$\Delta MS{20}$因子在中证500多空收益净值曲线

图8:调仓频率对多空净值影响

图10:剥离常见因子后,$\Delta MS{20}$仍表现优异

---
结束语
以上为对《新闻舆情数据选股能力初探》报告的全面解析,覆盖了报告方法论、核心发现、统计与实证结果、风险评估及批判视角。通过深入图表数据和细节挖掘,可见新闻舆情数据作为中文市场另类因子具备可观Alpha潜力和独特创新点,值得量化投资者及研究者重点关注和进一步深化研究。[page::0-5]