新闻舆情数据选股能力初探
创建于 更新于
摘要
本报告基于通联数据新闻舆情数据,构造并测试了新闻舆情因子∆MS在中证500选股域上的选股能力。研究发现,舆情因子∆MS的多空收益波动比高达2.64,年化ICIR为-2.27,多头组合相对中证500指数的年化超额收益约4.86%。因子在不同调仓频率下表现稳健,双周调仓表现最佳,年化多空对冲收益率达12%。该因子与传统财务及价量因子相关性较弱,显示其独立Alpha价值,体现了新闻舆情数据在量化选股中的显著潜力 [page::0][page::2][page::3][page::4][page::5][page::6][page::7]
速读内容
- 量化投资中因子同质化严重,因子拥挤导致Alpha衰减,另类数据如新闻舆情数据提供了新的Alpha来源 [page::0][page::2]。
- 通联新闻舆情数据涵盖487万条新闻,日均涉及约1600只股票,新闻情感评分略偏正面且呈现财报季集中效应,尤其4月新闻量最大:



- 直接使用过去N天舆情均值作为因子($MS{t-N,t}$)选股效果一般,特别在中证500选股域表现较弱:

- 定义新闻舆情均值变化量新因子 $\Delta MSN = MS{t-N,t} - MS{t-2N-1,t-N-1}$,该因子在中证500选股域表现优异,尤其在N=20时多空收益波动比达到约2.2,年化多头超额收益约4.6%:


- 三种调仓频率测试显示,双周调仓策略表现最好,因子多空对冲年化收益率12.00%,月频和周频稍逊:

| 指标 | 月频 | 双周频 | 周频 |
|---------------------|---------|---------|---------|
| IC均值 | -0.032 | -0.024 | -0.017 |
| rankIC均值 | -0.029 | -0.023 | -0.017 |
| 年化收益率 (多空对冲) | 11.92% | 12.00% | 10.74% |
| 收益波动比(多空对冲) | 2.166 | 2.649 | 2.037 |
| 年化收益率 (多头) | 2.58% | 3.43% | 0.15% |
| 年化收益率 (多头相对中证500) | 4.61% | 1.72% | 1.74% |
| 年化ICIR | -2.009 | -2.311 | -2.394 |
- 相关性分析表明, $\Delta MS_{N=20}$ 因子与传统因子相关性较弱,仅与过去20日涨跌幅相关性约0.1,表明其独立Alpha贡献;剔除常见10因子后的剥离因子依然保持优异表现:

| 指标 | 第一组 | 第二组 | 第三组 | 第四组 | 第五组 | 多空对冲 | 中证500指数 | 多头对冲基准 |
|-------------|--------|--------|--------|--------|--------|----------|--------------|--------------|
| 年化收益率 | 5.89% | 0.89% | -3.64% | 0.23% | -5.14% | 11.60% | 1.00% | 4.86% |
| 年化波动率 | 20.39% | 19.99% | 19.67% | 19.93% | 19.75% | 4.40% | 19.04% | 6.94% |
- 剥离因子多空收益波动比达2.64,年化ICIR-2.27,多头相对中证500指数年化超额收益为4.86%,最大回撤控制在2.5%,胜率80.39%,盈亏比1.6:
| 指标 | 第一组 | 第二组 | 第三组 | 第四组 | 第五组 | 多空对冲 | 中证500指数 | 多头对冲基准 |
|-----------|----------|----------|----------|----------|----------|----------|--------------|--------------|
| 收益波动比 | 0.29 | 0.04 | -0.19 | 0.01 | -0.26 | 2.64 | 0.05 | 0.70 |
| 最大回撤 | 35.62% | 35.85% | 39.50% | 41.11% | 42.80% | 2.50% | 36.88% | 4.84% |
| 胜率 | 50.98% | 47.06% | 45.10% | 45.10% | 43.14% | 80.39% | 47.06% | 56.86% |
| 盈亏比 | 1.29 | 1.26 | 1.13 | 1.33 | 1.15 | 1.60 | 1.27 | 1.35 |
- 风险提示:因子及策略测试基于历史数据,未来市场可能发生变化导致表现差异 [page::0][page::2][page::3][page::4][page::5][page::6][page::7]
深度阅读
《新闻舆情数据选股能力初探》报告深度分析
---
一、元数据与概览
报告标题:《新闻舆情数据选股能力初探》
作者与机构:由开源证券金融工程研究团队撰写,首席分析师魏建榕领衔,包含傅开波、张翔、高鹏等多位分析师及研究员。
发布日期:2021年7月9日
研究主题:本报告围绕“新闻舆情数据”作为一种另类数据资源,探讨其在量化选股中的应用潜力和实际表现,尤其聚焦以通联数据的新闻舆情数据为样本,对其选股能力进行系统的量化测试和绩效评估。
核心论点与目标:
- 传统量化策略面临因子拥挤(Alpha空间缩水)的问题,新增另类数据(如新闻舆情数据)有助开辟新的Alpha来源。
- 通联新闻舆情数据通过情感分数(SentimentScore)为股票舆情提供量化的情绪指标,这些指标可作为潜在选股因子。
- 报告验证体现新闻舆情数据的一个创新因子 \(\Delta MSN\)(过去N天内新闻情感平均值的变化),该因子在中证500领域表现特别优异,显示选股增益。
- 具体策略表现包括多种换仓频率的绩效对比,因子剔除其他常见因子的独立性及超额收益验证。
报告不涉及具体个股买卖建议,而是对新闻舆情数据因子开发和应用的系统探索,提出其具备较强的量化投资价值潜力。[page::0,1]
---
二、逐节深度解读
1. 因子拥挤导致Alpha衰减,另类数据前景广阔
报告开篇指出,传统量化投资主要依赖财务和量价数据,随着市场更多参与者采用相似策略,因子拥挤导致Alpha显著衰退。为冲破同质化,另类数据的作用愈加凸显,尤其能带来独特的情绪和行为信息。
新闻舆情数据作为另类数据之一,具备实时、广泛覆盖的优势,通过情感分析技术量化市场情绪,对捕捉股价短期反应及中期趋势极具潜力。开源证券金融工程团队历史上已有招聘、股东、资金流向等另类数据研究积累,为此次新闻舆情数据研究奠定基础。[page::0,2]
2. 新闻舆情数据的基本特征
2.1 数据来源和结构
- 数据来自通联数据“getNewsRelatedScoreV2”和“新闻关联标签行业表”,包含487万条新闻记录,涵盖了大量上市公司相关的新闻。
- 主要以“情感分数”(SentimentScore)定量表达新闻情绪,分数越高表明新闻持正面情绪。
- 数据经过清洗,剔除非公司相关、定期财报和无效新闻,力求信息有效性和相关度。
表1全面描述了字段含义,从新闻ID、股票代码、关联程度、情感分类及分数,到新闻发布时间、类型、是否包含基本面或政策信息、所属行业和新闻标题,结构细致完整。
示例数据(图1)显示了不同股票的新闻记录及其对应情绪分数,涵盖多个行业和新闻类型。此数据的多样化和广泛性为后续因子构建提供了坚实基础。[page::2,3]
2.2 新闻舆情分数分布及月度效应
- 日均出现涉及新闻舆情的个股数大约为1600只,并且整体分布稳定且略偏向正面情绪(图2和图3)。
- 新闻情感分布显示0附近集中,体现中性新闻较多,但偏正向表明市场对上市公司整体舆情较为积极。
- 明显的季节性效应,特别是每年财报季(尤其4月)新闻频次显著攀升(图4),反映公司业绩发布带来的信息密集释放周期,对策略构建极具参考价值。
这一章节说明新闻舆情数据具备较好的信息饱和度和情绪特征,且体现了财报季节性周期波动,提示因子构建时应关注时间序列的动态变化。[page::3,4]
3. \(\Delta MSN\) 因子在中证500选股域上表现优异
3.1 单纯平均情感分数的不佳表现
直接使用过去N天舆情分数的平均值(\(MS{t-N,t}\))作为选股因子,初步测试的绩效表现不理想(图5),无论样本域为全市场、沪深300或中证500。
该现象说明单一情绪水平指标无法有效捕捉股价异动的alpha信息,单调平均值难以反映情绪变化的动态结构。[page::4]
3.2 改进因子构建:情感变化量 \(\Delta MS
N\)创新提出过去N天情感均值与前一N天窗口的均值变化量差异:
\[
\Delta MSN = MS{t-N,t} - MS{t-2N-1, t-N-1}
\]
此差分式因子捕捉情绪趋势变化而非静态水平,有效反映市场对股票情绪的积极或消极转折点。
- 单因子测试结果显示该因子在全体样本和沪深300均有较好表现,但在中证500样本域表现尤其突出(图6)。
- 其多空对冲策略的收益波动比在20个交易日回看期时达到峰值,凸显中证500中等市值股票的优选价值。
进一步以\(N=20\)固定因子窗口,在中证500选股域下分组回测(图7):
- 多空收益波动比达2.2,表明投资组合有效控制波动。
- 多头相对中证500基准年化超额收益率4.6%,显示良好的选股效果。
3.3 换仓频率对绩效的影响
- 测试了周频、双周频、月频三种换仓周期(图8、图9)。
- 整体绩效排序为双周频>月频>周频,双周频多空对冲年化收益率12%,因子年化ICIR(信息比率调整)为-2.3,表现最佳。
- 换仓过频可能带来投资成本提升及因子信号噪声增加,双周换仓实现了收益和交易成本间的平衡。
3.4 因子独立性验证
通过与常见十个因子的相关性分析(表2):
- \(\Delta MS
- 与其他因子相关性较弱,说明它在量价财务因子之外提供了独特信息。
剔除这些常见因子影响后,剥离因子仍在中证500选股域表现优异(图10、表3):
- 多空收益波动比升至2.64,年化ICIR-2.27。
- 多头相对中证500年化超额收益扩大至4.86%,强化了该因子的独立Alpha贡献。
此外,从风险收益指标看(附表,图10延伸),
- 多空对冲组合胜率高达80%,盈亏比接近1.6,最大回撤控制在相对较低水平,整体表现稳定。
通过构建动态舆情变化因子及充分验证其独立性与多样化性能,报告展示了新闻舆情数据作为另类数据在中证500规模及成长中等市值股票选股上的积极作用。[page::4,5,6,7]
4. 风险提示
报告温馨提示:
- 研究及模型基于历史数据,未来市场可能发生变化,因子表现存在不确定性。
- 投资者需谨慎注视环境或市场条件变动对因子有效性的冲击。
这一风险披露符合规范,提醒使用者保持动态调整和风险控制意识。[page::0,7]
---
三、图表深度解读
| 图表 | 描述 | 深度解读 | 论点支持与限制 |
| ----- | ----- | -------- | ------------- |
| 图1 | 通联新闻舆情数据样例(表结构与字段) | 展示了多个股票与新闻的相关性及对应情感分数。数据多样、结构完整,反映数据维度丰富。 | 佐证数据可靠性及后续因子构建基础。 |
| 图2 | 日均有新闻舆情个股数量约1600只 | 量能稳定且呈增长趋势,显示数据覆盖范围广,信息充分。 | 数据充分支持因子稳定性;覆盖广泛避免样本偏差。 |
| 图3 | 新闻舆情分数分布偏正 | 大部分新闻情绪聚焦于中性和略偏正面,表情绪整体趋于积极。 | 表明市场整体舆情偏正,提醒因子需剔除基数偏差信息。 |
| 图4 | 新闻舆情存在明显月度季节效应,尤其4月财报季 | 在财报发布季节,新闻发布增加,情绪指数波动更为明显,说明事件驱动效应明显。 | 支持动态调整因子窗口,关注季节性调整的重要性。 |
| 图5 | 过去N天舆情均值因子表现不佳 | 静态情绪均值作为因子效果一般,尤其中证500表现不显著。 | 反映单一情绪水平未必反映市场动态需求。 |
| 图6 | \(\Delta MSN\) 因子多空收益比展示 | 创新差分因子在中证500表现出色,显示动态情绪变化带来有效Alpha。 | 关键发现,证明情绪动量远胜静态水平。 |
| 图7 | 按月调仓,\(\Delta MS{N=20}\) 中证500分组及多空收益净值 | 多组收益曲线分层明显,多空对冲净值持续上升,证实因子有效性。 | 多空收益波动比2.2,超额收益明显,策略潜力突出。 |
| 图8 | 不同换仓频率多空净值对比 | 双周频换仓收益曲线最高且最稳定,展现交易频率对策略绩效影响显著。 | 强调在交易成本与收益平衡下,选择合适换仓周期。 |
| 图9 | 换仓频率下相关绩效指标量化对比 | 双周频年化收益达12%,ICIR最高,收益稳健性最好;周频换仓反而表现较弱。 | 深度佐证换仓频率选择的理性依据。 |
| 图10 | 剔除常见因子后,剥离因子在中证500的表现 | 多空收益波动比进一步提升至2.64,收益曲线优势持续。 | 展现因子独立Alpha贡献及稳健性。 |
以上图表体系全面支撑了作者通过情感变化打造独立选股因子的核心论点,数据丰富且逻辑严密,验证层次清晰,实现了理论与实证的良好结合。[page::2,3,4,5,6,7]
---
四、估值分析
本报告本质上为量化因子研究与实证,未涉及具体公司估值模型(如DCF、市盈率估值等)。报告重心聚焦于新闻舆情数据因子的构造与绩效测试,而非传统公司的估值定价分析。
---
五、风险因素评估
- 报告识别最主要风险为历史数据驱动模型存在样本外表现不佳的风险,即未来市场环境可能发生根本性变化,令模型失效。
- 报告未见明示具体缓解策略或风险概率评估,体现当前量化策略在新兴另类数据领域普遍依赖观察与持续动态验证。
该风险提示符合研究报告合规披露要求,但在实际策略部署中,投资者需结合宏观市场变化灵活调整,避免策略过度依赖历史特征。[page::0,7]
---
六、批判性视角与细微差别
- 因子设计合理性:创新将情绪均值的差分引入选股因子,有效解决单纯情绪均值平庸问题。但因子本质仍对情绪波动敏感,且其表现与市场阶段和情绪敏感性可能强相关,非万能因子。
- ICIR指标为负:报告中信息比率调整(ICIR)指标均为负数(如-2.3),虽未详细解释含义,通常ICIR为正表示信息比率,负值可能暗示因子信息效用有限或评价指标使用上特殊经验判断,需审慎对待。
- 收益较低且波动较大:多头年化收益4.6%-4.8%虽超额,但与其他量化高频因子相比仍属较低水平,且最大回撤尚处于30%以上,体现该因子更多为辅助增强而非主导Alpha因子。
- 时间窗口和调仓频率依赖性:最佳表现依赖N=20窗口和双周调仓,若外推至不同市场条件下稳健性有待进一步验证。
- 缺乏宏观或行业事件结合:舆情因子虽考虑了财报季节性,但未对宏观经济波动、突发公共事件等外风因素做深入剖析,可能限制因子泛化能力。
- 样本外验证不足:虽然报告中涵盖了较长时间跨度数据,但缺少对市场极端行情(如2015年股灾或疫情期间)下因子表现的专项分析。
整体来看,报告客观、数据充分,但对因子性能的限制、实际可操作性微弱的细节披露不足,需要后续更多多维度跟踪研究。[page::0-7]
---
七、结论性综合
《新闻舆情数据选股能力初探》报告通过系统分析通联数据的新闻舆情信息,提出了情绪变化量因子 \(\Delta MSN\) 作为量化选股信号。实证结果表明:
- 新闻舆情数据覆盖大、来源广泛,情绪分布略偏正,且存在显著的季节性(财报季月份新闻量激增),为因子构建提供坚实数据基础。
- 直接使用情绪均值选股效果不佳,但通过差分变化因子 \(\Delta MSN\) ,尤其在中证500样本域内展现出显著的多空收益、稳定的超额收益及较好的收益波动比。
- 将该因子应用于不同换仓周期,双周调仓获得最佳年度对冲收益(12%),且剔除其他常见因子后该因子仍具备独立Alpha信息。
- 该因子对传统量化因子的相关性较低,说明其属典型另类数据投资因子,有助丰富量化策略维度。
- 风险提示合理,提醒市场环境变化可能使得因子表现波动。
- 估值及应用局限主要在于历史数据依赖、市场特殊事件考量不足,以及ICIR负值提示对因子解释需谨慎。
整体评估显示新闻舆情数据作为另类数据,以情绪变化量方式构建的因子具备较强独立Alpha捕捉能力,尤其适合中证500这一中等市值股票池,对于推动量化策略多样化、破除因子拥挤具有积极意义。报告未提供明确买卖评级,主要为因子策略探索研究类文档。
---
主要图表汇总展示
(日均约1600只股票出现新闻舆情记录,样本覆盖广泛)
(新闻舆情分数略偏正,数据整体偏向积极)
(新闻舆情数据月度效应明显,财报季新闻量激增)
(仅用过去N天舆情均值作为因子,选股效果一般)
(情绪变化量因子 \(\Delta MSN\) 在不同样本域表现,多空收益波动比显著)
(\(\Delta MS{N=20}\) 在中证500按月调仓的收益曲线,多空对冲效果突出)
(三种换仓频率净值对比,双周频表现最佳)
(剔除常见因子后,该因子依旧稳健表现)
---
总结
本报告创新性地结合新闻舆情数据的情绪变化动态,提出了新颖选股因子,证明该另类数据资源对传统量价财务因子有强补充作用。尽管因子ICIR表现为负,提示其信息处理仍有空间,且未来市场环境适应性需持续验证,报告整体展示出新闻舆情数据的潜在投资价值和量化策略开发方向,为后续研究及实际投资操作提供了框架与实证经验。[page::0-7]