`

另类数据新闻情绪在多因子选股中应用初探

创建于 更新于

摘要

本报告基于中国A股市场广泛覆盖的新闻数据,通过NLP技术构建新闻情绪基准因子SENTI和SENATT,日度信息系数分别为0.073和0.061,相关多空组合年化收益率达30%和34%。基于SENATT,进一步提取208个时序拓展因子,筛选24个有效因子进行分层回测,显示时序因子具备稳健的截面预测能力和投资价值。整体策略具备较强的盈利能力和较高的换手率特征,适应高度时效的新闻情绪信息应用 [page::0][page::8][page::9][page::13][page::14][page::16][page::17][page::22]

速读内容


研究核心与新闻情绪因子构建 [page::0][page::3][page::7][page::8]

  • 利用ChinaScope数据库覆盖1000+站点、7000+版面新闻,通过NLP技术提取多维标签及新闻情绪值。

- 构建两个新闻情绪基准因子:SENTI结合相关性及时间衰减,SENATT融合关注度排名。
  • 基准因子日度IC均值分别为0.073和0.061,说明具备良好的横截面预测能力。

- 多空组合年化收益率分别达到30.37%(SENTI)和34.16%(SENATT),夏普比率均超过2。[page::8][page::9][page::12]

新闻情绪基准因子测试及表现 [page::9][page::11][page::12]


| 因子 | 年化收益率 | 超额年化收益率 | 年化波动率 | 最大回撤 | 夏普比率 | 信息比率 | 胜率 | 年化换手率 |
|---------|------------|----------------|------------|----------|----------|----------|--------|------------|
| SENTI多空组合 | 30.37% | 27.15% | 14.33% | 17.57% | 2.52 | 1.89 | 53.93% | 286.89 |
| SENATT多空组合 | 34.16% | 32.03% | 11.60% | 14.54% | 2.14 | 2.76 | 55.34% | 412.75 |
  • 小盘股是新闻因子的主要受益对象,市值加权降低了小盘股权重,导致收益和胜率下降。

- 策略特别重视日度换仓,换手率远高于传统因子策略,反映新闻时效性强。[page::12][page::13]

新闻情绪时序因子提取方法及测试 [page::14][page::15][page::16][page::17]

  • 采用丰富的时序特征提取算子(如连续小波变换、傅里叶变换、线性趋势分析等),共208个时序拓展因子被提取。

- 对SENATT基准因子进行异常值处理、截面标准化后,筛选出IC均值绝对值大于0.01的24个有效因子进行分层回测。
  • 时序因子整体表现不及基准截面因子,但仍显示一定预测能力,反映时序信息对截面选股策略具补充作用。[page::16][page::17]


典型时序拓展因子回测表现 [page::19][page::20][page::21]


  • senattchangequantilesfaggmean因子多空组合年化收益率达到34.41%,夏普比率最高达2.25。

- senatt
fftcoefficientattrrealcoeff1因子多空组合回报18.89%,信息比率1.01。
  • senattagglineartrendattrslopechunklen10faggmean因子多空组合年化收益率达36.27%,夏普比率3.27。

- 以上因子均表现出良好的单调性和稳健的分层收益,支持时序特征在因子截面应用中的潜力。[page::19][page::20][page::21]

结论与风险提示 [page::22]

  • 新闻情绪基准因子及其时序拓展因子在A股市场展现出鲜明的选股能力和盈利潜力。

- 新闻情绪因子对小盘股偏好明显,策略换手频繁,适合高频关注新闻的投资者。
  • 模型基于历史数据,存在历史规律失效的风险,特别是面对极端市场环境和黑天鹅事件时需谨慎处理。

- 新闻情绪因子收益在市场整体低迷时可能不稳定,投资者应结合其他定量和主观判断使用。[page::22]

深度阅读

证券研究报告详尽解读分析


报告题目:另类数据新闻情绪在多因子选股中应用初探
作者:王程畅、徐建华
发布机构:中信建投证券股份有限公司
发布日期:2024年3月13日
研究主题:基于新闻情绪的多因子量化选股策略研究,覆盖中国A股市场,重点探索新闻情绪因子及其时间序列拓展因子在多因子选股中的应用价值。

---

一、元数据与整体概览



本报告围绕新闻情绪在股票市场多因子选股中的应用,具体济于利用NLP技术对中国境内主要财经媒体及微信公众号的新闻数据进行情绪提取,构建了两个关键基准因子——SENTI和SENATT,并通过时间序列拓展算子生成更多时序因子,测试其在截面策略中的有效性。报告核心结论显示,新闻情绪因子可显著提高选股策略的收益率,多空组合年化收益率显著高于市场基准,且扩展后的时序因子具有一定预测能力,尤其是在截面化的多因子框架下具备应用潜力。报告对因子构造、因子测试、时序特征提取和风险因素均做了细致介绍,[page::0-22]。

---

二、逐节深度解读



2.1 新闻数据来源与情绪构建(1-8页)


  • 数据广度与实时性:报告使用ChinaScope数据库,覆盖超过1000个新闻站点、7000多个版面及1700个财经微信公众号,几乎囊括所有主流财经媒体及政府和行业网站,日均爬取去重新闻突破2万条,及时性极强(解析入库不到1秒),每30分钟推送一次实时数据流。

- 标签与情绪多维提取:通过NLP技术对新闻内容进行关键词提取、标签识别(公司、行业、产品、事件、地域等),并计算三类情绪值(中性、正面、负面),支持情绪和相关性精细量化,进而构建综合性市场情绪图谱。
  • 对比优势:与国际主流情绪数据库(彭博、路透、RavenPack)相比,ChinaScope突出了中文覆盖和国内市场的专业性,三分类情绪体系以及更丰富的关联性计算(公司、事件、产品链条),标志着其数据的差异化及深度[page::3-7]。

- 情绪算法综合:结合传统机器学习与深度学习(CNN、BERT、XLNet),多模型融合提升情绪分析准确率(整体准确率>87%,正面准确率95%,负面召回97%),其中BERT和XLNet在上下文理解、长距离依赖捕捉方面表现突出,确保情绪提取的准确性和全面性[page::5-7]。

---

2.2 新闻情绪基准双因子构建(8-13页)


  • SENTI因子:基于高相关度新闻(relevance>0.3),结合新闻发布时间的时间衰减函数,综合估计单日单股的情绪得分,因子日度IC均值达0.073,说明具备较强的截面预测能力。[page::8,9]

- SENATT因子:融合SENTI情绪得分与市场关注度(关注度排名),形成更加动态且综合的市场情绪因子,日度IC为0.0613。[page::8,9]
  • 因子测试流程:2018年至2023年样本评测,去除涨停和ST股票,采用截面标准化及市值加权,确保因子数据可交易且稳定。[page::10]

- 有效性与回测结果
- 两因子均表现良好,IC均值与信息比率均显示出较强的统计显著性;
- 分层回测中,多空组合年化收益分别为SENTI约30.37%,SENATT约34.16%,超额收益明显;
- 最大回撤均低于20%,波动率适中,夏普比率和信息比率均较高,策略稳健;
- 小盘股权重高,积极新闻对小盘股的股价推动更明显,市值加权配置降低波动但牺牲部分收益机会;
- 换手率较高,反映新闻热点时效性强,策略依赖频繁调仓捕捉市场情绪动态。[page::11-13]

---

2.3 时间序列拓展因子(14-21页)


  • 理论依据:报告指出新闻情绪对股价非即时且延续影响,前期新闻铺垫可能助力后续股价动量,因而提取基准因子SENATT的丰富时序特征,以捕捉此次演化中的规律和周期性。[page::14]

- 时序特征算子
- 利用tsfresh等开源框架中的多种统计、傅里叶变换、小波变换、熵计算等算子,覆盖能量、最大值、自相关、线性趋势、峰度、复杂度、熵等多维特征。
- 通过这些算子,捕捉时间序列的幅度、频率结构、趋势及波动特征,形成208个时序拓展因子,为截面策略提供丰富信号源。[page::14-16]
  • 时序因子有效性分析

- 按IC均值绝对值筛选出24个有效因子;
- 虽然时序因子整体IC水平弱于传统截面因子,但仍表现出一定的预测能力;
- 报告指出时序因子侧重于单一资产的时间演变,易受非随机市场动态影响,相较之下截面因子更适应即期市场环境和异质性资产间区别;
- 结合时序特征后,部分因子表现出良好的单调性和分层收益,多空组合年化收益多在15%-36%之间,夏普比率和信息比率均表明策略风险调整后收益仍具吸引力。[page::16-21]
  • 部分代表性因子深度回测亮点(图20-25)

- 连续小波变换因子(senattcwtcoefficientscoeff11w5widths):多空组合年化收益近19%,夏普比率1.85,信息比率1.07;
- 分位数变化因子(senatt
changequantilesfaggmean):多空组合年化收益超过34%,夏普比率2.25;
- 快速傅里叶变换实部和虚部相关系数因子(fftcoefficients):多空组合收益达18%-23%,夏普比率均超过1.0;
- 线性趋势截距和斜率因子:多空组合年化超额收益超过30%,风险调整指标良好,表现突出。

这些结果说明,时序特征不仅补充了基准情绪因子的预测维度,更用其截面化能力为多因子策略优化提供了理论支持和实证依据。[page::19-21]

---

2.4 总结与风险提示(22页)


  • 综述:通过大规模中文新闻数据与先进NLP技术,成功构建了强具预测能力的新闻情绪因子,且新闻时序特征拓展给出新的视角,丰富了多因子选股策略的维度。两个基准因子的稳定高超额收益率及时序拓展因子的有效性验证,体现新闻情绪在中国A股中不可忽视的投资价值。该研究为时序因子截面化及多因子组合策略提供了新的思路。[page::22]

- 风险提示
- 模型依赖历史数据和历史规律,存在失效风险;
- 宏观环境变化、黑天鹅事件和量化模型局限可能导致未来策略表现波动;
- 新闻情绪因子在行情低迷时可能面临收益缩减,策略表现不稳定;
- 建议结合定性分析,合理规划组合风险。

---

三、图表解读


  • 图表1(新闻数据源样例图)

展示了新闻数据处理流程,包括对原始新闻的智能摘要、情绪提取及多维标签构建,体现数据处理的多层级、多维度特征提取过程,确保情绪因子的丰富性和准确性。[page::4]
  • 图表2(新闻数据对比表)

该表清晰对比了Bloomberg、Reuters、RavenPack与ChinaScope四大新闻情绪数据服务的覆盖范围、语言、历史数据起源、情绪分类等,突出中国市场特色的深度覆盖与中文语境优势。[page::5]
  • 图表3(情绪算法流程图)

详细展示了标签识别、新闻情绪分析和主体情绪分析三种算法的流程,凸显多模型融合以及深度学习与传统方法结合以提升准确率的技术路线。[page::5]
  • 图表6(因子测试流程图)

展现了因子数据处理全链路,从异常处理、截面标准化、去除非交易股、分层回测到IC测试,保障因子评估的严谨和科学性。[page::10]
  • 图表7(基准因子有效性测试)

显示SENTI与SENATT因子IC均值分别为0.073和0.061,IR均值较高,且两个因子均能稳定获得正向IC,占比超过70%,统计显著性强,表明因子具备中期稳定预测能力。[page::11]
  • 图表8&9(基准因子分层回测)

分层净值曲线显示高因子组表现优异,低组持续疲软,多空组合收益平滑上行,验证因子有良好区分能力和风险调整后盈利性。[page::11]
  • 图表10(多空组合关键指标)

年化收益率最高达到34.16%,最大回撤控制在20%以下,夏普比率最高2.52,信息比率2.94,胜率均超过50%,表明策略不仅赚钱且风险合理。[page::12]
  • 图表11&13(多头层年度收益统计)

等权配置收益显著优于市值加权,其中小盘股更活跃、获益明显,显示新闻情绪因子偏好成长性与信息敏感小盘股,强化了该策略在结构上的特点。[page::12,13]
  • 图表14(多头层股票表现统计)

配置频次较高的大盘股表现波动较小,正收益胜率低于小盘股,符合经典小盘效应的预期,市值加权降低收益的因由得以验证。[page::13]
  • 图表15-17(时序特征提取算子介绍)

罗列了常用时间序列统计特征,如能量、自相关、熵、傅里叶小波变换等,展示了因子维度的多样化和细粒度时序分析的可能性。[page::14-16]
  • 图表18(时序因子有效性测试)

展示了部分时序因子的IC均值和统计特性,表明部分时序特征因子在截面策略中具备一定预测能力,尽管指标略逊于传统因子,但仍有应用价值。[page::17]
  • 图表19(分层回测因子说明)

描述24个有效时序因子的基本属性,囊括连续小波系数、快速傅里叶变换系数、线性趋势斜率截距等,展示研究成果的多样性。[page::18]
  • 图表20-25(代表性时序因子分层回测)

各代表因子均展示出良好的分层单调性和较好风险调整收益,部分因子多空组合年化超额收益超过30%,表现稳健,验证时序特征截面化的有效性。[page::19-21]

---

四、估值分析



本报告主要聚焦因子构建及策略回测,并未包含具体的公司估值模型或目标价,因此无传统DCF、市盈率等估值内容。研究重点在于新闻情绪因子设计、测试及策略表现。

---

五、风险因素评估


  • 模型历史有效性风险:历史规律可能失效,尤其面对非典型事件[page::22]。

- 市场环境风险:宏观环境复杂,经济政策调整可能使模型短期表现不佳。
  • 因子适用范围:新闻情绪因子适合在市场情绪活跃期捕捉超额收益,行情极端或市场悲观时收益波动较大。

- 数据覆盖局限:依赖新闻数据的及时性和准确性,新闻来源或质量变化可能影响结果。
  • 策略换手率高:对应交易成本风险较大,尤其在流动性较差的市场环境下。

- 建议:结合定性分析,动态调整策略,规避黑天鹅及结构性风险。

---

六、批判性视角与细微差别


  • 潜在偏倚:因子设计依赖新闻数据的搜集与NLP算法,对于隐晦情绪或新闻延迟反映可能存在盲点。

- 市值加权策略表现打折扣:基准因子及时序因子均显示明显小盘偏好,市值加权策略收益下降,表明因子可能更适合高波动小盘股投资,投资者须明确策略适配的市场结构和风险偏好。
  • 时序因子IC整体较低:说明虽然时序信息有帮助,但单靠时序特征预测截面收益能力有限,时序拓展更多作为辅助维度。

- 新闻情绪的时效性与稳定性矛盾:换手率高提示策略捕捉短期情绪峰值,但也增加交易成本和噪声风险,实操中需权衡。
  • 未涉及交易成本及滑点,高换手率策略实际净收益需谨慎估计。

- 缺乏对比基准:未量化对比其他传统因子组合的超额收益,后续报告建议补充。

---

七、结论性综合



本报告通过覆盖广泛的新闻源和先进NLP技术,成功构建中国A股市场新闻情绪基准因子SENTI和SENATT,日度IC均稳健,且多空组合年化收益率均超过30%,显示落地实用价值。进一步的时序拓展分析揭示,新闻情绪的时序特征虽较截面因子预测能力有差距,但部分时序因子单调性良好,多空组合年化超额收益可达30%以上,验证了其在投资策略中的补充作用。报告严谨的因子构建流程、详实的多维数据和丰富的统计指标构成了坚实的量化研究框架。

报告同时客观指出模型风险与局限,提醒投资者历史规律存在失效风险,策略高换手率带来成本和交易风险,强调结合宏观和定性分析的重要性。整体而言,新闻情绪因子特别是结合关注度和时序拓展后的综合因子,是传统量化因子之外有效扩展多因子选股框架的重要突破,为投资策略的创新提供了有力技术和数据支持。

---

主要图表示例(Markdown格式示例)



图表1:新闻数据源样例图


新闻数据源样例图

图表8:SENTI因子分层回测净值曲线


SENTI因子回测

图表9:SENATT因子分层回测净值曲线


SENATT因子回测

图表20:senattcwtcoefficientscoeff11w5widths因子分层回测


时序因子示例1

图表21:senattchangequantilesfagg_mean因子分层回测


时序因子示例2

---

溯源引用


本分析全文参考原始报告所有内容,具体页码分布按报告页码标注,概括整理,包括分析结论、图表解读和风险提示等均依据:[page::0-27]

---

附言



此份报告代表了当前中国A股市场利用另类数据与自然语言处理技术,结合量化因子和时间序列分析的前沿研究成果,为投资者在市场情绪波动频繁的环境中提供了创新且有效的策略工具。文中底层金融和机器学习技术分析清晰,统计指标详尽,内容翔实可靠,适合专业量化研究员和对多因子选股策略感兴趣的投资者深入研读。

报告