量化新闻情绪, 把握投资先机
创建于 更新于
摘要
本报告基于BERT模型,构建新闻情绪指标,实现对新闻信息的量化提炼。情绪指标显示对股票指数具备短期领先预测能力,构建的杠杆增强策略取得显著超额收益,且情绪热度指标有效捕捉行业热点,尤其在科技板块表现突出,具备风险预警与投资辅助价值 [page::0][page::10][page::11][page::15][page::18]。
速读内容
海外机构对另类数据的关注与布局 [page::3][page::4]


- 2018年41%机构年花费10万至100万美元用于另类数据,22%机构超过百万。
- 机构对另类数据认知提升,预计未来使用占比增长50%。
- 大数据及新闻文本数据广泛用于投资策略,国外如推特情绪数据对市场预测准确率超过86%[page::3][page::4].
BERT模型与情绪指标构建过程 [page::6][page::7][page::8][page::9][page::10]

- 利用Google推出的预训练BERT模型,加以微调,使其能输出新闻正负面情绪概率。
- 以股票收益率作为情绪标签,定义正负样本阈值,进行有监督训练。
- 对每日新闻情绪进行建模,构建综合情绪指标及多种移动平均和差值衍生指标 [page::6][page::7][page::8][page::9][page::10].
情绪指标的领先预测效应及显著性测试 [page::11][page::12]

- 情绪指标与中证全指走势高度一致,情绪指标变化领先指数。
- 相关性测试显示,指标相对5日均值的变化(DIFF5)与未来3日收益相关系数达0.09。
- 线性回归显著性检验表明,DIFF5指标在测试集上置信概率高达90%[page::11][page::12].
| 指标 | ret1 (测试集) | ret3 (测试集) | 置信概率 (测试集) |
|-------|---------------|---------------|-------------------|
| DIFF5 | 0.07 | 0.09 | 90% |
两次市场拐点行情情绪指标表现 [page::13]

- 2015年6月市场高点前情绪指标呈现明显先行下跌,市场指数随后下行。
- 2019年8月行情中,情绪指标上涨领先股指反弹。
- 极端负面和正面新闻集锦反映情绪指标有效捕捉市场风险与热点。
情绪指标应用一:短期风险防范 [page::14]

- 情绪指标变化与未来一天收益正相关,能有效提示市场大幅下跌风险。
- 2020年春节前夕表现出明显悲观情绪,恰逢疫情爆发,市场大幅回撤。
情绪指标应用二:杠杆增强策略 [page::15][page::16]

| 时间 | 总收益(%) | 年化超额收益(%) | 超额收益年化波动率(%) | 最大回撤(%) | 信息率 | 索提诺比率 |
|--------|----------|----------------|---------------------|------------|--------|------------|
| overall| 1477.12 | 38.25 | 19.89 | 22.37 | 1.92 | 3.59 |
| 2020 | 14.84 | 57.26 | 24.20 | 8.27 | 2.37 | 5.01 |
- 利用情绪指标相对5日均值门槛决策期货多空头,策略显著跑赢沪深300指数。
- 策略收益稳定,夏普及信息率表现良好,最大回撤可控。
情绪指标应用三:科技板块热点发现 [page::17][page::18]

- 以行业情绪分数加总构建热度指标,关联行业指数超额收益。
- 电子、通信、计算机三大科技板块情绪热度与股价表现正相关。
- 利用情绪指标捕捉行业热点板块、行情启动点,提高选股和热点识别能力。
深度阅读
报告深度分析:“量化新闻情绪,把握投资先机”——基于BERT模型构建情绪指标的投资价值研究
---
一、元数据与概览
- 报告标题: 量化新闻情绪,把握投资先机
- 作者及团队: 王兆宇(首席量化策略分析师)、赵文荣(首席量化与配置分析师)、马普凡、张依文(量化策略分析师均来自中信证券研究部)
- 发布机构: 中信证券研究部
- 发布日期: 2020年6月2日
- 研究主题: 利用自然语言处理技术——BERT模型,量化新闻情绪,构建情绪指标,并探索其在短期风险防范、杠杆增强策略和行业热点发现中的应用。
- 核心论点:
1. 新闻舆情蕴含极其丰富且及时的投资信息,量化新闻情绪指标有助于把握市场投资先机。
2. 相较于传统情绪词库匹配,基于BERT的深度学习模型能更精准、自动化地提取新闻中的情绪信息。
3. 构建的情绪指标具有一定的领先性和显著的预测能力,尤其在3日内的短期内对收益有统计意义。
4. 基于情绪指标能设计出有效的杠杆增强策略,并辅助发现行业热点。
- 风险提示: 模型存在过拟合风险、识别的情绪与实际差异、舆情数据的可得性及连续性风险。
整体来说,报告旨在通过前沿技术引入新闻情绪信息的量化工具,挖掘其对投资决策的实际辅助价值,表现出较为创新且应用性强的研究立场[page::0, 3, 6, 18]。
---
二、逐节深度解读
1. 投资聚焦与行业背景
- 关键论点:
随着互联网和信息技术的发展,数据量呈现爆炸式增长,尤其是新闻文本数据。新闻作为信息传播的重要节点,反映和引导市场情绪,具有较强的投资导向意义。传统方法过分依赖词库且难以应对大规模非结构化数据,需要更强大的技术手段。
- 逻辑及证据:
- 根据中国互联网络信息中心报告,截至2019年6月,中国网民达8.54亿,网络新闻用户6.86亿,占80%以上。IDC预测2025年每日每人数据互动将达4785次,是2020年的8倍。
- 传统规则方法难以批量处理新闻文本的非结构化特点。
- 结论: 新闻情绪量化的高价值与需求背景明确,强调采用BERT模型提升处理与提炼能力[page::3].
2. 海内外另类数据关注及市场布局
- 关键论点:
机构对另类数据投入巨大,尤其大型资管机构;对此类数据的认知和应用正在增长,尽管目前主流仍为内部研究及传统投研,但期待未来另类数据占比提升。
- 数据点解读:
- 2018年有41%机构每年花费10-100万美元购买另类数据,22%花费超百万美元。
- 资产规模较大的机构(>250亿美元)预算更高,达147万美元。
- 另类数据目前作为主要来源的小众(3%),但50%机构预期未来增长。
- 结论: 市场对非传统数据的重视快速上升,投资者愿为数据及技术买单[page::3, 4].
3. 国际新闻数据情绪研究现状
- 关键论点:
- 国际学术和实务界利用社交媒体及搜索词频构建情绪指标具有一定预测力。
- 如Twitter情绪指标与道琼斯指数涨跌正相关,预测精度高达86.7%。
- 欧洲央行研究用“牛市”、“熊市”词频预测美股指数未来收益显著有效,每提高一标准差,未来一日上涨0.1256%。
- Two Sigma发起AI新闻预测股票趋势竞赛,显示机构对技术的兴趣和投资。
- 结论: 以互联网文本数据为代表的另类数据在提升投资研究中的作用得到实证支持与市场验证[page::4, 5].
4. 国内应用现状及市场表现差异
- 关键论点:
国内已有若干互联网大数据基金,采集来源主要是京东、百度等。
- 数据点: 多只基金成立于2015-2017年,类型涵盖股票型与混合型,资产规模从几亿到几十亿不等。
- 观察: 业绩分化明显,表现优异基金排入前10%,技术壁垒突出,推动技术升级尤为关键。
- 结论: 中国另类数据基金虽成长,但仍处技术与实用性探索阶段,拥有较大提升空间[page::5].
5. 模型篇——情绪识别模型与指标构建
- 解决方案流程:
- 模型预训练(采用Google公开的BERT-Base Chinese)
- 利用收益率给新闻打标签(监督信号)
- 模型微调(基于打标签数据进行二分类训练,训练集9:1拆分)
- 新闻情绪预测输出0-1之间的概率
- 构建情绪指标(当天所有新闻情绪分数算术均值等)
- 应用于避险、杠杆增强、热点发现等策略
- 技术解释: BERT是迁移学习框架,先用大语料预训练,在小语料上微调,克服传统规则方法断章取义缺陷。
- 训练参数说明: 批大小32,学习率5e-5,最大序列长度128步,2500步无提升停止训练。
- 标签赋予逻辑: 新闻按收盘时间划分归属日,用$t-2$日到$t+1$日收益率打标签,涨幅超10%为正,跌超9.09%为负。
- 结论: 技术成熟,BERT在情绪识别具备天然优势,收益率标签则创新地利用市场反馈增强标签准确度[page::6, 7, 9, 10].
6. 情绪指标及衍生指标定义
- 情绪分数:模型输出概率映射至[-1,1]区间。
- 情绪指标(SENT):每日所有新闻情绪分数平均。
- 情绪热度(SUMSENT):每日新闻情绪分数求和。
- 均线指标(MA5, MA10, MA20):情绪指标的移动平均线。
- 差分指标(DIFF, DIFF5等):指标与前日或均值的差值,反映情绪变化速率。
- 表格2完整展示了指标公式及含义[page::10, 11].
7. 观察篇——情绪指标领先性和显著性
- 实证表现:
情绪指标与中证全指趋势一致,且具有领先性,尤其情绪指标变化速率(如DIFF5)相对于指数未来1日和3日收益表现出正相关,最高相关系数达0.09,统计意义显著(置信概率90%)。
- 关键示例:
- 2019年2-3月情绪与指数同步上涨。
- 2020年1月情绪提前反映市场悲观,指数随后大幅下跌。
- 统计检验:
- 训练集相关性最高达0.26(20日回报),测试集虽下降但仍存在预测信号。
- DIFF5指标相关性和回归系数在测试上均表现较好,是关键指标。
- 结论: 情绪指标尤其是变化率指标捕捉短期市场情绪变化有效,具备信息领先性[page::11, 12].
8. 情绪指标在典型行情拐点的表现
- 2015年6月牛熊切换时,情绪指标提前下降超过一周,指数随后转跌。
- 2019年8月市场下跌时情绪回暖,指数稳定回升。
- 极端负面新闻多涉及违规、爆雷、体制缺陷等,极正面新闻涉及5G、芯片、利好政策等。
- 通过对应极端新闻标题,指标的情绪反映真实市场状况。
- 结论:情绪指标能够反映并预测市场转折,体现了敏感的投资情绪捕捉能力[page::13, 14].
9. 应用篇
短期风险防范
- 情绪指标变化与未来指数收益正相关。
- 能够提前检测高风险时点,如2015年三次大跌起点和2020年春节疫情爆发前情绪急剧下滑。
- 结合相关新闻,减少损失风险。
杠杆增强策略
- 策略逻辑:当情绪指标相对5日均值超出上下阈值时,做多或做空股指期货。
- 主要参数:阈值±0.02,保证金10%,手续费5‰。
- 策略效果:自2011年至2020年4月,净收益1477%,年化超额收益38.25%,信息率高达1.92;2020年收益14.84%远超沪深300 -4.49%。
- 说明情绪指标在实盘策略中有效地增强了投资组合表现。
行业热点发现
- 利用行业成分股新闻情绪构建情绪热度指数(采用加总而非均值以体现“热度”)。
- 通过计算行业情绪对中证全指情绪的相对差异及其变化,预测行业收益的超额表现。
- 电子、通信与计算机行业案例分析均显示,行业情绪领先行业指数超额收益表现不俗。
- 典型题材如2019年5G,2013年通信4G建设,2013年信息安全“棱镜门”事件均在情绪指标中有明显反应。
- 结论:行业情绪指标可量化行业热度,辅助发现和捕捉行业热点主题投资机会[page::15-18].
---
三、图表深度解读
图1-4:海外机构另类数据投资现状(页3-4)
- 图1显示2018年投资机构在另类数据上的预算分布,41%机构投资10万-100万美元,22%超过百万。
- 图2展示管理规模越大机构预算越高,小于20亿美元机构平均35.7万美元,超过250亿美元机构近147万美元。
- 图3、4展示当前另类数据虽为小众来源但预测未来增长意愿强烈。
- 意义:表明大资管机构对另类数据的重视趋势及市场规模,为本报告应用背景提供数据支撑。
图5(页6):模型训练到应用流程
- 展示采用预训练+微调的BERT模型进行训练、预测、构建指标及应用,流程清晰且切合报告主体技术路径。
图6-9(页7-10):BERT模型原理及新闻数据量
- 图6说明预训练及微调工作原理,突出迁移学习优势。
- 图7-8介绍词向量与遮掩字符预测的原理,图例示例清晰。
- 图9显示2011-2020年新闻数据量增长趋势,明显增长反映数据可用性及模型训练条件充足。
图10-12(页11-12):情绪指标与中证全指走势对比
- 图10长期趋势展示二者走势同步且情绪指标具有一定先行性。
- 图11-12分别详述2018及2019-2020年具体行情阶段的联动细节,验证情绪指数对指数走势的解释力。
表3-4(页12):相关性与显著性测试
- 通过多个指标不同未来期回报的相关系数测试,证明情绪指标,尤其DIFF5对收益具有正相关预测能力。
- 回归系数具有统计显著性,检验结果提供了强有力的实证基础。
图13-14及表5-6(页13-14):历年典型行情拐点
- 图13(2015年)及图14(2019年)行情拐点情绪指标明显波动领先指数,且对应极端情绪新闻内容与市场实际相符,表明模型识别准确可靠。
图15-16及表7(页14):情绪指标与未来收益相关性及疫情风险案例
- 图15-16分别为训练和测试时期的情绪变化与未来收益关系散点图,验证模型稳定性。
- 表7通过疫情爆发期间典型负面新闻展示情绪指标在重大事件风险预警中的实际功效。
图17及表8(页15-16):杠杆增强策略净值及绩效
- 图17显示杠杆增强策略净值长期领先沪深300,且策略在训练和测试期均表现良好。
- 表8给出策略详细收益率、波动率、信息率等指标,表现出稳健领先优势。
图18-23及表9-11(页17-18):行业热点发现案例分析与情绪指数走势
- 图18-23展示电子、通信、计算机三大科技细分行业情绪指数与行业相对指数波动对比,呈现趋势整体一致性和积极关联,提示情绪指数作为行业热点指标具备实际选股指导意义。
- 表9-11提供典型时期行业重要新闻及其对应情绪分,强化行业热点挖掘的具体表现。
---
四、估值分析
本报告为策略专题研究,侧重于方法构建与应用,未涉及传统意义的公司估值模型和目标价设定,故无估值分析章节。
---
五、风险因素评估
报告重点提醒以下风险:
- 模型过拟合风险: 训练数据过度拟合可能导致模型泛化能力不足,对未来数据表现不稳定。
- 识别偏差风险: 模型的情绪识别结果与实际市场投资者真实情绪之间存在差距。
- 舆情数据风险: 新闻数据的可获得性、连贯性及更新频率存在不确定性,影响指标稳定性。
此外,报告未详述缓解策略,仅提示以上风险存在,提醒投资者警惕技术和数据限制[page::0, 18]。
---
六、批判性视角与细微差别
- 模型标签的选择局限性: 利用股票收益率作为情绪标签虽创新,但市场收益受多种因素共振影响,个别新闻所反映情绪的准确性可能被稀释,标签潜在噪音值得注意。
- 测试集相关性下降明显: 训练集相关系数较高(最高0.26),测试集下降至0.09左右,说明模型泛化仍有提升空间。
- 新闻情绪覆盖范围及数据获取限制: 报告未深入说明所使用新闻数据源的覆盖范围以及新闻筛选标准,潜在存在数据代表性偏差。
- 杠杆策略风险未充分讨论: 虽然杠杆增强策略展现业绩,但策略风险控制细节不多,尤其杠杆风险及实盘交易滑点可能影响表现。
- 行业热点发现定量验证有限: 虽有相关性统计,但未说明相关性强度及稳定性阈值,对热点预测的具体实现机制可展开更多探索。
- 情绪指标的解释力度有限: 情绪指数对指数收益的解释力虽有统计意义,但相关系数值整体偏低,不足以做为独立决策依据,仅作为辅助工具更合适。
总结,即报告虽充分展示了BERT模型的先进应用,但对模型假设、数据质量和策略风险的深度讨论仍可加强。
---
七、结论性综合
本报告系统呈现了利用Google提出的BERT深度双向Transformer模型对新闻数据进行情绪识别的创新方法,突破传统基于词库的局限,实现了在大量非结构化新闻文本中捕捉投资者情绪信息的跨时代进步。通过以市场收益为标签训练模型,构建了一套完整的情绪指标体系,并验证该指标在捕捉市场短期走势、预警风险及指导交易为策略的显著有效性。
主要贡献表现在三个应用方向:
- 市场情绪领先性与短期预测能力明确:
情绪指标尤其是变化率指标,在中证全指收益率的1-3日窗口内显著领先,具备高达90%的置信度支持其统计意义。其中,指标能敏感反应2015年牛熊切换及2020年疫情爆发的重要市场节点,验证其实际预警功能。
- 基于行情情绪指标的杠杆增强交易策略:
该策略利用情绪指标及其相对均值的阈值信号进行股指期货多空操作,历史累计超额收益超过1400%,2020年表现较沪深300指数领先逾19个百分点,凸显情绪指标可将非结构化文本信息转化为可实操的投资信号。
- 行业热点发现及热点驱动主题投资:
通过计算行业成分股新闻情绪的累积分数,构建行业情绪热度指数,与该行业指数相对表现高度相关,尤其对于科技板块表现突出。实证案例(5G、通信4G、信息安全)明确揭示情绪热度作为主题投资的领先指引作用。
此外,报告也认真指出了模型过拟合、标签噪音、数据连续性等风险,保持了对技术应用局限的审慎态度。
整体而言,本文不仅深化了情绪分析在量化投资领域的实践,并以最新的自然语言深度学习技术韧性地升级传统投资情绪捕捉方法,为市场参与者开辟了利用新闻情绪把握投资先机的全新路径。
---
附:关键图表示意(部分示例)
- 图1:2018年机构另类数据预算分布,显示41%机构年投入10-100万美元,预算规模呈右偏分布。

- 图10:情绪指标20日均线与中证全指走势对比,情绪指标表现出领先性与对应走势。

- 图17:杠杆增强策略净值大幅超越沪深300指数,体现策略强劲表现。

- 图18:电子行业相对情绪指数与指数表现对比,揭示行业热点发现有效性。

---
参考文献及数据来源: 中信证券研究部,wind,東方財富網,greenwich.com及公开数据[page::0-20]。