`

大数据系列(1)舆情事件特征分析—2021 年金融工程中期策略

创建于 更新于

摘要

本报告基于大数据舆情事件,分析了舆情事件的自相关性及持续时长对股市表现的影响。研究发现舆情事件产生后,股市表现具明显相关性且随时间衰减;舆情事件持续较长时,投资胜率超过50%;搜索热度与社区交互热度之间相互依存关系最高,且搜索热度领先社区热度时,后续行情胜率明显提升[page::0][page::6][page::8][page::11][page::13]。

速读内容


舆情数据概述与舆情指数示例 [page::2][page::3][page::4]




  • 介绍了百度指数、巨量算数指数、360趋势、微博指数、微信指数等多来源的舆情数据指标。

- 不同平台对关键词热度的测量侧重点不同,涵盖搜索指数、资讯指数、媒体指数及综合声量指标。

舆情事件识别与持续时长分析 [page::5][page::6]



  • 利用事件识别方法捕捉舆情事件发生点。

- 搜索与平台社区交互事件持续时长较长,新闻事件中超长时长少见。
  • 不同行业舆情事件触发当日收益差异不大,搜索舆情收益表现明显。[page::5][page::6]


舆情事件股市表现及收益相关性分析 [page::6][page::7][page::8]





  • 舆情事件发生后股票收益与未来收益存在正相关,相关性随时间递减。

- 沪深300指数自相关较弱且无衰减,舆情相关事件显示较强自相关减少趋势。
  • 舆情事件后续收益胜率随事件持续时间延长而提升,尤其5日、10日收益较正。


多空收益与胜率分析 [page::9][page::10]




  • 多空交易方向分析表明,事件持续时间越长,正收益越显著,胜率随之提升。

- 平台社区交互事件收益表现低于搜索事件,尤其短时长事件胜率不高。
  • 搜索事件收益明显优于平台社区交互事件。


不同舆情类型事件的相互依存与时间关系 [page::11][page::12][page::13]







  • 搜索与社区热度相互依存最强,新闻热度领先较少。

- 搜索热度领先社区热度时,未来行情胜率显著高于50%。
  • 搜索领先社区的舆情事件持续时间显著更长。

- 搜索-新闻热度事件的相互影响较少,但搜索领先新闻时,胜率亦显著提升。

深度阅读

《大数据系列(1)舆情事件特征分析—2021年金融工程中期策略》研究报告详尽分析



---

1. 报告元数据与概览


  • 标题: 大数据系列(1)舆情事件特征分析—2021年金融工程中期策略

- 分析师: 吴俊鹏(联系方式及登记编码详见报告)
  • 发布机构: 中国银河证券研究院

- 日期: 2021年中期(具体日期未标注,背景数据截止至2021年6月左右)
  • 主题: 互联网大数据与舆情事件对资本市场股价表现的影响分析,重点在舆情事件与股票收益、胜率的相关性及持续时间特征,以及不同舆情类型(搜索、平台社区交互、新闻报道)之间的相互影响。


核心观点
  • 舆情事件具有较高的自相关性,随着时间推移相关性递减。

- 持续时间较长的舆情事件,投资胜率超过50%,持续时间短的事件多且噪声影响较大。
  • 搜索热度与平台社区互动热度相互依存更强,新闻报道常滞后于搜索与社区热度。

- 搜索热度领先社区热度时,事件后的市场胜率明显偏高。

报告整体通过大量舆情数据库指标(百度指数、巨量算数指数、360趋势、微博、微信指数等),结合中证500成分股价格,实证舆情事件对市场的影响,力求揭示互联网大数据下舆情事件的特性及其投资应用可能性。[page::0,2-3,13]

---

2. 逐节深度解读



2.1 舆情数据概述



报告首先介绍国内外主流舆情数据来源:
  • Google Trends代表国外数据源,国内涉及百度指数、巨量算数指数(今日头条与抖音数据)、360趋势、微博指数、微信指数等,并附上各指数的定义及计算方法(搜索指数、资讯指数、媒体指数、头条指数、抖音指数等),详细说明了指标的构成,强调这些指数反映关键词相关网络行为的热度变化。[page::2-4]


图示包括百度指数(图1)、巨量算数指数(图2)、360趋势(图3)、微博指数(图4)、微信指数(图5),生动呈现互联网用户关注度的时序波动。

同时,报告以新冠疫情(图6)和响水爆炸事故(图7)两个实际事件展示舆情指数的时间动态,说明舆情指数对重大突发事件的强烈反应。

此外,介绍根据舆情指数构建“事件”概念,通过峰值识别方法定位事件发生时间(图8),并区分搜索、社区交互、新闻报道三类舆情数据。[page::4-5]

2.2 舆情事件持续时长分布与行业收益分析



报告基于中证500成分股统计了不同类型舆情事件持续时长分布(图9),发现:
  • 搜索和社区舆情事件持续时长分布相似,均以短期事件为主。

- 新闻事件中超长时间跨度事件比例较低。

按行业统计了舆情事件首次触发当日的股价收益率(图10),显示搜索事件触发对应股票收益明显,舆情和新闻事件整体影响较弱,且行业间差异不大。

进一步分析了不同时间点T0(事件触发当日)、T1、T2、T5、T10及事件全程TL期间的股价收益(图11):
  • 事件触发当日收益整体正面,随后收益趋向下降甚至负值,提示舆情事件初期市场积极响应,但后续市场反应复杂。

- 行业间收益表现存在差异,部分如石油石化、煤炭、轻工制造等行业表现相对积极。[page::6]

2.3 舆情事件表现的统计相关性



报告以汽车行业个股为例(图12),绘制不同时间点收益与T0收益的散点图:
  • T0与T1收益呈正相关,随时间推移,相关性逐渐减弱,短期内舆情事件往往对收益走势具有一定预示作用。


沪深300指数自相关分析(图13)显示整体指数收益自相关系数在0.04左右,且无明显衰减,远低于舆情事件股票收益的相关性水平。

相应地,舆情事件收益相关矩阵(图14)表明,T0与其后不同时间点的收益相关系数依次0.163(T1)、0.16(T2)、0.09(T5)和0.06(T10),均显著高于基准指数,且随时间衰减。这验证了舆情事件带来的市场反应存在较强时效性。[page::7-8]

2.4 舆情事件投资胜率及收益分析



单边多头策略下,事件5天收益(T5)与事件持续时间之间的关系(图15)显示:
  • 持续时间短的舆情事件收益率与胜率较低,且胜率均未超过50%。

- 随着事件持续时间增长,收益和胜率呈现明显提升趋势;
  • 事件数量高度集中在短持续时间,存在显著噪声。


引入多空策略(形成对冲)后,胜率和收益均得到提升(图16-17):
  • 多空策略使不同时长事件的胜率均超过50%,表现更显著。

- T5收益在事件持续7天以上显著为正,T10收益在持续10天以上表现同样正向。

这说明结合多空交易视角能够更好捕捉舆情事件的市场影响,且长周期事件更具投资价值。[page::8-9]

2.5 其他舆情事件表现分析与比较


  • 平台社区交互事件(舆情数据)收益及胜率统计显示,短周期事件中依旧无法获得正向显著收益(图18)。

- 搜索事件收益高于社区交互事件(图19),搜索舆情对市场影响更为直接和显著。[page::10]

2.6 不同类型舆情事件相互关系分析



报告重点探讨搜索热度、社区平台热度和新闻报道热度三种舆情事件之间的时间先后关系:
  • 以时间序列重叠的低斯核函数拟合图(图20)展现三者热度峰值分布,不同舆情事件存在明显时间错位。

- 统计事件发生时间的领先滞后分布(图21)指出:
- 搜索热度与社区热度交互较强,时间延迟分布对称,即两者领先滞后次数相近。
- 新闻热度多数情况下滞后于搜索与社区热度,领先的场景明显较少。
  • 搜索领先社区事件时,市场胜率显著提升(图22),其中领先一天以上通常带来大于50%的胜率。

- 搜索事件按其与社区热度的相对时序分为四类:全部事件(Origin)、滞后(lag)、同步(synchronous)、领先(lead)(图23)。
- 领先类事件的持续时间明显较长(图24),表明领先搜索舆情多具备较强持续性。
  • 搜索热度领先新闻热度的情况较常见,且带来超过50%的胜率(图25)。

- 三类舆情事件同时发生的次数极少,且新闻领先搜索与社区的情况更稀少。[page::11-13,14]

---

3. 关键图表解读详述



表1:大数据基金概况(页2)


  • 展示2015年至2017年间成立的多只大数据主题基金代码、类型、成立时间、基金经理及规模。

- 说明大数据主题投资具备一定成熟度,存在被动指数型及灵活配置型基金,基金经理多变且管理规模不一,显示该领域投资发展活跃。

图1~5:舆情指数示意(页2-4)


  • 百度指数、巨量算数、360趋势、微博指数和微信指数是当前中国互联网舆情数据的主要来源,各自代表不同的平台和受众。

- 各图展示了关键词“高考”在平台的搜索热度与舆情热度变化,强调数据来源广泛且有一定区别,需综合考虑。

图6、7:典型舆情事件示例(页4-5)


  • 新冠疫情及响水爆炸事故分别代表长期持续与单次突发事件。

- 举例说明舆情指数对现实事件的响应差异及波动特征。

图8:舆情事件识别示意(页5)


  • 通过峰值检测方法标出舆情事件开始时间点,横跨搜索、社区互动与新闻三部分数据。

- 这为后续统计分析确定了事件数据基础。

图9:舆情事件持续时长分布(页6)


  • 直方图与拟合曲线显示,搜索与平台社区事件多为短期(1-3天),而新闻事件持续时间更短,且较少出现长时间跨度事件。


图10、11:分行业收益表现(页6-7)


  • 图10显示当日搜索事件触发对应股票收益显著为正,舆情事件与新闻事件收益较小。

- 图11扩展展示不同时间节点收益,T0日收益普遍正面,之后逐步趋于负值或衰减,反映舆情事件的即时性影响和后效递减。

图12:汽车行业散点图(页7)


  • 多幅散点图体现不同时间点股价收益与T0收益的相关性。

- 定量体现了收益在事件前后不同时间的相关走势,支持相关性变量的实验分析。

图13:沪深300自相关系数(页8)


  • 指出整体指数自相关平稳且较低,不同于舆情事件所驱动的更高相关性,体现事件驱动效应明显。


图14:舆情事件收益矩阵(页8)


  • 展现不同时间收益T0-T10间的Pearson相关系数及调整R²。

- 趋势显示收益相关性逐渐减弱,佐证舆情效应的时效性。

图15-17:舆情事件胜率与收益(页8-9)


  • 多图组合说明短期舆情事件收益和胜率不及长期事件,且多空策略提高了胜率和收益。

- 数据表明长时间持续事件更具投资价值,且多空策略可提升获利概率。

图18-19:平台社区与搜索舆情事件对比(页10)


  • 显示搜索事件带来的收益更高,社区事件短期表现趋势较弱。


图20-25:舆情事件先后关系与胜率(页11-13)


  • 图20以时序峰值示意三类型舆情热度的时间差异。

- 图21用半对数图展示三类舆情事件先后发生的次数分布,新闻多为滞后。
  • 图22、25分别针对“搜索-社区”、“搜索-新闻”舆情事件的领先/滞后对市场胜率的影响,领先时胜率明显超过50%,且事件次数较多的情形更显著。

- 图23-24说明领先情形的搜索舆情事件持续时间显著更长,有助于事件筛选与追踪。

附图1(页14)


  • 进一步补充社区-新闻热度事件的先后关系及胜率表现,与主文分析一致,供参考。


---

4. 估值分析



本报告主要聚焦舆情数据与市场表现的实证分析,未涉及传统的财务估值模型及股票目标价等内容,因此无估值模型及相关估值方法探讨。

---

5. 风险因素评估



报告明确提示:
  • 结论基于历史数据统计规律,A股市场受政策和突发事件影响大,短期内市场可能出现统计规律无效的情形。

- 舆情数据本身带有较大噪声,舆情事件判定和投资策略需谨慎使用。
  • 报告观点供参考,不构成具体投资建议。[page::13]


---

6. 审慎批判性视角


  • 报告较为全面地介绍了多平台、多类型的舆情数据及其实证特征,逻辑严密,数据充分,结论内容合理。

- 潜在偏见和局限
- 多数结论基于统计相关性分析,因果关系推断不足,事件本身的新闻内容及事件性质未深入分类,可能导致解读过于宽泛。
- 市场表现受多因素影响,单一定量指标的解释力有限,尤其对于短时间舆情噪声处置仍不足。
- 新闻舆情事件的统计次数较少,导致结论稳定性欠佳,且报告未深入剖析新闻事件本身特性。
- 市场状态不同阶段(牛熊、波动高低)对舆情事件反应可能不同,报告未明确区分。
- 统计期间为2020年以后,包含特殊疫情影响时期,结果可能受非常时期事件驱动放大,未来推广需谨慎。
  • 细节

- 报告在计算事件持续时间、事件识别阈值及多空交易策略实施细节上,未详细披露,略显不透明,影响复现与策略实操指导。

总体而言,报告提供了良好的舆情数据与市场表现关联的初步分析框架和方法论,具备较强的参考价值,但投资应用前需结合具体事件识别及更细分数据深化研究。

---

7. 结论性综合



这份报告系统地研究了基于互联网大数据来源的舆情事件特征及其对中国股票市场的影响,带来以下深刻见解:
  • 舆情事件具有明显的日期自相关性,事件触发日(T0)及后续短期收益呈现显著相关,但随时间推移该相关性逐渐衰减。

- 舆情事件持续时间为关键影响因素,短期事件多但噪声干扰大,投资胜率不佳;持续时间较长(例如>7天)的事件,股价后续表现稳定向好,胜率超过50%,且多空交易策略能显著提高胜率和收益。
  • 不同类型舆情数据交互复杂,搜索热度与社区热度高度相关且相互领先滞后概率接近,而新闻热度多数滞后,且其领先次数较少。同时,“搜索热度领先社区热度”事件的持续时间更长且对市场的影响更为显著,胜率大幅提升。

- 行业间舆情事件对收益影响较为均匀,搜索事件触发当日大多数行业中表现明显,强调舆情作为信息传递渠道对短期市场情绪的驱动作用。
  • 从实际投资策略角度,结合多空策略和事件时长筛选,有望较好利用舆情数据改善投资决策表现。

- 图表与数据的丰富度高,尤其以图14的收益相关矩阵、图22的搜索-社区领先胜率曲线,以及图24持续时长分布分位数等为核心支撑,提升了研究的可视化理解和可信度。

总体评价:报告立足于大数据时代舆情事件的量化分析,为投资者理解舆情与二级市场的关系提供基础研究支持,推荐对舆情数据投资策略开发及市场情绪分析工作具有重要指导意义,但同时需谨慎关注事件识别及噪声滤除机制,结合市场实际验证和动态调整。

---

参考文献与数据来源


  • 百度指数(index.baidu.com)、巨量算数指数(trendinsight.oceanengine.com)、360趋势(trends.so.com)、微博指数(data.weibo.com)、微信指数(weixin.qq.com)

- 中证500成分股市场数据、中国银河证券研究院自有数据库
  • Wind资讯基金数据[page::2,3,14]


---

本分析全文引用对应页码均已标明,确保信息溯源准确。[page::0-16]

报告