`

The Hype Index: an NLP-driven Measure of Market News Attention

创建于 更新于

摘要

本文提出了基于自然语言处理(NLP)技术构建的Hype Index,用以衡量大型股票的媒体关注度。通过对标普100指数成分股的新闻计数及市值加权,分别构建了原始新闻覆盖的Hype Index和调整市值后的Capitalization Adjusted Hype Index,揭示了媒体关注与经济规模的偏离。实证结果表明,该指数系列在分析股票波动率、市场信号及情绪预测方面具有重要价值,且两个指标高度相关,适用于不同场景的投资风险管理与行为金融研究 [page::0][page::3][page::15][page::16]。

速读内容


Hype Index 及其定义 [page::3]

  • Hype Index通过计算某支股票当天新闻提及占标普100股票全部新闻的比例,反映媒体关注的绝对份额。

- Sector Hype Index为所属板块内所有成分股Hype Index的总和,揭示行业新闻关注度分布。
  • 图1展示了不同板块的原始Hype Index趋势,信息技术和金融板块明显高于其他行业。



Capitalization Adjusted Hype Index 的设计与作用 [page::7]

  • 通过将Hype Index除以股票或板块的市值权重,构建Capitalization Adjusted Hype Index,衡量媒体关注与市值的偏离度。

- 该指标揭示了媒体过度关注或忽视的股票及板块,反映媒体关注的相对“过热”程度。
  • 图4揭示了按该指标分组后的板块媒体关注分布,调整后信息技术板块媒体关注度显著下降。



媒体关注与市值的统计特性及显著性检验 [page::10]

  • Capitalization Adjusted Hype Index及其变动率显著偏离正态分布,表明该指标具有信息含量和复杂动力学。

- 多种正态性检测方法均拒绝其正态分布假设。



Hype Index之间的高相关性及其实用性 [page::11]


| Sector | Correlation Coefficient |
|-------------------------|-------------------------|
| Information Technology | 0.97 |
| Consumer Discretionary | 0.93 |
| Communication | 0.98 |
| Financials | 0.94 |
| Health Care | 0.82 |
| Consumer Staples | 0.96 |
| Energy | 0.88 |
| Industrials | 0.93 |
| Materials | 0.94 |
| Utilities | 0.92 |
| Real Estate | 0.95 |
  • 说明市值权重稳定时,原始Hype Index可以作为Capitalization Adjusted Hype Index的有效代理。


事件驱动的市场影响及行业案例分析 [page::12][page::17-21]

  • 在2024年8月市场暴跌期间,资本规模调整后的Hype Index在各行业出现显著波动,反映市场对突发事件的敏感反应。

- 重点行业如信息技术、通信和金融展现不同的媒体关注及价格波动动态。
  • 附录图12-21详细展示各板块在市场关键事件中的指数变化。



Hype Index与情绪指标及市场波动的联合分析 [page::13][page::23]

  • Hype Index变化与VIX(波动率指数)走势同步,显示其作为市场风险情绪的补充指标的潜力。

- 与文本情绪评分相比,Hype Index更侧重数量化媒体关注强度,且与情绪波动存在关联。



媒体关注与市场规模关系的非线性建模 [page::14-15]

  • 市场权重与新闻报道份额存在显著非线性动势,幂律模型优于线性模型拟合,验证了调整Hype Index的合理性。

- 该关系支持基于市值调整媒体关注,达到更公平的跨行业比较。


Hype Neutrality与Momentum的定义及市场潜在影响 [page::13-14]

  • Hype Neutrality定义为调整后Hype Index近似1,表示媒体关注与经济规模相符;

- Hype Momentum反映价格向Hype Neutrality回归的强度和速度,暗示媒体关注对价格动态的影响方向和幅度。

量化策略与因子探讨

  • 该报告为主,未涉及具体量化因子构建或策略回测,但提供了可供未来构建基于媒体关注强度的风格因子或信号的框架。


深度阅读

详细解读报告《The Hype Index: an NLP-driven Measure of Market News Attention》



---

1. 元数据与报告概览



标题:The Hype Index: an NLP-driven Measure of Market News Attention
作者:Zheng Cao, Wanchaloem Wunkaew, Helyette Geman
机构:约翰霍普金斯大学应用数学与统计系
发布时间:基于2024年第一季度到2025年4月的实证数据
主题:本报告聚焦于股市大盘股(以S&P 100为研究对象),创新性地利用自然语言处理(NLP)技术构建衡量市场新闻关注度的“炒作指数”(Hype Index),并研究该指数与股票市场波动、短期价格信号之间的关系。

核心论点
  • 提出两个版本的炒作指数:

1. 新闻计数基础炒作指数(News Count-Based Hype Index):衡量某股票或行业在当日所有相关新闻里的曝光比例。
2. 市值调整炒作指数(Capitalization Adjusted Hype Index):用新闻曝光率除以对应股票市值权重,反映相对于经济规模的媒体关注偏差。
  • 研究显示炒作指数能有效反映市场对个股和行业的媒体关注程度,关联市场短期波动和价格走势,可作为分析市场波动和行为金融的辅助工具。
  • 报告首次系统地提出将“媒体关注”量化为指数,为量化行为资产定价和波动率预测提供新工具。


---

2. 逐节深度解读



2.1 简介与研究背景



报告首先介绍了自然语言处理(NLP)技术在金融领域兴起,尤其是通过处理非结构化文本获取市场信号的能力,及新闻媒体如何成为投资者情绪、信息传递的关键。

作者指出,传统的舆情分析侧重于情感极性(积极或消极),而本研究聚焦于媒体强度(即报道量),构建了定量指标衡量媒体的相对曝光度——“炒作指数”。此举拓展了金融文本分析方法,强调结构性偏差和媒体过度关注的识别。这种量化“炒作”现象有助于捕捉市场的注意力扭曲和异常波动,补充了情绪度量的不足。[page::0][page::1][page::2]

2.2 文献综述



本节系统回顾相关学术成果:
  • 早期情绪分析工具如VADER,业内公认的媒体新闻情绪与市场波动关系Tetlock(2007)等。

- Glasserman和Mamaysky(2019)利用信息熵捕捉“非常规”的新闻,从新闻内容新颖性角度解释市场压力。
  • Deveikyte等人(2022)则是通过标题和社交媒体预测短期波动,精度达63%。

- 作者本人此前工作(Cao和Geman,2025)提出炒作调整的概率测度,将媒体炒作作为预测半导体板块波动和方向的领先指标。

此处报告将炒作指数定义为结构化的媒体注意度信号,强调媒体强度与经济规模的偏离,并借鉴Caldara和Iacoviello(2022年)地缘政治风险指数的构建思路。[page::1][page::2]

2.3 数据说明


  • 使用广泛认可的美国股票国际行业分类标准(GICS)将S&P 100组件按照11个大类划分。

- 新闻数据由LSEG(前Refinitiv)提供,时间覆盖2023年12月21日至2025年4月10日,326个交易日。
  • 利用Eikon API的实体识别技术保证新闻和标的匹配的准确性,提高脚本过滤质量,剔除新闻覆盖不足或匹配不准确的个股(最后样本包含101只标的,剔除了X.TSLA等)。

- 市值数据亦由Refinitiv同步获取,对应每日调整后收盘价,确保新闻与市值数据时点匹配。
  • 数据获取过程采用批量调用以确保新闻集完整,最大限制每周调用获100,000条新闻,实际未触及阈值保证无数据截断。[page::2][page::3]


2.4 Hype Index构造与定义



Hype Index(炒作指数)
定义为某标的当日新闻报道数占S&P 100全体报道总数的比例,表达相对媒体曝光份额。公式:
$$
HypeIndex{i,t}=\frac{N{i,t}}{\sum{j=1}^{100}N{j,t}},
$$
其中$N{i,t}$为股票$i$在$t$日被报道数,分母为当天全指数报道总数。此指标不考虑经济基本面,仅反映关注度,帮助发现新闻覆盖度分布的不均衡。[page::3]

Sector Hype Index(行业炒作指数)
同理,行业指数为该行业所有成分股炒作指数总和。由于新闻多对多匹配特点,一条新闻可多计入多个股票,行业指数累计反映行业整体媒体关注量。
  • 报告提出可计算行业内炒作指数的平均值和标准差,观察不同行业组内的波动和动态。
  • 综合考虑未进行市值调整的原始Hype Index,在图4(第4页)中可见不同行业的新闻曝光分布及变化特征,更易揭示“过热”“中性”和“低关注”行业组。市场暴跌日周边出现异常波动。[page::4]


行业分组与走势
  • 原始指数分为三类:过度炒作组(Financials和IT)、中性炒作组(通讯、消费品、医疗、工业、必需品)及低炒作组(能源、公用事业、房地产、材料)。

- 图5(第5页)中经归一化处理(令所有行业平均曝光为1)后,过度炒作的行业如金融和IT曝光度波动剧烈,日均曝光率达3-4倍于市场平均,而防御性行业如公用事业、房地产维持较低曝光水平,反映不同板块媒体关注度的长期偏差与市场情绪差异。[page::5][page::6]

单只股票Hype指数展现
图6(第6页)展示信息技术行业内15只主要股票的平滑炒作指数走势。微软(MSFT)、苹果(AAPL)、英伟达(NVDA)长期位列媒体关注度前三,显示集中式关注的市场热点特征。[page::6]

2.5 Capitalization Adjusted Hype Index(市值调整炒作指数)



报告专门构造基于市值权重调整的炒作指数,表达相对于其经济规模的媒体关注偏离情况。定义如下:
$$
CapHypeIndex
{i,t} = \frac{HypeIndex{i,t}}{MarketCapWeight{i,t}} = \frac{\frac{N{i,t}}{\sum N{j,t}}}{\frac{MC{i,t}}{\sum MC{j,t}}}
$$
该指标衡量新闻曝光占比除以对应股票市值占比,体现哪些股票(或行业)媒体关注度远高或远低于其经济份额。

在图7(第7页)中,未经归一化的市值调整指数按行业表现明显改变了之前的分组:例如,虽然IT部门绝对新闻曝光最高,但考虑其庞大市值后,其调整后指数反而偏低;而资产规模较低的房地产、公用事业,经过放大调整,显著表现出更高的媒体炒作度。[page::7]

信息技术板块内部资本加权炒作指数(图8,第8页)显示投资者关注度在2024年8月因市场崩盘有显著激增,与个股市场行情急剧波动相呼应。[page::8]

2.6 市值调整指数新业绩分组



基于市值调整的炒作指数,行业分组呈现以下新格局(表3,第9页):
  • 相对炒作(Real Estate,Industrials)

- 中度炒作(Utilities,Financials)
  • 次要炒作(Consumer Staples,Health Care,Consumer Discretionary,Communication,Energy,Materials,Information Technology)


此分类强调相对概念,即新闻关注相较于市场资本规模的大小。IT虽然绝对高关注,但其资本规模巨大,炒作调整后显示为“次要炒作”,体现相对于其经济规模的媒体曝光合理。[page::9]

2.7 分布与统计性质



报告进一步对市值调整炒作指数及其日变动率进行正态性检验(图10、11,第10页),通过多项统计检验(Shapiro-Wilk、D’Agostino-Pearson、Jarque-Bera、Anderson-Darling、Kolmogorov-Smirnov)均显示拒绝正态分布假设,说明该指数分布呈明显偏态和厚尾特征,波动具有非对称性和极端情形存在,需要使用更复杂的分布进行建模。[page::10]

2.8 指数的经验验证



相关性分析(表4,第11页):


新闻计数炒作指数和市值调整指数在行业层面均呈高度正相关(0.8-0.98),说明在大盘股样本中,资金规模稳定条件下,新闻计数指标可作为市值调整指标的替代品,方便实时监控。

报告还提到基于该相关性构建的炒作调整概率测度(Hype-Adjusted Probability Measure)为未来量化模型提供理论基础。[page::11]

事件信号分析(第12页):


以2024年8月市场大跌为例,各行业市值调整炒作指数均出现显著峰值或谷值,表明该指数对重大市场事件具有敏感的信号提示能力。
尽管IT行业因龙头股市值较大绝对关注度维持较低,但其指数内部的相对变化依旧明显,说明关注度变化在行业内部同样重要。图8详细标注事件和对应指数动态,展示多关键事件前后的市场反应。[page::11][page::12]

投资情绪与波动指标的比较(图9,第13页):


将炒作指数与VIX指数(市场恐慌指数)及地缘政治风险指标(GPR)进行对比,发现炒作指数变动具有与VIX相似的波动性,而新闻计数指数较为平稳,更反映持久的媒体关注趋势。两者在短期策略制定及风险评估中均具互补作用。[page::13]

2.9 炒作指数对市场机制的启示


  • 引入炒作中性(Hype Neutrality)概念,即炒作指数值接近1时,媒体曝光与经济规模匹配,市场理性。

- 炒作动量(Hype Momentum)测量指数回归到中性的速度和幅度,反映估值对媒体关注均衡的调整。

报告运用市场权重与新闻权重拟合(图10,第14页)展示两者的统计关系,$R^2=0.3037$且斜率显著,表明新闻覆盖与股权规模存在正相关但非完全线性,必要修正。行业群组维度分析(图11,第15页)显示新闻曝光相较于经济规模的非线性增长趋势(拟合优度$R^2$约0.6)。这一观察验证采用资本调整炒作指数的合理性和必要性。[page::14][page::15]

---

3. 图表深度解读


  • 表1(第3页):S&P 100库存量各行业分布,金融、信息技术和医疗居多,有助后续分析中权重调整。

- 图1&2(第4-5页):不归一化及归一化行业Hype Index走势。金融和信息技术处于高媒体曝光区,公用事业、房地产等行业持续低曝光;阴影区域能直观反映行业内部媒体关注波动范围。
  • 表2(第5页):基于归一化Hype Index的行业聚类分类,类别明显,界限清晰。

- 图3&5(第6-8页):IT行业中15只股票媒体曝光动态,及其资本加权指标走势,反映行业内热点变化和市场事件影响。
  • 图4(第7页):市值调整行业Hype Index,调整后高曝光行业包括房地产和工业,改变了原始分类。灰色阴影代表标准差范围。

- 表3(第9页):市值调整后行业炒作分组,标签更贴合经济规模合理分类。
  • 图6&7(第10页):统计检验Histograms,显示Hype Index和其变换不符合常态分布。

- 表4(第11页):两种指数高度正相关,支持应用简化模型。
  • 图8(第12页):IT行业炒作指数叠加主要市场事件时间线,事件与指数峰值匹配明显。

- 图9(第13页):炒作指数与VIX,地缘政治风险指数的平滑值与一阶差分,体现市场情绪不同维度的动态关联。
  • 图10&11(第14-15页):新闻权重与市场权重的散点与拟合,凸显两者的线性及非线性关系。

- 附录图表(第17-23页):11大行业资本加权炒作指数动态,并标注多起重要宏观及市场事件;各行业资本加权炒作指数与股票波动率、情绪评分对比图也详细展示。[page::3-23]

---

4. 估值与风险分析



该报告主要在市场关注度的量化层面展开,未涉及传统的财务估值模型(DCF、P/E等),而是通过市值调整实现媒体关注的规模归一。报告强调资本权重作为关键的折算基准,是实现异质关注度比较的核心技术。

风险评估部分较少直接讨论,但可见隐含风险在于:
  • NLP新闻识别的误匹配及标的归属风险(报告中剔除匹配不良股票即为风险应对),

- 媒体炒作指示的非正态分布特征及极端波动风险,要求未来模型更灵活、稳健,
  • 炒作指数与实际市场情绪及成交行为之间可能存在滞后或偏差,影响实用性,

- 行业抽样覆盖的完整性,尤其小市值或被新闻严重忽视的部分。

---

5. 审慎视角与细微差别


  • 报告对炒作指数及其调整指数的定义清晰,但未深入披露新闻内容质量及分类细节,可能存在新闻量不等于市场影响的偏差。

- 资本权重计算依赖收盘价和公布数据,可能存在滞后,短期估计中存在误差调整需求。
  • 市值较大的行业如IT在绝对关注度中占优,但调整后标签反转,说明相对逻辑受资本结构扭曲影响较大,投资者应结合两者综合判断。

- 炒作指数相关研究存在一定的时间窗口选择偏好,市场异动期间的指标解释还需更多实证验证。
  • 报告采用的线性与非线性拟合模型,对复杂非线性市场情绪动态尚显简化,未来可深化非线性或机器学习模型扩展。


整体报告极力打造媒体关注量化工具,展示了良好的理论基础与丰富的数据展示,论证较为严谨。

---

6. 结论性综合



本报告创新性地提出了“炒作指数”(Hype Index)作为衡量大盘股领域媒体关注度的重要工具,分为基于新闻计数的原始指数和市值调整的归一化指数两种,具有以下关键贡献和洞见:
  • 炒作指数成功量化了市场新闻覆盖的不均衡分布,揭示部分行业及个股超额或不足关注现象。

- 市值调整指数有效校正了经济规模的影响,使同一曝光度在不同资本量级标的中具备可比性,反映相对媒体炒作的溢出效应。
  • 行业及个股的炒作指数在经历市场重大事件、政策变化时表现出明显跳跃,具备短期市场信号指示价值。

- 两类炒作指数高度相关,尤其在大盘股中,新闻计数指标可以作为资本调整指标的实时代理。
  • 炒作指数的统计性质非正态,存在厚尾与偏态,未来应用需要更多非线性及复杂分布的支持。

- 炒作指数与VIX等传统市场波动指标信号关联,为行为金融和风险管理提供额外维度。
  • 报告以丰富图表(包括行业分类、时间序列、回归散点、事件标注等)直观展现数据结构与动态,保证研究透明性和可追溯性。


综上,炒作指数为市场波动性预测、投资者注意力分析及基于NLP的行为金融研究开辟了全新路径,具备强大扩展潜力,是金融文本分析领域的前沿贡献。[page::0-23]

---

附:部分关键图表链接示例(Markdown格式引用)

-

-

---

总体评述



报告基于实时大规模新闻数据和市场资本数据,以严谨方法构建了新颖的媒体关注度指数,开创了基于NLP的市场新闻关注量化研究路线。其创新点和实证分析兼备,数据处理细致,所示图表和统计检验令结论更具说服力。适合法学术参考及金融机构在行为金融、市场风险量化和资产定价模型拓展的实际应用中推广。

[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23]

报告