`

Can ChatGPT Compute Trustworthy Sentiment Scores from Bloomberg Market Wraps?

创建于 更新于

摘要

本报告通过对2010年至2023年间的彭博社市场摘要新闻使用ChatGPT进行两步提示词设计,构建了全球股市的情绪指标,发现情绪得分与未来股票市场收益之间存在统计显著的正相关,且该相关性在短期内为正,中长期则出现负相关,且这一模式在多个主要股市均具备显著的鲁棒性。此外,报告分析了情绪得分累计期长度对预测效力的影响,提出了兼顾反应速度与相关性的最优积累期,为基于文本情绪的量化投资信号开发提供重要参考 [page::0][page::1][page::3][page::5][page::6][page::8]

速读内容

  • 研究构建了基于ChatGPT的两步提示词方法,首先提炼新闻主题并生成标题,然后针对每条标题判别其情绪为正面、负面或中性,实现对彭博市场摘要新闻的情绪评分 [page::1].

- 提出日度情绪得分及累计情绪得分公式,累计得分相较日度得分更平滑,能有效减少噪音,体现新闻影响的趋势性特征。样本涵盖2010年至2023年逾3600条市场摘要,约3.6-7.2万条子新闻 [page::2][page::3].
  • 通过对美股(标普500、纳斯达克100)、日经225、欧元区股市及新兴市场等多地股市指数的检验,累计情绪得分与未来股市收益存在统计显著的相关关系,且相关系数在短至中期内为正,长期则展现负相关,表明新闻情绪对市场有周期性影响 [page::5].

  • 引入False Discovery Rate (FDR)校正多重假设检验,保证相关性结果的统计显著性。经校正后的相关矩阵依然显示较强的统计显著区域,尤其是中短期累计情绪得分对未来收益的影响 [page::4][page::5].

  • 统计显示不同股市最优累计情绪得分积累期在25-40天不等,如美国科技股最优积累期约40天,日经市场亦是40天,欧盟市场约25天,从而平衡新信息反应速度与预测相关性 [page::6].


| 股市 | 最优积累期(dopt) |
|------------|------------------|
| US Tech | 40 |
| US | 30 |
| Japan | 40 |
| EU | 25 |
| UK | 30 |
| Emerging | 30 |
  • 不同市场之间的情绪得分与收益相关矩阵在统计检验和量化距离度量上表现出较高的一致性,说明该情绪信号具有跨市场的普适性和鲁棒性 [page::7][page::8].

- 本研究未直接构造具体量化交易策略(如多空组合等),但提出的情绪指标及其相关性分析为未来基于NLP的全球股票市场量化策略设计提供了坚实的数据和方法基础 [page::8].

深度阅读

金融研究报告详尽分析报告


报告题目:Can ChatGPT Compute Trustworthy Sentiment Scores from Bloomberg Market Wraps?
作者:B. Lefort, E. Benhamou, JJ. Ohana, D. Saltiel, B. Guez, D. Challet
机构:Ai for Alpha, CentraleSupelec, Dauphine PSL
日期:2023年
主题:利用ChatGPT从彭博市场综述新闻中提取情感评分,并探讨其与股票市场回报间的关系

---

1. 元数据与概览



本报告研究了利用ChatGPT对彭博社财经市场综述(Bloomberg Market Wraps)新闻进行情感分析(sentiment analysis)的可能性和有效性。核心研究问题为:基于ChatGPT的情感评分能否作为预测股票市场未来回报的可信指标?

核心贡献如下:
  • 提出并实现了基于ChatGPT的两步提示词(prompt)情感提取方法,化繁为简,提升情感分类准确度。

- 建立了“全球股票情感指标”(Global Equities Sentiment Indicator),以此衡量市场新闻的整体情感倾向。
  • 通过实证研究,展示该指标对多个市场的股票回报有显著的正负相关关系,且该关系随预测时间长度阶段性变化,体现了情感指标对市场的预测能力及其周期性。


作者强调,该情感指标在短中期展现与未来市场正相关,长期则呈现反相关,且跨多个市场验证了其稳定性和鲁棒性。

---

2. 报告逐节深度解读



2.1 Abstract & Introduction(摘要与引言)


  • 报告利用2010-2023年每日彭博全球市场新闻数据,来分析新闻标题对股票市场的影响,核心工具是ChatGPT及两阶段提示词设计。

- 传统金融文本情感分析依赖手工词典和基础机器学习,难以准确捕捉金融领域特定语境和复杂情绪。
  • ChatGPT作为大型语言模型(LLM),具备自然语言理解、生成能力,能够改善复杂文本情感分析。

- 研究创新点为不使用特定金融数据,仅依赖ChatGPT零样本学习(zero-shot learning)能力,采用分步提示词提取主题与情感,实现对市场情感影响的深度解读。

2.2 Related works(相关工作)


  • 汇总了ChatGPT在经济金融领域的最新应用,如美联储政策语言解读(Fedspeak)、财经教育、新闻可信度鉴别等,强调ChatGPT擅长文本任务但在纯数字预测领域表现平平。

- 本文创新点在于利用ChatGPT处理财经新闻文本进行市场趋势预测,并提出创新的两步提示词法,有效提升情感指标质量。

2.3 Prompt engineering(提示词设计)



2.3.1 数据收集


  • 数据来源为2010年至2023年10月的彭博全球市场综述新闻,共约3600份市场综合新闻报道(包含36000-72000条独立新闻标题)。

- 过滤非市场综述、字符数少于600字的文本,确保数据的质量和一致性。

2.3.2 两步提示词方法


  • 第一步提示词(主题提炼):让ChatGPT扮演资深资产管理者角色,从长文本中提取15条凝练的新闻主题标题。目的简化任务,聚焦于主题总结。

- 第二步提示词(情感分类):对第一步产生的15条新闻标题,ChatGPT基于投资者视角,逐条标注“正向”、“负向”或“不确定”情感影响。
  • 该方法旨在分解复杂任务,提升情感判读的准确度,利用GPT-4版本完成提示词交互。


2.4 Global Equities Sentiment Indicator(全球股票情感指标)


  • 定义每日情感得分 \( S \),通过正面与负面标题的数量差除以它们总和得出,指标范围[-1,1] (见定义4.1)。

- 指标满足基本属性:有界性、对称性、中立性、单调性、尺度不变性和加成性。
  • 表1展示样例日期的正负面数量及当天情感得分。

- 纯日度得分波动剧烈,噪声较大(见图1原始情感波动图)。
  • 引入累计情感得分 \( Sd \),对一段时间(d天)内的每日情感得分累加,再计算比值,平滑噪声(定义4.2及图2显示累积平滑效果)。

- 累计情感得分更能反映新闻的趋势及其对市场的整体影响。

2.5 Evaluation of the Sentiment Score’s Validity(情感得分有效性验证)



2.5.1 描述性统计


  • 采用Pearson相关系数衡量线性相关,Spearman相关系数衡量非线性/单调关系,保障统计分析的稳健性。


2.5.2 股市数据与变量计算


  • 分析美股(S&P 500, NASDAQ 100)、日本(Nikkei 225)、欧洲(Eurostoxx 50)、英国(FTSE 100)及新兴市场(MSCI Emerging)等多市场日度累计情感得分与未来股票收益的关系。

- 未来收益计算以定义公式,避免数据泄露,确保预测结果纯属前瞻。

2.5.3 相关性结果


  • 以美股科技板块(NASDAQ)为例(图3),呈现明显的正相关斜对角区,表明累计情感得分能正向预测未来股市表现。

- 长期预测收益则出现负相关斜对角,反映情感的反馈调整机制。
  • 该模式在其他市场均有类似表现(详见附录图像),说明模型具有广泛的适用性与鲁棒性。


2.5.4 t检验及多重检验修正


  • 利用False Discovery Rate(FDR)修正多重检验问题,提高结果统计显著性可信度。

- 图4为美股科技市场经过FDR校正后的p值热图,绝大多数相关值均显著。
  • 设计了“缓和相关矩阵”,按显著性调整原相关系数(公式见5.4.3),更合理反映显著相关区域(见图5)。


2.5.5 最优相关组合


  • 排除非显著值后,呈现不同市场最强正负相关组合(表2、表3)。

- 最高正相关达到0.53(美股科技,延迟125天累计得分,对应245天收益),说明较长期累计得分具有较好预测能力。
  • 负相关值较低且分布在长期收益期,表明情感与股市存在周期性反转关系。

- 市场间对情感指标时间敏感度差异明显,形成预测窗口的权衡。

2.6 Trade-Off Analysis of Financial Indicators(情感指标的权衡分析)


  • 研究累计情感深度d对相关性的影响,定义了计算不同预测期内滚动均值相关性指标的方式。

- 图6描述不同预测月数(1-12月)内不同累计深度与股市收益的均值相关性曲线。
  • 结果显示短期预测曲线有峰值,长期预测则趋于递增但幅度有限。

- 优化目标为找到最大相关性的“最优累计深度”\( d
{\text{opt}} \),兼顾预测能力与及时性。
  • 表4列出不同市场一月预测期最优累计深度,介于25到40天之间不等。


2.7 Robustness over the Equities Markets(跨市场鲁棒性)


  • 构造跨市场相关矩阵的平均矩阵Z及标准差矩阵Sigma(Z),量化模式一致性。

- 通过元素级t检验比较各市场与平均模式矩阵,统计符合0.01显著性水平比例。
  • 表5显示大多市场超过70%的矩阵元素服从平均模式,尤以日本市场最高达92%。

- 英国市场相对略弱,但仍有超过55%比例支持该模式。
  • 结合定量分析和基于分位数的距离测度(表6),验证了情感得分对市场回报影响的普适性和稳定性。


2.8 Conclusion(总结)


  • 证明了从彭博市场综述新闻中借助ChatGPT提取的情感评分,尤其是累计情感得分,与多市场未来股票收益存在显著统计相关性。

- 强调短中期正相关和长期负相关的周期性这一发现。
  • 确立了一个权衡预测准确性和及时性的最优累计情感深度,适用于不同股市。

- 提出未来可基于该情感指标设计基于NLP的系统化多空策略,开辟量化投资新路径。

---

3. 图表深度解读



3.1 图1与图2 — 日度与累计情感得分趋势


  • 图1展示每日情感得分波动剧烈,中心波动频繁,白噪声成分明显。

- 图2为20天累计情感得分,显著降低短期噪声,体现趋势性变化。
  • 此图印证累计方法能够提取更稳定的信号,利于判断市场走势。

- 视觉上,累计信号更平滑,更易于应用于后续的相关性分析中。



3.2 图3 — NASDAQ累计得分与收益Pearson相关矩阵


  • 横纵坐标分别为累计情感得分的累计周期(5至245天)和未来股票收益期(5至245天)。

- 颜色深红代表强正相关,深蓝代表负相关。
  • 明显对角红色斜线显示短中期情感与未来回报正相关趋势。

- 右上方蓝色斜线反映长期负相关,表明市场存在反馈调整机制。
  • 其他市场(US, Japan, Europe等)呈类似图案,显示模式通用。



3.3 图4与图5 — p值校正与缓和相关矩阵


  • 图4为FDR校正后的p值矩阵,颜色越白代表统计显著性越高。

- 图5将原相关矩阵按照校正后p值加权调整(缓和),去除非显著相关的影响。
  • 体现了高相关区域的统计稳健性,剔除可能的偶然噪声。




3.4 图6 — 累计情感得分深度与不同预测期的相关性均值


  • 曲线显示当预测期增加(月单位,1-12月),最优累计深度也有变化。

- 短期预测(1-3月)曲线呈现一个清晰峰值,后期预测曲线较为平滑逐渐上升。
  • 直观反映了“深度/时间窗口-预测效力”之间的权衡。



3.5 表格2和3 — 不同市场最强正负相关组合汇总


  • 表2列出各市场最高正相关累计情感深度与未来收益期及对应相关系数,最高达0.53。

- 表3列出负相关对应组合,负相关程度最深约为-0.31。
  • 数据支持情感得分主要在中短期有较好的正预测能力,长期可能出现预期逆转。


3.6 表4 — 各市场一月预测期的最优累计深度



| 市场 | 最优累计深度(dopt) |
|----------|-----------------|
| US Tech | 40 |
| US | 30 |
| Japan | 40 |
| Europe | 25 |
| UK | 30 |
| Emerging | 30 |
  • 依据平均相关性最大点定出,有助于构建适时且有效的情感指标。


3.7 表5和6 — 跨市场模式一致性统计


  • 表5基于t检验统计各市场符合共通相关模式元素百分比,均超过50%,最高92%。

- 表6基于分位数距离法也验证了类似一致性,强化结果结论。

---

4. 估值分析



本报告非典型估值研究,不直接涉及具体公司估值,而是围绕情感指标的预测能力进行统计分析和验证。核心“估值”在统计学意义上即为情感指标与市场回报的相关度及其稳定性。

采用Pearson和Spearman相关系数反映线性与非线性预测能力,多重检验FDR校正保障统计信度,最终提出基于累计情感得分的金融时间序列预测指标。

---

5. 风险因素评估



报告表述中明确指出:
  • 语义复杂性风险:财经新闻包含领域特定术语和多重情绪,可能误导通用情感分析工具。

- 时效性滞后风险:新闻可能为事实发生后的报道,导致情感指标滞后实际市场动态。
  • 模型泛化风险:虽然跨市场验证显示较好稳健性,但特定市场结构或政策变化或破坏预测模式。

- 方法论风险:依赖ChatGPT和提示词设计,若提示词不当或模型训练局限,输出情感准确性难保证。

报告通过多市场广泛样本及多种统计方法缓解上述风险,但未明确提出特定缓解策略。该领域后续研究可结合知识图谱和深度金融NLP提高准确率。

---

6. 批判性视角与细微差别


  • 报告基于ChatGPT零样本学习,少依赖金融专用语料,体现创新但也埋藏领域适配不足风险。

- 两步提示拆分任务设计巧妙,但是否比端到端方法优越缺乏直接对比实验。
  • 统计相关系数最高约0.53,虽显著但对实际交易策略转化有待进一步验证。

- 长期负相关现象值得深究,可能源于市场过度反应或情感信息滞后,报告对此未深入剖析。
  • 多重比较和FDR校正确保统计结论,但相关性并非因果,投资应用中需结合其他指标综合判断。

- 报告未涉及具体情感分类错误率或ChatGPT错判案例分析,未来完善此方向可提高透明度。

---

7. 结论性综合



本报告深入剖析了使用ChatGPT从彭博市场综述新闻中提取情感分数的创新方法,并通过系统的统计验证探索了情感指标与多个全球股票市场的未来收益间的动态关系。

核心发现是,基于两步Prompt设计,累计情感得分能有效提取市场情绪,构建了全球股票市场情感指标,该指标在短至中期具有显著正向预测能力,长期则呈现负相关,体现了市场情绪的周期性影响。统计学多重修正及跨市场验证体现了该模型的稳健性和普适性。

结合图表分析,强调了累计情感平滑噪声、构建趋势信号的优势(图1、2),以及累计时间窗口与收益预期期的权衡优化(图6,表4),为投资策略设计提供了量化依据。

作者最后建议,未来可以基于本文情感指标设计全球范围的量化多空策略,推进NLP技术在实盘投资领域的应用。

---

参考资料溯源


本分析严格基于报告文本和图表,引用页码如下:
[page::0,1,2,3,4,5,6,7,8,9,10],[page::11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]

---

备注


因报告篇幅、图表多样且复杂,文中图像采用相对路径表示,欢迎基于报告原文进一步参考详细图形。

报告