`

Identifying economic narratives in large text corpora – An integrated approach using Large Language Models

创建于 更新于

摘要

本论文提出了一种基于大型语言模型GPT-4o的经济叙事自动提取方法,聚焦通胀相关的新闻文本。在对纽约时报与华尔街日报1985-2023年相关文章的100文档专家标注构建的黄金标准上,采用few-shot连锁思维提示(Chain-of-Thought)技术,模型能有效识别语义深层的经济因果叙事结构。研究亦设计了详尽注释准则和后处理抽象聚类流程,将多样化事件归类为宏观经济主题。尽管模型在短文和显性叙事识别上表现优异,但仍存在叙事结构处理不足、过拟合提示样例及隐式因果关系识别难题,导致准确率为44%,低于专家。该框架为经济文本大规模定量分析提供新路径,强调专家与LLM协同的重要性,指明未来可通过专门调参与聚类优化展开进一步研究[page::0][page::19][page::23][page::33].

速读内容


研究背景与目标 [page::0][page::1][page::7]

  • 经济叙事是塑造宏观经济行为和预期的关键因素,传统文本分析难以规模化处理。

- 本文利用LLM,尝试自动、结构化地提取体现因果关系的经济叙事,聚焦通胀相关报道。
  • 选用GPT-4o,结合详细注释准则和专家标注构建的黄金标准进行严格验证,检验模型表现。


数据集与注释准则设计 [page::9][page::10][page::11][page::12]

  • 构建约1985年至2023年的《纽约时报》和《华尔街日报》通胀主题新闻语料库,抽样100篇用于专家标注形成黄金标准。

- 叙事定义为两个连续事件间的正向因果链:“事件1 causes 事件2”或“事件1 is caused by 事件2”。
  • 注释准则包含事件类型规范、共指消解、链式和叉式因果关系拆分、严格保持文本原意等详细规则,保证多标注员之间一致性。


GPT-4o的提示策略与提取流程 [page::14][page::15][page::16][page::17][page::18][page::19][page::20]

  • 采用few-shot连锁思维(Chain-of-Thought, CoT)提示,7个典型示例演示任务格式,促进模型分步输出抽取过程。

- 流程包括:聚焦文本摘录、识别叙事并分解两事件、明确因果关系表述、核心指代消解、事件重述规范等。
  • 采用JSON格式输出,保证机器解析一致性;temperature设置0.2使结果具备稳定性且包含适度多样性。


模型性能与误差分析 [page::24][page::25][page::26][page::27]



| 评价指标 | 专家均值 | GPT-4o |
|------------------|---------|---------|
| 每文档识别叙事数 | 2.91 | 2.32 |
| 标准差 | 2.35 | 1.15 |
| 主要偏差率 | ~0.41 | 1.25 |
| 意外主要偏差率 | - | 0.91 |
| 准确率 | 0.67-0.74| 0.44 |
| Jaccard相似度 | ~0.59 | 0.40 |
  • GPT-4o在格式化输出和因果方向识别上表现良好,偏好将叙事按“causes”排序。

- 受限于连锁和叉式叙事的拆分能力,模型倾向将复杂叙事压缩,导致在语料中叙事数的稳定性过高。
  • 模型在长文本和隐含因果识别中表现不足,存在过度生成“编造”叙事的现象。

- 对比图示了模型未能拆分叉式叙事的样例,突显结构解析不足导致的语义误判。

叙事聚合与应用潜力 [page::21][page::22][page::23][page::27][page::28][page::29]




| 事件(示例) | 方向 | 主题 | 出现频次 |
|----------------------------|------|---------------|----------|
| higher inflation | ↑ | Inflation | 58 |
| economic stability in the US| ↑ | Economy | 29 |
| higher interest rates | ↑ | Interest rates| 27 |
| the Fed’s aggressiveness | ↑ | Monetary policy| 25 |
  • 通过事件分解、定义情感极性及语义聚类,将原始叙事抽象归纳为宏观经济主题集群。

- 常见叙事包括政府支出→通胀、宽松货币政策→通胀、利率上升→经济增长下降等,映射经典宏观经济话题。
  • 发现部分主题多为“因”角色(如政府支出)或“果”角色(如股票市场),符合理论预期。

- 叙事高度个性化和语境依赖,导致大多数叙事仅出现一次,体现新闻报道的因果叙述丰富性与复杂性。

结论与未来展望 [page::30][page::31][page::32][page::33]

  • 现阶段LLM能较为有效地自动抽取经济因果叙事,结合专家注释实现任务,但仍难以完全替代人类判断。

- 提示优化与few-shot-CoT策略增强模型推理透明度与表现,便于追踪错误来源。
  • 未来研究可深化模型微调,提升复杂叙事结构解析,探索更先进的叙事聚类与相似度匹配技术,以实现大规模经济叙事时序分析及与宏观指标的关联研究。

- 强调构建人机协同工作流的重要性,专业人类编码者仍不可或缺,为模型提供定义标准并监督输出有效性。

深度阅读

详尽解读报告《Identifying economic narratives in large text corpora – An integrated approach using Large Language Models》



---

一、元数据与概览


  • 标题:Identifying economic narratives in large text corpora – An integrated approach using Large Language Models

- 作者:Tobias Schmidt, Kai-Robin Lange, Matthias Reccius, Henrik Müller, Michael Roos, Carsten Jentsch(均来自德国多特蒙德工业大学与鲁尔大学博胡姆)
  • 发布日期:2024年

- 发布机构:TU Dortmund University及Ruhr-University Bochum联合研究项目
  • 研究主题:经济叙事(economic narratives)的自动识别与提取,利用大规模语言模型(LLMs),尤其是GPT-4o,来分析新闻文本中的通货膨胀话语。


核心论点

本报告针对经济领域中“叙事”这一复杂但关键概念,探讨如何从大量文本(如新闻文章)中自动提取经济叙事。报告指出传统自然语言处理(NLP)方法(例如BERT和基于pipeline的语义角色标注等)虽然能实现基础文本处理,但难以捕捉叙事的深层语义结构。利用GPT-4o等先进的LLM,报告尝试提取描述经济因果联系的结构化叙事,并与专家标注的“金标准”数据进行对比,以评估模型的实际表现。结果显示,GPT-4o具有较强的提取能力,但在处理复杂文本和叙事时,表现仍不及专家水准。报告还提供了基于当前测试经验的未来研究指导。[page::0] [page::1] [page::2]

---

二、逐节深度解读



2.1 引言与研究背景



报告开篇强调宏观经济政策决策受公众舆论和经济叙事的影响,媒体塑造的经济故事(如关于通胀、衰退等的叙事)对经济主体的预期与行为起关键作用。然而,传统定性研究难以规模化应对激增的文本数据,现有的NLP技术则在捕捉经济叙事的复杂语义方面有不足。LLM作为语境理解能力强的新兴工具,或能填补这一空白。重点关注如何利用LLM抽取符合经济学定义的叙事,特别是因果关系驱动的叙事。[page::1] [page::2]

2.2 经济叙事的定义



经济叙事本质上是连接两个时间上和语义上互异事件的因果链条,定义为形如“事件A导致事件B”或“事件A由事件B导致”的结构化陈述。报告回顾前沿理论成果,包括Shiller(2017)对叙事经济学的提出,以及Eliaz和Spiegler(2020, 2024)将叙事形式化为有向无环图(DAG)中简化的因果模型。强调叙事非完全中立,不同新闻媒体可能有选择性报告,以提高受众黏性而扭曲真实因果关系。报告严格排除了不具时间维度或非经济主题的陈述,确保抽取数据具有经济内涵和因果逻辑。[page::3] [page::4]

2.3 经济叙事自动抽取方法的现状



传统叙事抽取依赖专家质性分析,难以规模应用。常用NLP任务如主题建模、情感分析等仅捕捉文本片段信息,缺乏因果关系识别能力。某些pipeline方法(如RELATIO)采用语义角色标注抽取主体(agent)和受体(patient),却未覆盖因果关系全貌,容易因多步骤错误叠加而失真。报告提出仅用LLM(且经过instruction tuning的生成型模型,如GPT-4o)来实现叙事的整体理解和抽取,避免分段模块带来的误差,有助于捕获隐含和复杂的因果连接。[page::5]

2.4 LLM在社会科学与经济文本分析中的应用



论文综述了LLM(如GPT-3.5、Claude 3.5 Sonnet、Llama 3.1)的最新应用案例,涵盖政治文本标注、社交媒体数据挖掘、宏观经济叙事检测,展示LLM在领域文本理解上的潜力和表现。对比不同模型时,也暴露了一些问题,如Llama 3.1在无叙事文本中错误推断叙事的趋势。报告基于此经验选择了更高性能的GPT-4o做为主模型,以确保尽可能真实展示当前LLM水平。[page::6]

2.5 通胀作为实证主题的重要性



通胀是叙事经济学中的关键对象,因其紧密关联个人与企业对未来经济形势的预期,这些预期反过来又影响消费、定价和工资决策。央行在预测引导中积极塑造通胀预期,媒体报道的强度与情绪色彩也会影响公众对通胀的理解,由此影响宏观经济走势。报告借助通胀主题选择适当同质文本语料,以大量新闻报道作为经济叙事检测的测试基准。[page::7] [page::8]

---

三、模型和数据



3.1 选择GPT-4o作为LLM



报告介绍选用GPT-4o的原因:相较GPT-4和其他推理模型,GPT-4o结合性价比、推理能力和自定义prompt灵活性,最适合叙事抽取任务。因当前模型仍存在使用成本高、版权封闭、不可保证长期复现等问题,报告将此实验视为对大型商业模型潜力的理论示范,而非普适可行方案。[page::9]

3.2 新闻语料选取与预处理



报告构建了包含1985年至2023年间《华尔街日报》和《纽约时报》中包含“inflation”或“price increase/hike/surge”关键词的文章,经剪裁每篇包含关键词句和其前后两句,用于为模型提供紧凑又有上下文的文本片段。随机抽样100篇文章做详尽人工标注形成金标准,剩余80篇用作模型测试,确保评估的可控性和准确性。[page::9] [page::10]

---

四、经济叙事编码手册(Codebook)与金标准构建



4.1 编码手册设计



针对“经济叙事”为复杂含糊概念,报告制定详尽编码规则:
  • 精确定义叙事为两个连续事件间的正向因果链(event 1 causes/is caused by event 2)。

- 事件需保持原文表述,避免语义抽象,保持时态和核心内容完整。
  • 核心填补指代(如人称代词替换为实体)。

- 叙事文本可能复杂存在链式因果与分叉因果,均需分别编码。
  • 排除负因果(“不导致”不编码)。

- 仅保留明显经济相关案例,排除非经济议题。
  • 编码时应保持尽量完整消息传达,不能省略核心信息。

- 对模糊情况须编码后评议。
  • 多位专家独立编码,汇总形成金标准,考虑专家间合理偏差,分辨主要与次要偏差的影响。[page::11] [page::12] [page::13]


4.2 金标准构建流程



三名经济领域专家独立对100篇文档编码,随后多轮协商达成共识,生成291条金标准叙事。专家个人编码结果保留,用作后续评估模型表现中“期望偏差”的比较基准,科学区分主要(语义错误、漏标错标)和次要偏差(格式或小差异)。[page::13]

---

五、LLM提示设计与叙事抽取流程



5.1 提示优化策略


  • 采用OpenAI API的JSON输出选项以保证格式一致。

- 传统零-shot学习(仅代码手册提示)表现不稳定,输出格式与符合度均差。
  • 发现过长提示文本(完整代码手册)导致信息“Lost in the Middle”现象,影响性能。

- 根据经验发现:对事件描述只需简单提及即可,重点在于明确事件顺序和因果表达格式。
  • 代码手册中的示例对GPT-4o表现反而有负面影响,因模型难以从碎片示例整合复杂规则。

- 需要仔细权衡指令详细程度避免冲突,持续试探模型敏感程度以调整提示策略。[page::14] [page::15]

5.2 Few-shot Chain-of-Thought提示


  • 设计基于少样本示范的few-shot学习,通过7条代表性示例示范,从100条金标准中随机挑选20条用于验证提示效果,将最优7例组合应用于评测。

- 结合Chain-of-Thought(CoT)提示,将任务拆解为逐步子任务(识别聚焦文本、抽出叙事序列、因果重述、指代还原、事件重构等),提升模型推理能力和解释透明度。
  • CoT方式模仿传统pipeline的分解逻辑,但阶段间信息保留于上下文,兼顾一体化语言理解。

- 评测显示7个few-shot为性能最优点,temperature设置为0.2在保证生成多样性的同时提高确定性。[page::16] [page::17] [page::20]

5.3 综合叙事抽取步骤


  • 详述prompt构造细节,模型从输入文本中截取含关键词及上下文的焦点片段,筛除非叙事句。

- 逐步分离、明示谓词与因果连接,对事件做指代消解与语法规范化,确保事件标准化便于后续汇总比较。
  • 通过图示(图1)演示Chain-of-Thought五步抽取流程,直观体现模型如何识别与构建叙事结构。[page::18] [page::19] [page::20]


5.4 叙事抽取后处理


  • 为实现宏观抽象与聚类,设置多步后处理流程:

1. 事件分解:拆分复合叙事为原子命题,防止模型合并多因果链错误。基于少样本GPT-4o-mini子模型,实现科学、上下文连贯断句,优于简单正则表达式切分。
2. 极性与主题分类:利用另一个LLM判定事件主题(通胀、利率、消费等)及事件极性(上升、下降),结果输出统一JSON格式,保证一致性。
3. 主题归一化与匹配:将模型紧贴文本的多样表达通过sentence-transformer模型编码嵌入,配准到预设宏观经济类别,通过余弦相似度判断聚类关联,辅以人工复核和模式匹配提升经济语义鲜明度。
4. 极性符号化:上升与高水平用“↑”表示,下降与低水平用“↓”标注,隐含否定时做反转处理。
  • 这允许研究者跳出单句叙事实例,实现跨文本、跨主题的经济叙事框架化和大规模分析,体现叙事经济研究思路的量化提升。[page::21] [page::22] [page::23]


---

六、图表深度解读



图1 (第19页)


  • 描述:展示了Chain-of-Thought叙事抽取五个关键步骤的示例流程。模型从全文中截取含关键词句段(Step 1),挑选包含两个因果连接事件的段落(Step 2),显式标注因果关系(Step 3),消解代词等指代问题(Step 4),最终完成事件语法规范化(Step 5)。

- 解读:该图直观反映模型如何分步精准识别出事件及其因果关系,逐步规范化输出,有效降低模糊性并规范表达。
  • 联系文本:为理解模型运行机制、验证CoT提示链有效性提供形象支撑,印证了前文关于抽取流程的理论描述。[page::19]


---

表1 (第25页)



| Measure | Expert 1 | Expert 2 | Expert 3 | Gold | Model |
|------------------|----------|----------|----------|--------|--------|
| Average narratives per document | 2.22 | 2.36 | 2.29 | 2.91 | 2.32 |
| Standard deviation | 1.95 | 2.12 | 2.04 | 2.35 | 1.15 |
  • 描述:统计专家与LLM平均每文档识别的叙事数量及其波动。

- 趋势解读:模型平均值接近专家平均值,但波动明显较小,显示模型有稳定但偏中庸的“预期”,难以高灵活度适应不同文本叙事密度。
  • 联系文本:揭示模型倾向于过度提取稀疏文本中少见叙事,且对密集文本中多叙事存在标注欠缺,归因于对因果链与叙事分叉结构识别不足。[page::24]


---

图4 (第26页)


  • 描述:对比金标准中明确的叙事分叉结构(forked narrative)与GPT-4o输出的合并版叙事。

- 解读:模型倾向将多个相似因果连接合并成一条统一叙事,导致漏标或语义模糊,丧失细粒度区分,反映其处理复杂因果分叉的能力不足。
  • 联系文本:具体示例证明了模型在解构多路径因果结构上的缺陷,对整体准确率及下游分析的影响不容忽视。[page::26]


---

表2 (第26页)



| 评价指标 | Expert 1 | Expert 2 | Expert 3 | Model |
|----------------------|----------|----------|----------|--------|
| Major-deviation rate | 0.40 | 0.35 | 0.49 | 1.25 |
| Unexpected major deviations | — | — | — | 0.91 |
| Accuracy (vs. gold) | 0.72 | 0.74 | 0.67 | 0.44 |
| Jaccard similarity | 0.59 | 0.60 | 0.59 | 0.40 |
  • 描述:专家与模型的偏差率、准确率及基于词汇重合度的Jaccard相似度。

- 数据解读:LLM的严重偏差次数是专家的2-3倍,准确率下降显著,且Jaccard指标显示其词级匹配不佳,说明存在词序、词汇用法及语义理解方面的不足。
  • 联系文本:表明尽管LLM抽取经济叙事的能力较高,但仍落后于资深专家,特别是在细节和复杂结构处理上。[page::26] [page::27]


---

图5 (第28页)


  • 描述:展示了几个简化后的共现经济叙事模式,如政府支出“↑”导致通胀“↑”,货币政策放松“↑”导致通胀“↑”,利率上升导致经济增长下降等,及其在样本中的出现频次(n=2-4)。

- 解读:这些故事弧对应经典宏观经济学范式,在媒体中经常形成传播路径,反映新闻报道与理论模型的映射关系。
  • 联系文本:体现了模型抽取并简化宏观经济叙事的能力,有助于进行更大规模的结构化分析,尽管绝大多数叙事相对零散且稀有,归结出核心经常出现的叙事类型对理论与政策研究具启示意义。[page::28]


---

表3 (第29页)



| Event Example | Valence | Sym. | Topic | Count |
|-----------------------------|---------|------|----------------|-------|
| higher inflation | rising | ↑ | Inflation | 58 |
| economic stability in the US | positive| ↑ | Economy | 29 |
| higher interest rates | rising | ↑ | Interest rates | 27 |
| the Fed's aggressiveness | loose | ↑ | Monetary policy| 25 |
| the ECB tightening its m.p. | tight | ← | Monetary policy| 23 |
| economy plunges toward hard landing | falling | ← | Economy | 22 |
| lower inflation rates | falling | ← | Inflation | 21 |
| higher gas prices | rising | ↑ | Energy prices | 19 |
| stocks are getting attractive again | rising | ↑ | Stock Market | 15 |
  • 解读:统计最频繁出现的事件及其方向性,反映媒体叙事核心关注点,较理论认知一致:通胀、政策动向、利率为报道重点;“股市”多作为结果出现,而政府支出多作为原因出现,显示叙事因果逻辑的偏好结构。

- 联系文本:支持经济叙事实证研究中,主题极性词的量化抽取和分析是理解媒体影响的重要工具,[page::29]

---

图3 (第23页)


  • 描述:展示从新闻文本一句话原始语句,到GPT-4o的叙事抽取,再到主题极性对齐及归一化简化的叙事图示流程。

- 解读:直观呈现了叙事数据如何经过结构化抽取、后续的事件拆解、主题、极性赋值与语义聚类,最终实现模型抽取数据的经济学意义抽象与标准化。
  • 联系文本:这一流程是实现经济叙事大数据分析的关键步骤,为后续宏观经济模型中叙事变量的构建奠定基础。[page::23]


---

七、估值分析



本报告核心为文本处理模型能力评估,无直接金融估值内容,故无估值部分分析。

---

八、风险因素评估



作者明确提及LLM在经济叙事抽取任务中存在的风险与限制:
  • 过拟合与偏见:模型参数定型后存在对示例的隐性预期(例如固定叙事数量),导致对不同文本叙事实质识别存在系统性偏差。

- 对复杂结构处理有限:尤其是在处理因果链条分叉时,模型倾向合并叙事,忽略细节。
  • 生成错误(Hallucination):模型常生成语义合理但不符合实际文本的叙事,影响提取真实性。

- 模型可复制性与持续可用性风险:依赖封闭商业模型,未来可能面临失效或获取限制,影响科研复现性。
  • 主观性与多样性评判难题:叙事本质上具有主观解释性,不同专家间存在较大偏差,模型无法完全覆盖人类复杂判断。

- 资源消耗与成本风险:商业模型成本高,硬件要求大,环境影响也需考虑。

报告呼吁对这些风险进行严格科学管理,引入混合人机工作流程以保障质量和稳定性。[page::30] [page::31] [page::32]

---

九、批判性视角与细微差别


  • 报告强调LLM虽进步显著,但抽取任务的高度专业化限制其替代专家地位。

- 反复提到“叙事”定义的模糊和解释的主观性,提示抽取结果不可完全客观依赖,应结合人类监督。
  • 模型偏好“因果顺序”和“正向因果”提示,偶尔因训练先验导致因果方向判断偏差,体现训练数据隐性影响。

- 文本示例和模型输出对比中,有一定程度错解因果链导致信息失真,提示模型经济专业判别能力仍不足。
  • 后处理步骤中,聚类与主题抽象虽便利分析,但也带来语义合并过度简化风险,如“利率”被过度泛化导致部分循环逻辑出现。

- 总体上,报告保持公允态度,既肯定LLM能力,又清晰指出不稳定性和局限,未对模型性能作过度乐观承诺。

---

十、结论性综合



本报告系统性开展了利用先进大型语言模型GPT-4o进行经济叙事提取的理论与实证研究,贡献如下:
  • 定义与方法论贡献:构建了细化且可操控的经济叙事定义与编码手册,指导人工与机器标准化叙事识别。

- 模型性能实证:GPT-4o在高度复杂的因果叙事抽取任务中展现了显著能力,能稳定输出结构化、格式规范的因果叙事,但准确率(44%)仍低于专家(67%-74%)。
  • 局限性揭示:模型对复杂因果链和多重因果分叉结构的处理仍不成熟,表现为叙事数量偏差、结构合并以及部分“幻觉”生成。

- 后处理探索:阐述了事件拆分、语义极性判别及主题聚类的流程,成功通过语义嵌入与类别匹配实现经济叙事归纳与简化,揭示媒体报道中的主流经济故事构架。
  • 理论与实践意义:验证了LLMs作为经济叙事研究新工具的潜能,同时指出其不可替代专家判断的现实,建议未来研究采用人机协作混合模式,与细化精调的提示技术相结合增强准确性和效率。

- 未来展望:呼吁开发更专业化模型、设计更完善提取和聚类方法,关注模型可持续性及环境影响,并期待通过扩展研究实现经济叙事与宏观经济指标(如预期、金融波动)深度关联分析。

图表深刻见解总结
  • 图1演示的CoT分步策略是成功驱动模型叙事抽取的关键,这种明晰的任务拆解促使模型更好地聚焦任务逻辑,减少低级错误。

- 表1和表2揭示模型与人类专家在叙事数量识别频率及准确率上的差异,强调模型存在固定预期局限和较高主观偏差。
  • 图4及相应讨论显示模型对因果分叉链处理不足,是其识别差异的主要原因之一。

- 图5和表3则说明后处理步骤中归纳汇总出的若干主流宏观经济叙事,体现了经济新闻中常见的宏观经济叙事框架及其大致频次特征。

整体而言,报告严谨且深入地剖析了LLM在经济叙事自动抽取中的实际应用,既展示其先进性也明确存在的技术与理论难点,为推动叙事经济学进入大规模文本自动化分析奠定了坚实基础。[page::0] [page::1] [page::2] [page::3] [page::4] [page::5] [page::6] [page::7] [page::8] [page::9] [page::10] [page::11] [page::12] [page::13] [page::14] [page::15] [page::16] [page::17] [page::18] [page::19] [page::20] [page::21] [page::22] [page::23] [page::24] [page::25] [page::26] [page::27] [page::28] [page::29] [page::30] [page::31] [page::32] [page::33]

---

附注:


  • 该报告提供的经济叙事编码手册(附录A)与完整示例(附录B)针对人工和机器均制定了详细标准,保证工作复现与可比较性。

- 代码手册严格限定叙事格式、事件范围与经济主题,提示实务中“正向因果”与“连续事件顺序”的核心原则,确保抽取数据统一且学术价值高。
  • 模型提示卡(附录C)详尽列示了用于构建Few-shot CoT提问的完整prompt,有助于研究者复现及优化此类复杂文本抽取任务。


---

若需进一步详细解读附录或示例文本,欢迎告知。

报告