`

Evaluating Company-specific Biases in Financial Sentiment Analysis using Large Language Models

创建于 更新于

摘要

本报告通过多种大型语言模型(LLMs)对财务文本情感进行分析,实证量化了模型在包含或不包含公司名时产生的公司特定偏见,建立了经济模型解析该偏见对投资者行为及股价的影响,结合日本市场数据验证偏见对公司特征及股票表现的实际影响,为金融领域LLM应用的偏见管理提供理论与实证依据 [page::0][page::2][page::4][page::5][page::7]

速读内容

  • 研究设计:通过比较包含公司名与不包含公司名的提示,定义公司特定偏见为两者情感分数之差,采用多种LLMs模型进行实证分析,涵盖OpenAI GPT系列、Google Gemini系列、Anthropic Claude系列及本地模型Qwen2-7B [page::0][page::3]

- 量化偏见结果(见表I):各模型约10%的案例表现出偏见,表现为情感评分有正负偏离,表现更优模型表现出更窄且靠近中性的偏见分布,Qwen2-7B模型响应有效率较低
| 模型名称 | +4 | +3 | +2 | +1 | ±0 | -1 | -2 | -3 | -4 |
|----------------|-----|-----|-----|-------|-------|------|-----|-----|-----|
| GPT-40 | | | 7 | 1328 | 8421 | 486 | 7 | | |
| GPT-3.5-turbo | | 3 | 70 | 1530 | 6904 | 1698 | 32 | 3 | 1 |
| gemini-1.5-pro | | | 10 | 755 | 8573 | 886 | 15 | 1 | |
| Qwen2-7B | 2 | 4 | 6 | 9 | 1824 | 6 | 7 | 8 | 10 | [page::5]
  • 公司特征关联:基于MSCI Barra日本股权模型的20个因子进行分析,发现GPT-3.5偏向于对小市值公司、惯性较低公司及价值股表现出负偏见,Qwen2-7B则相反偏好大市值企业,表II显示不同偏见组公司的因子均值及两组间差异,表III展现不同LLMs间因子偏见差异

| 因子 | 正偏见组 | 中性组 | 负偏见组 | 差异(正-负) |
|----------------|-----------|----------|----------|--------------|
| Size | -2.02 | -1.92 | -1.80 | -0.22 |
| Momentum | -0.46 | -0.31 | -0.14 | -0.32 |
| Value | 0.59 | 0.48 | 0.36 | 0.23 |
| Non-Linear Size| -1.10 | -0.95 | -0.69 | -0.41 | [page::5][page::6]
  • 经济模型理论分析:构建包含偏见和无偏投资者的市场,推导均衡价格包含偏见均值、偏见波动率等因素,对偏见超过长期均值时股价产生正或负冲击的机制提供数学证明(定理1),理论框架辅助理解LLM偏见在市场定价中的潜在影响 [page::2][page::3][page::9]

- 偏见对股票表现影响的实证检验:基于事件研究方法,利用日本财报摘要公告事件,按偏见正负分组计算累积异常收益(CAR)。部分模型显示负偏见组股价显著下跌,正偏见组表现较好,特别是Qwen2-7B模型差异最为显著,表IV-VI以及图2-4分别展示各模型正偏、负偏及差异组CAR时间序列走势,验证理论偏见影响的双向性 [page::6][page::7]


  • 研究结论:确认LLM存在公司特定偏见,偏见影响投资者行为与股价表现,提出偏见经济模型并进行实证分析,提示在金融应用中需警惕LLM偏见问题,未来将扩展至全球市场和多语言环境研究 [page::7][page::8]

深度阅读

详细分析报告:《Evaluating Company-specific Biases in Financial Sentiment Analysis using Large Language Models》



---

1. 元数据与概览


  • 报告标题:《Evaluating Company-specific Biases in Financial Sentiment Analysis using Large Language Models》

- 作者及机构
- Kei Nakagawa (Innovation Lab, Nomura Asset Management Co., Ltd.)
- Masanori Hirano (Preferred Networks, Inc.)
- Yugo Fujimoto (Innovation Lab, Nomura Asset Management Co., Ltd.)
  • 发布机构与地点:Innovation Lab, Nomura Asset Management, Tokyo, Japan 等

- 时间:该文档基于2023年至2024年的研究和模型,涉及2024年最新发布的LLMs(如GPT-4o)
  • 主题与研究领域:金融文本的情感分析,特别是用大语言模型(LLMs)评估时是否存在对特定公司的偏见(company-specific bias),以及这些偏见可能对投资者行为和股票市场价格产生的影响。

- 核心论点
- 现有LLMs在金融文本情感分析中可能存在针对特定公司的固有偏见,表现为对某些公司因其历史表现、媒体覆盖等而产生系统性的情感倾向。
- 通过对比包含公司名称和不包含公司名称的文本情感评分,量化公司特定偏见的幅度。
- 构建理论经济模型,模拟有偏与无偏投资者共存时,对股票价格如何被偏见情绪影响的机械性理解。
- 利用日本上市公司的财务报告数据验证公司特定偏见的存在,并研究偏见与公司特征及其股票表现之间的关系。
  • 目的:明确确定和量化LLMs在金融文本情感分析中对特定公司的情感偏见,评估其对市场和投资行为的潜在影响。


---

2. 逐节深度解读



2.1 引言(Introduction)


  • 总结:介绍了金融文本挖掘在投资决策与经济理解中的重要性;强调了LLMs在情感分析上的优势与潜在问题,尤其是偏见问题;指出当前缺乏对LLMs公司特定偏见的系统研究。

- 推理依据
- NLP技术进步和大量金融文本数据的可用,使情感分析获得投资参考的热度提升。
- 现有研究揭示LLMs存在种族、性别等偏见,但公司特定偏见尚未得到足够重视。
- 偏见可能导致不公正的投资行为,损害市场效率。
  • 核心数据点:无具体定量数据,重在理论铺垫和研究动机强调。

- 结论:研究必要且迫切,明确提出通过比较包含或不包含公司名的文本情感得分,来识别公司特定偏见。

2.2 相关工作(Related Work)


  • 情感分析方法

- 传统词典基础法:基于情感词典计数正负词汇频率,优点透明,但难以理解复杂句式。
- 机器学习方法:尤其基于BERT的深度模型,改进情感识别准确率。最新研究表明LLMs在情感分析任务中表现出色,且few-shot学习能进一步提升性能。
- 对日本文本的情感分析有一定研究,包括SSESTM和GNIN,专为日本市场设计。
  • 模型偏见研究

- 偏见类型涵盖人口学、文化、语言等多维度。
- 经典方法如Masked Token检测性别偏见被广泛采用。
- 本文提出的方法基于省略实体名称(公司名)而非替换,创新点明确聚焦于经济文本领域的命名实体偏见,弥补现有研究空白。
  • LLMs对命名实体知识的拥有

- LLM内含大量训练期间采集的实体信息,虽提升性能,但加剧基于实体的偏见风险。
- 以往研究缺少对企业等经济实体偏见的关注,本文填补此空白。

2.3 公司特定偏见定义(Company-Specific Bias)


  • 定义:公司特定偏见 \(\beta = sb - su\),其中:

- \(sb\) 是带有公司名称提示的文本情感评分。
- \(s
u\) 是不带公司名称的文本情感评分。
  • 解释

- 正偏差(\(\beta>0\))意味着模型因公司名给出更乐观评分,负偏差则相反。
  • 实验设计

- 对比两种提示方法的评分,量化偏见。
  • 研究问题

- RQ1:不同LLMs 是否存在公司特定偏见?
- RQ2:哪些公司特征与偏见相关?
- RQ3:公司特定偏见是否影响股票表现?

2.4 理论分析(Theoretical Analysis)


  • 模型构建

- 使用DeLong等人提出的双投资者模型,区分无偏见投资者与有偏见投资者(后者情感加入偏差 \(\beta_t\))。
- 偏见被建模为随机变量,具有时间相关波动(AR(1)过程)。
  • 投资者行为

- 投资者财富动态和投资决策通过CARA效用函数描述。
  • 平衡价格定理(Theorem 1)

- 给出偏见如何影响股票均衡价格的解析表达式。
- 偏见同时有正面和负面影响,视其大小和变异性。
  • 意义

- 理论表明大规模采用偏见LLM情感分析将直接扭曲市场价格及估值。

2.5 实验部分(Experiments)


  • 数据集

- 来自东京证券交易所(TSE)披露的“Summary of Financial Results”,2019-2023年间的数据。
- 重点使用描述公司业绩的财务报告文本(如收入、销量等)。
- 文本示例:日产2023财年全球销量及市场份额数据。
  • LLMs选择

- 多模型对比,涵盖主流开源及商用大模型:
- GPT-4o(OpenAI,2024最新版,文本及多模态能力)
- GPT-3.5-turbo(OpenAI,2023)
- Gemini系列(Google,2024最新)
- Claude系列(Anthropic,2024)
- Qwen2-7B(本地7B参数的日文金融领域表现优良模型)
  • RQ1:偏见表现

- 使用含/不含公司名称两种提示发送给模型评分,验证输出是否在1-5评分范围。
- 结果显示每个模型约10%情形存在偏见,偏见值分布区间从-4到+4。
- 先进模型(如GPT-4o)偏见分布更集中,出现无偏见评分(0值)比例更高。
- 本地模型Qwen2-7B回复率较低。
  • RQ2:公司特征关联

- 借助MSCI Barra Japan Equity Model(JPE4)给出的20个公司特征或暴露率因子,分析偏见组(正/中/负)之间的差异。
- 发现:
- GPT-3.5对较小市值公司偏负,偏好价值股及近期表现较差的股票(由Size、Momentum、Value因子表征)。
- 不同模型间偏见对特征的影响显著不同,部分特征如价值(Value)与动能(Momentum)表现出一致性偏好。
- 高性能模型偏见差异较小,更平衡。
  • RQ3:偏见与股票表现

- 采用事件研究法,基于财报公告前后实际收益与Fama-French五因子模型预测收益的差异计算异常收益(AR)及累计异常收益(CAR)。
- 结果:
- 多数模型正偏见组表现持续负CAR(跌势),负偏见组跌幅更大,且统计显著。
- Qwen2-7B模型除初期表现特殊外,整体负偏见组表现极差,正负偏见组之间差距显著(最高3.68%)。
- 不同模型表现分化,体现出偏见方向对股价的影响和模型能力的差别。

---

3. 图表深度解读



3.1 图1 — 公司特定偏见概念示意




  • 描述:显示LLM训练数据包含对公司信息的各种新闻和报告,模型对含公司名文本给出的情感判断可能与不含名称时不同,从而产生偏见。

- 解读:公司名提醒模型联想相关信息,情感评分因此产生系统性偏差。
  • 联系文本:直观演示定义1中偏见计算逻辑,说明问题由训练数据中固化的认知引发。


3.2 表1 — 各LLM情感偏见频率分布


  • 描述:统计模型输出偏见分值(-4到+4)的频率,表明偏见存在比例和分布幅度。

- 解读
- GPT-4o和gemini系列偏见集中于0附近,显示更准确稳定。
- Qwen2-7B偏见较分散,且有效响应频率较低。
- 约10%样本存在明显偏见,验证RQ1。
  • 支持论点:高性能模型在偏见控制上表现更优。


3.3 表2 & 表3 — 不同偏见组公司特征暴露与模型间差异


  • 描述

- 表2:以GPT-3.5为例,给出正、中、负偏见公司在20项财务特征上的平均暴露值及正负偏见组的差值。
- 表3:多模型正负偏见组暴露差异比较。
  • 解读

- Size、Momentum、Value等因子显著关联偏见方向。
- 各模型偏见因子方向与强度不一,揭示模型对公司特征的不同倾向,表明偏见非模型无关。
- 高性能模型(GPT-4o, Gemini-1.5-pro)整体暴露差异较小,暗示较为公平。
  • 结论:偏见是模型结构、训练和设计导致,需针对具体应用做权衡。


3.4 表4-6及图2-4 — 偏见组股票表现与累积异常收益(CAR)


  • 描述

- 表4/5:正/负偏见组公司在公告后1、10、30、60天内CAR表现和统计显著性。
- 表6:正负偏见组CAR差距(扩散度)。
- 图2-4:同样区分正负偏见组,展示60天内累积异常收益趋势。
  • 解读

- 大部分模型负偏见组出现较大且显著的负异常收益,反映负面情绪导致价格下行。
- 正偏见组表现分化,部分模型显示长期潜在回升。
- Qwen2-7B模型表现极端,正负组之间差距绝对且逐步扩大,暗示其偏见可能被市场强烈反映。
- 加权总的差距统计表明,偏见对股票价格有实质影响,验证理论模型结论。
  • 联系文本

- 图表生动验证了偏见对市场价格的影响,理论与实证相互呼应。

---

4. 估值分析



本报告没有像传统公司研究那样的现金流折现或P/E估值模型,而是通过构建经济模型探讨情感偏见对市场价格的影响机制,属于行为金融与情感分析领域,定量体现偏见如何影响股票价格预期。其估值方法基于理论均衡价格模型:
  • 采用CARA效用和均值方差优化框架。

- 偏见被视作偏离真实预期的情绪冲击,进而影响风险资产需求和均衡价格。
  • 关键输入包括偏见比例(\(\mu\)),投资者风险厌恶系数(\(\gamma\)),偏见的均值与方差及其稳定性参数(\(\theta\)),无偏和有偏投资者的市场份额。


此模型建立了情感偏差与市场价格直接定量关系,明确理论上偏见可正负两面执衡。

---

5. 风险因素评估


  • 模型风险

- 不同LLMs固有训练数据造成的系统性偏见,可能导致对特定公司系统性误判。
- 本地模型性能不稳定,部分回复率低,可能影响情感可靠性。
  • 市场风险

- 大规模采纳带偏见情感分析的交易策略会扭曲市场价格,引导非理性波动。
- 偏见影响实际股价波动,带来投资决策及风险控制失误。
  • 缓解措施

- 采用多模型交叉验证减少单模型偏见。
- 监控和校准模型输出,尤其敏感公司偏见水平。
  • 报告中未深入说明缓解具体方案,但强调需提高模型透明度及公正性。


---

6. 批判性视角与细微差别


  • 模型多样性与一致性问题:不同LLMs之间偏见表现明显不同,表明偏见受训练数据、模型结构及微调策略显著影响,研究假设LLMs为理性投资者等设定较为理想化。

- 文本来源局限:仅使用日本上市公司财报文本,结果是否适用于其他市场和语言尚未验证,报告提及后续研究方向。
  • 偏见定义依赖评分差异:公司名曝光与文本评价变化的直接比较,虽直观,但可能未全面捕捉复杂语境中的语义偏见。

- 实验样本与处理细节:如部分模型评分类别判定规则(只取首个数值)和无响应策略可能影响偏差统计。
  • 假设一个市场均衡存在,忽视其他非情感因素对价格的影响

- 结论倾向谨慎,承认需要进一步跨语言、跨市场实证验证和完善理论模型。

---

7. 结论性综合



本报告围绕“利用LLMs进行金融文本情感分析中是否存在公司特定偏见”问题展开,基于系统的实证与理论分析得出以下关键洞察:
  • 公司特定偏见确实存在:通过对比包含或不包含公司名称的情感评分,多个LLMs在约10%的样本中表现出显著的积极或消极偏见,且偏见程度与模型性能相关,高性能模型能更有效减小偏差幅度(表1)。

- 偏见与公司特征有关:公司规模、动能、价值等多项财务特征与偏见方向呈相关,具体偏好因模型而异。一些模型倾向于对小型、低动能或价值型公司产生负偏见(表2,表3)。
  • 偏见影响股票市场表现

- 根据事件研究,负偏见的公司后续表现通常更差,表现出显著负累积异常收益,正偏见组则表现较优(表4-6)。
- 偏见的股票表现差异随时间持续甚至扩大,表明偏见情绪透过市场影响股价形成机制,验证了理论模型预言(图2-4)。
  • 理论经济模型提供了偏见影响股价的框架和数学定量表达,说明大规模偏见投资者(如基于偏见LLM的自动交易)能产生实质性的市场价格扭曲。

- 跨模型、跨因子与跨时间的综合分析强化了结论的稳定性和广泛意义,凸显在金融领域部署LLMs时必须考虑并控制蕴含的公司特定偏见风险。
  • 未来展望:文末明确提出需扩展研究至其他市场与语言环境,检验偏见跨文化及语言的稳定性和特殊性,加强偏见识别和校正方法。


综上,本文不仅严谨界定和测量了LLMs在金融文本情感分析中对公司产生的潜在系统偏见,还结合理论与实证揭示偏见对股票市场价格的深远影响,为金融领域LLM应用提供了关键的风险识别和管理视角。

---

参考文献及附录说明


  • 报告提供了丰富文献支持,覆盖情感分析、机器偏见、金融市场行为等领域,参考权威且前沿。

- 附录中给出了对经济模型中定理1的完整数学证明,显示研究的理论深度与严谨性,体现了模型从投资者效用最大化到市场均衡价格的严格推导过程。

---

总结



本文以极高的严谨度和多维度实证分析,系统地揭示了金融领域LLMs情感分析中的公司特定偏见及其市场影响,强调了偏见对投资决策和市场价格的潜在风险及必要的警惕。该研究对促进LLMs在金融领域的安全、合理应用,具重要指导意义和值得深入关注的学术价值。[page::0,1,2,3,4,5,6,7,8,9]

报告