`

Your AI, Not Your View: The Bias of LLMs in Investment Analysis

创建于 更新于

摘要

本研究首次系统地揭示了大型语言模型(LLMs)在投资分析中的内在偏好及其在信息冲突下形成的确认偏误。通过设计三阶段实验框架,针对标普500成分股,分析了模型对行业、规模和动量因素的偏好及其偏误程度。结果表明,LLMs普遍偏好大盘股且倾向于逆势投资策略,这种偏好会在含有矛盾证据时转化为难以改变的确认偏误,严重影响其投资建议的可靠性。此外,模型内部不确定性的熵分析揭示偏好强度与认知冲突的相关性,凸显了模型主观偏见对决策过程的影响,为构建更可信的金融AI系统提供重要基础[page::0][page::1][page::3][page::4][page::5][page::6].

速读内容


研究设计与方法概述 [page::1][page::2]

  • 采用三阶段实验设计:(1)生成买卖等强度的对立证据,(2)通过平衡证据揭示模型内在偏好,(3)通过不平衡证据验证偏见坚韧度。

- 427只连续五年纳入标普500的高知名度股票样本,保证模型基于训练记忆而非生成假信息。
  • 采用统一的定量强度设定,避免语义结构及来源对模型偏好的影响。


行业偏好分析 [page::3]



| 模型 | 偏好强度差异显著性(p-value) |
|----------------|------------------------------|
| Llama4-Scout | <0.001 |
| DeepSeek-V3 | 0.014 |
| Qwen3-235B | 0.003
|
| Gemini-2.5 | 0.035
|
| GPT-4.1 | 0.091 |
| Mistral-24B | 0.124 |
  • 模型间行业偏好差异明显;Llama4-Scout和DeepSeek-V3表现出强烈多样化偏好,GPT-4.1与Mistral-24B偏好平坦。


公司规模偏好分析 [page::3][page::4]


| 模型 | 偏好差异 | 统计显著性(p-value) |
|----------------|----------|---------------------|
| Llama4-Scout | 0.0719 | 0.015 |
| DeepSeek-V3 | 0.1869 | <0.001
|
| Qwen3-235B | 0.1178 | 0.004
|
| Gemini-2.5 | 0.1514 | <0.001 |
| GPT-4.1 | 0.0321 | 0.417 |
| Mistral-24B | 0.0785 | 0.054 |
  • 多数模型展现大盘股偏好,推测是训练数据中大公司信息更丰富的“人气效应”。


投资风格偏好(动量 vs. 逆势) [page::4]



| 模型 | 偏好风格 | 差异显著性(p-value) |
|--------------|---------|--------------------|
| Llama4-Scout | 逆势 | <0.001
|
| DeepSeek-V3 | 逆势 | <0.001 |
| Qwen3-235B | 逆势 | 0.037
|
| Gemini-2.5 | 逆势 | 0.690 (无显著差异) |
| GPT-4.1 | 逆势 | <0.001
* |
| Mistral-24B | 逆势 | 0.579 (无显著差异) |
  • 多数模型明显偏好逆势策略,显示该偏好是普遍现象。


确认偏差验证:证据量与证据强度双重影响 [page::5][page::6]



  • 模型在仅接收对立证据时易改变决策,但当混合正反证据时决策翻转率显著下降,表现出强确认偏差。

- 确认偏差与初始偏好强度呈正相关,偏好强烈的模型更难被对立信息说服。
  • 证据强度增强时,翻转率虽有所上升,但多数模型尤其是高偏好模型仍维持较低翻转率,呈现固执偏见。


模型决策不确定性分析(熵分析) [page::6]


  • GPT-4.1(低偏好模型)在平衡提示下表现高熵,表示高度不确定。

- DeepSeek-V3(高偏好模型)在平衡时熵低,决策坚定。
  • 不平衡提示下,DeepSeek-V3熵显著升高,反映认知冲突;GPT-4.1熵下降,适应外部证据。

- 表明强烈偏好伴随在面对矛盾信息时的内心斗争与犹豫。

研究贡献与意义 [page::0][page::1][page::6]

  • 提出首个针对LLM在金融投资中的偏好和确认偏差的系统量化分析框架。

- 发现LLM的投资偏好严重影响其决策稳健性,揭示偏见形成机制。
  • 为未来设计更可信、透明且符合用户意图的金融AI系统奠定基础。


深度阅读

金融领域大语言模型(LLMs)偏见研究:详尽分析报告



---

1. 元数据与报告概览


  • 报告标题:《Your AI, Not Your View: The Bias of LLMs in Investment Analysis》

- 作者及机构:Hoyoung Lee 等,主来自韩国UNIST及LG AI Research,及美国佛罗里达大学等共计多位研究者联合撰写。
  • 时间:报告内容最新为2024年,相关引用至2025年预期出版工作。

- 主题:研究大型语言模型(LLMs)在投资分析中的固有偏见,特别是其知识冲突与确认偏见如何影响财务投资建议质量。
  • 核心论点:LLMs常因其预训练的“参量知识”与实时市场数据冲突,表现出强烈的确认偏见(倾向于确认其内在的偏好而非客观事实),导致在真实投资服务中推荐与用户意图不符的偏颇建议。报告提出实证实验框架系统量化这种偏见,发现LLMs对大盘股和反向投资策略的偏好普遍存在,且在面对反证时,模型倾向固守最初偏好,表现出顽固的确认偏见。

- 报告价值:首次从量化角度揭示LLMs投资分析中的确认偏见机制,提出对金融AI系统信任和透明性构建的关键警示。

---

2. 逐节深度解读



2.1 引言与背景


  • 介绍LLMs在金融领域的蓬勃应用:新闻情绪对股价预测、分析师报告解读、投资组合优化等领域的尝试,并正向完全自动化的交易代理系统演进。

- 核心问题:知识冲突——即LLM的内在知识(预训练参数知识)与实时市场信息不一致时,模型多表现出确认偏见,偏向支持其既有“认知”。
  • 图1清晰描述这种冲突:金融机构希望聚焦能源板块,但LLM倾向于提议自身“偏好”的科技股票,导致推荐不符用户需求,打击信任。[page::0]

- 此类确认偏见在金融决策中风险极大,尤其在冲突信息共存之时,LLMs表现出“固执的树懒”特征,忽视反对证据。

2.2 研究问题与实验设计(RQ1 & RQ2)


  • 研究问题

- RQ1:LLM在行业(sector)、市值(size)、投资策略(momentum)三个关键财务因素上有哪些内在偏好?
- RQ2:这些偏好如何导致面对矛盾信息时的偏见表现?
  • 三阶段实验框架(图2)

- 阶段1:利用独立模型Gemini-2.5-Pro生成平衡的买卖证据,保证中立且避免对测试模型产生生成偏见。
- 阶段2:向LLM同时呈现买卖证据形成信息冲突,观察其最终偏好以揭示内在认知。
- 阶段3:增加反向证据力量(数量或强度不均),测试偏好是否固化为确认偏见,测量“决策翻转率”。
  • 该框架通过固定任务指令、上下文证据和动作集合,标准化实验设置,有效剥离模型随机性。[page::1][page::2]


2.3 具体实验实施细节


  • 选择了标准且知名度高的427只标普500连续成分股,降低模型“幻觉”生成风险。

- 设定“证据强度”为价格变动预期5%,买证据指价格上升5%,卖证据指价格下跌5%。
  • 评估时重复10次,每次证据顺序随机,提高统计有效性。

- 偏好度计算公式体现模型在正反信息冲突时做出坚定买卖决策的稳定程度。$\pis = |(N{buy} - N{sell}) / N|$ 趋近于1则偏好明显。
  • 偏见验证引入证据数量和强度两维度的不均衡设计,体现现实金融中信息权重和强度差异。[page::2][page::3]


---

2.4 结果分析



2.4.1 内在偏好分析(RQ1)


  • 行业偏好(表1,表2)

- LLM表现出显著风格差异,Llama4-Scout与DeepSeek-V3显示强烈的行业偏好,范围广且强度高。
- GPT-4.1和Mistral-24B整体偏好更均衡、强度弱。
- 独立样本T检验强调偏好差异在统计学上的显著性,部分模型(GPT-4.1、Mistral-24B)未表现明显差异。
- 结论:偏好强度依赖模型架构和训练数据,而非特定行业普适偏好,凸显选用模型时必须审慎评估偏好属性。
  • 规模偏好(表3,表4)

- 绝大多数模型偏好大市值股票(Q1),偏好度随规模下降显著降低(DeepSeek-V3表现最突出)。
- GPT-4.1仍然保持偏好均匀。
- 统计显著性验证进一步支撑上述结论,模型普遍存在“流行效应”,即训练语料中大市值股票信息密集导致更强先验。
  • 投资策略偏好(对动量与反向策略对比,图3、表5)

- 几乎所有模型表现出对反向投资的偏爱,Qwen3-235B尤为突出。
- 统计卡方检验确认DeepSeek-V3、Llama4-Scout、Qwen3-235B及GPT-4.1的偏好达到显著水平。
- 仅Mistral-24B、Gemini-2.5-flash显示无显著偏差,可能为随机波动。
- 该发现揭示LLM在投资理念上的潜在偏见,可能影响策略导向的推荐结果。[page::3][page::4]

2.4.2 偏好转化为确认偏见的验证(RQ2)


  • 证据量驱动的确认偏见(图4)

- 当反证据完全占比时,LLMs普遍接受翻转决策,系$\phi
s^{vol}$近1。
- 但一旦支持与反对证据混合,虽然反对证据数量超过支持,决策翻转率急剧降低。
- 具体表现是强偏好模型(Llama4-Scout、DeepSeek-V3)极难翻转,哪怕反证据占优比例不高。
- 浅偏好模型(GPT-4.1和Gemini-2.5-flash)较易被说服,但整体都显示一定固执倾向。
- 这反映实际金融市场中冲突信息存在时LLMs“过滤”不利数据、强化先入之见的风险。
  • 证据强度驱动的偏见(图5)

- 增加反证据强度(从5%逐增至10%),大部分模型依旧低翻转,说明对反向更强价差的信息难以动摇原偏好。
- Gemini-2.5-flash持续表现最高灵活性,证明无明确偏好的模型更能理性权衡。
- 强偏好模型(Qwen3-235B等)表现最顽固,暗示偏好强度可预测确认偏见的顽固性。
- 上述结果揭示模型在遇到质优反证据时仍可能坚持自身偏见,造成判断失误。
  • 模型内部决策不确定度(信息熵)分析(图6)

- 在证据平衡场景下,强偏好模型(DeepSeek-V3)表现低熵、高信心,而弱偏好模型(GPT-4.1)熵高、决策犹豫。
- 证据不平衡时,强偏好模型熵剧增,表明认知冲突加剧,出现“认知失调”。
- 弱偏好模型熵降低,因其易适应反向多数证据,决策更确定。
- 这一发现揭示偏好强度不仅影响决策方向,还影响模型的内部认知冲突水平和稳定性。[page::5][page::6]

2.5 研究限制


  • 证据生成由单一模型完成,存在生成模型偏差和对真实世界复杂信息表现不足的问题。

- 实验通过证据数量及强度差异测试偏见,某些推理强的大模型可能依赖运算导致结果偏向“计算能力”而非偏见,限定了实验对理性模型的适用性。
  • 仅为静态快照分析,未捕捉偏见的时间动态演进。

- 以上限制提示结果适用时需审慎解读,后续研究可结合多源证据、动态追踪完善。

---

3. 图表深度解读



图1(知识冲突示意图)


  • 展示公司意愿与LLM预先偏好冲突示例。

- 公司偏好能源,小盘股,动量策略;LLM模型偏好科技,大盘股,反向策略。
  • 不同模型给出相互矛盾的投资建议,激活模型内在偏好覆盖用户目标的风险。


表1(行业偏好分数)


  • 列出六个LLM在11个行业里的偏好分。

- Llama4-Scout、DeepSeek差异显著,偏好强且分布不均;GPT-4.1等较平坦,偏好均匀度高。
  • 高分代表模型在该行业买入决策更稳健,偏好强。


表2(行业偏好统计显著性)


  • 独立样本t检验展示行业间偏好差异的统计显著性。

- 多数模型偏好差距显著,唯GPT-4.1等无明显偏好分差。

表3与表4(市值规模偏好及统计差异)


  • 表3显示四分位市值区间偏好,Q1为最大市值区域偏好度最高。

- 表4t检验结果支撑大多数模型对大市值明显偏好。
  • 说明数据覆盖多、信息更丰富的大公司更易影响模型内部预期。


图3与表5(动量与反向策略偏好)


  • 图3柱状图直观展示所有模型偏向反向策略的胜率更高。

- 表5卡方检验确认该偏好在大多数模型中显著,仅少数未能显著证实。

图4(证据量驱动的确认偏见)


  • 横轴为支持/反对证据数量比例,纵轴为决策翻转率。

- 图示在唯一反对证据时翻转率近1;一旦混合证据出现,翻转率降至0.2-0.7不等,偏好强的模型翻转率更低。
  • 显示确认偏见强度与偏好幅度保持正相关。


图5(证据强度驱动的确认偏见)


  • 横轴为反向证据强度增量,纵轴为翻转率。

- 纵向趋势明显向上,强度越大翻转倾向上升,但仍多模型翻转率不足60%,表现偏见顽固。
  • Gemini-2.5-flash最灵活,暗示无强偏好助力模型客观权衡。


图6(决策熵)


  • 显示两模型在平衡与不平衡证据下决策熵的对比。

- 平衡证据时弱偏好模型熵高,犹豫;强偏好模型熵低,果断。
  • 不平衡时,强偏好模型熵骤升,认知失调,弱偏好模型熵下降,决策确定。


---

4. 估值分析



本报告为基础研究与实验设计,未涉及财务估值模型计算,无传统DCF、市盈率等估值内容,分析重心集中于模型偏好量化及确认偏见验证。

---

5. 风险因素评估


  • 模型偏见风险:LLM偏好大盘股与反向策略,导致可能忽视小盘股和动量投资机会,降低多样化和收益优化。

- 确认偏见风险:在现实冲突信息并存时,模型容易固守内在认知,忽视反证,产生错误建议。
  • 信任风险:异于用户意图的推荐损害金融服务的透明度和客户信任。

- 实验限制作为风险:单一生成模型、静态分析阻碍全面识别偏见,实际应用中风险可能更复杂。

---

6. 审慎视角与细节


  • 报告对模型偏好的判断基于大量仿真与统计测试,方法科学严谨。

- 采用独立文本生成模型减少了数据偏见,但仍难完全消除生成内容的隐性倾向。
  • 理性推理能力强的模型可能通过计算规避偏见,导致误判偏见行为,提示需结合推理层面考察。

- 不同LLMs的架构、训练集、调优策略差异巨大,结论对具体应用场景需重新验证。
  • 研究未涵盖跨时间动态偏好演化,但确认偏见的存在现象为金融领域警钟。


---

7. 结论性综合



本报告系统揭示了大型语言模型(LLMs)在金融投资分析领域所固有的内在偏好及其如何在外部信息冲突时坚固为确认偏见。通过设计涵盖427只标准成分股的实证实验框架,报告得出以下核心结论:
  • 模型内在偏好多样化:不同行业偏好在模型间差异明显;普遍趋势是更倾向大市值股票,反映训练数据“流行效应”;强烈偏好反向(contrarian)策略而非动量(momentum),凸显模型在投资理念上的一致偏向。

- 偏好影响决策坚固性:在面对混合冲突证据时,具有强偏好的模型表现出较低的决策翻转率,抗拒反向信息,即表现出高度确认偏见。
  • 证据强度不足以撼动偏见:即使反向证据强度明显增强,模型也很难翻转决策,确认偏见性质稳定。

- 内部不确定性行为:偏好强的模型在平衡证据时表现出低熵自信,在不平衡信息下却表现认知冲突的高熵状态,反映认知失调。
  • 现实影响显著:偏见导致LLM推荐与用户实际意图不符,风险极大,影响金融智能系统的可用性和信任度。

- 研究启示:属性偏好必须作为财务LLM选型和部署的重要考量;未来需发展有效偏见缓解机制,保证金融AI系统具备真实客观的决策能力。

综上,报告不仅首次通过细粒度量化方法揭示LLMs金融投资中的偏见机制,还为实现金融领域的可信赖AI奠定了重要理论与实验基础。图表分析直观验证了偏好与确认偏见之间的紧密关联,提出当前LLM技术应用的风险警示,推动该领域的进一步研究与实践优化。

---

附:重要引用示例


  • 知识冲突及确认偏见概念图示与说明[page::0]

- 三阶段实验设计流程图[page::1]
  • 定义偏好度和决策翻转率计算公式[page::2]

- 行业及市值偏好表格及统计显著性分析[page::3][page::4]
  • 投资策略偏好柱状图及卡方检验[page::4]

- 决策翻转率(证据量驱动)图表[page::5]
  • 决策翻转率(证据强度驱动)图表及解读[page::6]

- 内部决策熵对比图[page::6]

---

本报告分析力求全面涵盖所有关键数据与图表,剖析论证逻辑、实验设计、模型表现及偏见运作机制,旨在为金融领域LLM的应用提供科学、深入、系统的认知视角。

报告