`

Tracing Positional Bias in Financial Decision-Making: Mechanistic Insights from Qwen2.5

创建于 更新于

摘要

本研究提出了首个针对金融领域大语言模型(LLM)Qwen2.5的统一检测框架,量化并揭示了二元金融决策中的位置偏差及其机理来源。结果显示位置偏差普遍存在且随模型规模和提示设计变化而波动,风险类任务中的偏差尤为顽固。通过机制可解释方法,研究定位偏差主要集中于模型的中后层及特定注意力头,提示了针对性去偏策略的方向 [page::0][page::1][page::3][page::4][page::5][page::6][page::7]。

速读内容


研究背景与意义 [page::0][page::1]

  • LLM在金融决策中应用日益广泛,但现有研究很少关注金融特定场景下的“位置偏差”(primacy和recency效应)。

- 位置偏差可能导致资产配置和风险判断失衡,进而影响经济决策的公正性和合规性。
  • 本文创新地将机械可解释性分析结合金融领域,系统揭示Qwen2.5模型中位置偏差的产生和传播机制。


实验设计与数据规模 [page::1][page::2]

  • 采用10种金融分析提示类别(如Fundamental、ESG、Risk、Growth等),4种投资顾问风格(保守、适中、激进、默认),2种提示模板,覆盖18个大盘科技媒体公司(FAANG+扩展)。

- 总样本数据量达73,440次模型行为观测,确保统计稳健性。
  • 通过播对比设计和三重重复实验精确量化位置偏差指标(包括Wilcoxon签名秩检验、Hodges–Lehmann估计器)。


位置偏差规模与敏感性分析 [page::3][page::4]


  • 模型规模对位置偏差影响显著:1.5B和7B模型表现出明显偏差,14B模型普遍偏差大幅减弱,但风险类任务依然表现顽固。

- 提示顺序和模板设计显著影响偏差效果,部分类别如Growth与Innovation对顺序敏感。
  • 不同风格的系统提示对偏差强度有明显调节作用,保守型加强偏差,适中型抑制;激进型表现居中。


机械可解释性分析:层级与注意力头归因 [page::4][page::5]



  • 位置偏差主要集中在模型的中后层:1.5B及7B在12-24层,14B在32-48层。

- 特定少数注意力头被识别为位置偏差“核心发动机”,其位置在模型规模增大时趋于分布广泛但仍具代表性。
  • 模板设计影响偏差注入时点(早期/晚期),但偏差主要成因和传播层级基本一致。


不同类别偏差表现及提示词影响 [page::5][page::6]


  • 除风险类外,大部分类别在较深层产生并稳定偏差。

- 风险、创新、增长类别偏差波动较大,受模型规模和提示词影响显著。
  • 提示词选项顺序(template2)在小模型中缓和偏差幅度,未能根本扭转偏差趋势。

- 模型规模仍为控制偏差的最显著因子,大模型表现更平滑但不消除偏差。

结论与展望 [page::6][page::7]

  • 规模扩大能明显减少位置偏差严重程度,但不能消除所有领域内的偏差,尤其金融风险管理任务。

- 提示顺序和提示风格是易被忽视但实质性可控的偏差干预杠杆。
  • 机械解释解析指出,针对中后层特定注意力头的去偏策略,以及上下层叠加的上下文调节机制是未来研究和实务部署方向。

- 现实限制包括研究依托Qwen2.5系列、英语二元比较任务及FAANG+标的,后续将拓展多语言、多模型及多元决策场景。

深度阅读

金融决策中位置偏差追踪:基于Qwen2.5模型的机制性洞察详细分析报告



---

1. 元数据与报告概览



报告标题: Tracing Positional Bias in Financial Decision-Making: Mechanistic Insights from Qwen2.5
作者及机构: Fabrizio Dimino(Domyn, 纽约,美国)、Krati Saxena(Domyn, 古尔冈,印度)、Bhaskarjit Sarmah(Domyn, 古尔冈,印度)、Stefano Pasquali(Domyn, 纽约,美国)
发布日期与场合: 2025年11月15-18日,于第六届ACM国际金融人工智能会议(ICAIF ’25)发布
主题: 探讨大语言模型(LLM)在金融决策中存在的“位置偏差”现象,聚焦开源Qwen2.5-instruct系列模型(1.5B至14B参数规模),通过新构建的金融真实场景数据集检测、量化,并基于机制可解释性分析揭示偏差来源及传播路径。

核心论点与贡献:
  • 发现LLM在金融二元决策场景中普遍存在显著的位置偏差(对展示选项的顺序敏感,包括首因效应和末因效应)。

- 该偏差不仅与模型规模密切相关,还受提示词设计和金融具体语义的影响。
  • 通过机制可解释性技术,首次系统定位了Qwen2.5模型内部引发与传递位置偏差的层和注意头,揭示了偏差的内在运行机制。

- 构建了第一个针对金融领域位置偏差的综合评测框架和数据集,提出了可操作的偏差缓解和模型治理建议。

整体上,报告强调,负责且可信地将LLM应用于金融高风险决策需深入理解并管理这类潜在偏见。[page::0,1]

---

2. 逐节深度解读



2.1 摘要及引言


  • 主要内容:

大型语言模型在金融投资筛选、风险识别等关键环节广泛使用,但因架构复杂且不透明,其潜在的“位置偏差”影响尚未系统探讨。作者提出,位置偏差可能导致资产配置和风险判断出现系统性误差,危及决策公正性。
  • 方法框架:

通过自定义的金融领域真实数据集,结合Qwen2.5模型的对比决策任务,采用机制可解释性技术揭示偏差产生的层和注意力头,突破了以往仅停留在现象描述的研究局限。
  • 研究意义:

该尝试为金融场景下LLM的公平性评估建立了新标准,对模型调优和治理提供了技术路径,进一步促进了金融AI的安全使用。[page::0,1]

2.2 相关工作综述


  • 位置偏差已有研究集中在通用大模型的开放域任务上,发现不同模型架构、规模和语言环境下偏差表现不一,呈现首因和末因多样化。

- 金融领域相关研究多聚焦于社会人口学偏见和行为经济偏差,对位置偏差的定量刻画及其机制尚无深入探索。
  • 提示词设计对模型输出影响明显,尤其提示选项顺序会引发制度性的偏见。

- 机制可解释性研究表明,偏差往往映射到特定层和注意头,可通过局部调节缓解,但现有研究多针对非金融模型或缺乏跨模型、多任务验证。
  • 本文填补了金融专属LLM位置偏差机制解析的空白,拓展了机制研究的应用场景。[page::1]


2.3 方法学


  • 实验设计

定义4种投资者风险态度框架(保守、中庸、激进、默认),结合10个金融决策类别(如基本面、情绪、ESG、技术指标、风险管理、增长潜力等),分别测评18家大盘科技及传媒公司的两两组合,共73,440条观测数据,涵盖多维提示词结构(两种顺序模板)及随机重复。
  • 位置偏差检测

利用配对比较设计,计算公司被置于第一或第二位置时被选中的概率差异,$\Delta{i,c}$衡量单家公司在类别$c$中的位置偏差方向和强度。
  • 统计推断

采用双侧Wilcoxon符号秩检验确认偏差显著性,影响力通过效应值$r$度量,结合Hodges–Lehmann估计器进行稳健效应值估计,并利用集群自助法构建置信区间,确保统计结论可靠。
  • 机制可解释性

通过TransformerLens框架获取层、位置残差向量,进行直接logit归因(DLA)评估偏差贡献,利用logit透镜对层间排名进行分析,配合注意力头消融实验定量衡量每个头对位置偏差的贡献。
定义核心指标包括层级归因分数$A
{\mathcal{P}}^{(l)}$和头级归因差值$A^{(l,h)}$,以此系统刻画位置偏差形成路径。[page::1,2]

2.4 实证结果(RQ1-RQ3)


  • RQ1 - 模型规模对偏差影响:

- 1.5B及7B版本存在普遍强烈位置偏差;14B版本整体显著减弱偏差,支持模型放大可缓解偏差的先验研究。
- ESG和情绪类在14B模型中呈现偏差方向反转(偏向第二位置,末因效应)。
- 风险管理类别始终保持高偏差,无论模型规模,表明该领域术语如“波动性”和“暴露度”的语义歧义导致偏差根深蒂固。
  • RQ2 - 提示顺序敏感性:

- 14B模型在不同提示模板下的偏差效应值波动明显,提示词顺序对偏差强度影响显著。
- 增长与创新类别尤其敏感,表明偏差不仅是模型固有,更受任务语境与表达结构调节。
- 基本面和风险类则表现出稳健的偏差,与领域固有语义紧密相关。
  • RQ3 - 系统风格对偏差的调制:

- 激进风格导致中等程度偏差,平衡增长视角。
- 保守风格稳步放大偏差,可能因其谨慎语言强化首因效应。
- 中庸风格往往减少偏差,表现最为平滑,提示适度提示设计可作为缓解路径。
- 整体说明提示设计不仅影响输出风格,更是偏差治理要素,需要策略性配置。[page::3,4]

2.5 机制性解释与分析(RQ4-RQ6)


  • RQ4 - 内部偏差驱动组件识别

- DLA归因热力图发现偏差主要聚焦于中后半层(1.5B和7B在12-24层,14B在32-48层),对应提示中后段token位置。
- 模板差异导致偏差贡献时间点前后移动(模板2更早出现),但偏差最终都在深层集成。
- 注意头消融指向一组“超级偏差头”,分布稀疏且集中,规模较小模型头数较少但影响更强,较大模型头分布宽泛但不彻底消除。
  • RQ5 - 领域语义及提示词对偏差传播的影响

- 层间排名差异分析显示早层几乎无偏,深层突发增长,反映决策综合阶段聚集偏差。
- 小模型偏差激烈且缺乏校准,大模型表现较平滑。
- 风险类别多层次波动显著,提示语义复杂度明显影响偏差强度。
- 不同模板对小模型偏差调整有效,但同质化明显,模型规模依然是主导因素。
  • RQ6 - 跨模型与任务一致性与差异性

- 不同模型均有稳定的通用偏差头,列举具体层头位置(如Qwen1.5B的L16H0、L21H9等,14B分布在25-36层)。
- 规模较小模型偏差呈现稀疏且剧烈,规模大模型更为分散且持续,但无根本解决。
- 语义丰富领域(风险、创新、增长)加剧偏差波动,提示更复杂金融任务对偏差更敏感。
- 提示结构主要影响偏差注入时机,不改变偏差所在位置,基于此提出分层缓解建议:通用策略针对核心头层,结合上下文特定提示工程。
[page::4,5,6]

2.6 结论


  • 模型规模提升显著降低金融决策中的位置偏差,但特定领域如风险管理仍顽固存在偏差。

- 提示词顺序与风格是重要调节变量,尤其保守语态明显放大偏差,适度风格可减少。
  • 机制性解析显示位置偏差由中后层固定的少量注意头驱动,难以通过提示重写彻底消除。

- 推荐采用结合提升模型规模与强化提示设计的双轨策略,同时部署机制感知的模型监控和针对性调整。
  • 未来研究计划扩展至多语言、多元决策场景,并尝试包括激活修补、表示控制等更细粒度干预手段。

[page::6,7]

---

3. 图表深度解读



3.1 表1:模型规模与提示顺序对位置偏差影响的实证数据(Prompt 1,默认风格)


  • 描述: 汇总1.5B、7B及14B三种规模模型下各金融类别的Wilcoxon效应值$r$与Hodges-Lehmann(HL)估计,以及不同提示模板(Prompt1与Prompt2)对偏差大小的影响。

- 数据与趋势分析:
- 1.5B与7B模型效果值均高(大多大于0.8),偏差显著且强烈。14B模型偏差明显减弱,多数类别的HL值趋近于零甚至呈负(ESG、Sentiment)表明偏差反转。
- 风险类别在14B依然保持较高正HL值(最大28.1),反映其偏差抗性。
- 模板2相较模板1,在部分类别如增长、创新表现出更大的偏差减弱,说明提示词顺序可微调偏差强度。
  • 文本联系: 支撑RQ1和RQ2结论,模型放大和提示设计均调节位置偏差。

- 潜在限制: 表中仅统计意义及估计值,未展示样本量分布与层间动态,后文热力图补充这些细节。[page::3]

3.2 表2:系统提示风格对14B模型偏差的影响


  • 描述: 三种投资顾问风格(激进、中庸、保守)下各类别效应值与HL估计。

- 数据与趋势分析:
- 保守风格总体表现出最大效应值和偏差扩大效应,尤其风险(HL最高至24.7),反映谨慎语调强化首因偏差。
- 中庸风格偏差整体较中等甚至较低,许多类别HL接近零或负值。
- 激进风格偏差程度在两者之间,反映其既含风险接纳又兼顾增长的混合视角。
  • 文本联系: 清晰印证RQ3,提示语气风格是调控偏差的关键变量,为后续提示工程提出方法论依据。[page::4]


3.3 图1:中/底层Direct Logit Attribution热力图(跨规模与模板)


  • 描述: 展示1.5B、7B、14B三种规模模型在两种提示模板下,各层各token位置的90百分位归因计数。

- 数据与趋势分析:
- 偏差集中于中后层(1.5B及7B落在12-24层,14B落在32-48层)。
- 模板1(选项后置)使偏差集中在后段位置,模板2(选项前置)偏差更早出现,且部分早层受累积位置影响。
- 归因密度随着模型大小增加呈现分布更广但峰值更平滑的趋势。
  • 文本联系: 体现了偏差注入的时间窗口与层级定位,基于提示顺序调整偏差注入节奏,但核心层面一致。

- 局限性: 未直接关联消费性能,暂需结合后续注意头消融分析理解具体贡献头。[page::4]

3.4 图2:注意头消融归因热力图(跨规模与模板)


  • 描述: 各模型规模与提示模板下,按层与注意头划分的位置偏差归因激烈区域分布。

- 数据与趋势分析:
- 小模型偏差头较少、影响强烈,集中中层;大模型偏差头分布更广、更分散,仍稳定出现于中后层。
- 模板1与2呈现高度重叠,表明偏差驱动单元核心稳定不变。
  • 文本联系: 支持偏差由少数“超级偏差头”主导的观点,提示模型规模带来偏差平滑但不彻底消除头级偏差单元的影响。

- 局限性: 未详细剖析单头作用机制,适合后续针对性头正则化策略开发。[page::5]

3.5 图3与图4:层间排名差异与赢率动态


  • 描述: 展示三种模型规模下,随着层数增加,两个被选公司词元在logit排名中的差异分布,及其赢率(偏向后位或前位项)。每个类别及提示模板均分别呈现。

- 数据与趋势分析:
- 偏差在早层基本无显著表现,后层迅速上升。1.5B模型偏差幅度大,赢率曲线偏向首因,7B/14B则轻微偏向末因。
- 风险类别涨幅最大,伴有显著波动,表明其决策复杂性和语义多义增加模型不确定性及偏差幅度。
- 模板2相较模板1能降低部分小模型的偏差峰值,提示提示词语序能调节关注分散度。
  • 文本联系: 为RQ5提供实证支撑,展示金融任务语义复杂度与提示设计明显调节内部偏差传播路径。

- 局限性: 长尾层的误差区间较大,暗示部分极端样本影响较强,需结合更大样本验证。
[page::5,6]

---

4. 估值分析



本报告主要属于偏差检测与机制解析范畴,不涉及公司股价或项目的财务估值模型(如DCF、P/E等)分析,因而未包含相关估值参数和计算,仅涉及估计统计效应(Wilcoxon效应值、HL估计器)和归因分数指标。

---

5. 风险因素评估


  • 报告确认LLM中位置偏差对金融决策带来结构性风险,尤其在资产配置和风险管理等高敏感环节。

- 风险偏差不可简单通过模型规模放大消除,风险类别表明偏差与金融语义复杂度紧密关联,若放任不管可能导致投资风险误判和合规风险。
  • 不当提示设计(顺序、风格)亦可能放大或引发偏差,增加操作风险。

- 因此,报告建议:
1. 结合技术和流程层面监测偏差出现与变异;
2. 多元策略缓解风险,包括提示工程、模型正则化、上下文监控;
3. 维持多模型、多任务、多场景测试以确保泛化安全。
  • 报告未对风险缓解概率及成本展开量化分析,未来或可细化策略效果的适用范围与实施代价。[page::6,7]


---

6. 批判性视角与细微差别


  • 报告较为客观系统,但有几点需提醒:

- 研究对象限制于Qwen2.5系列和英文金融领域二元选择,泛化到其他模型架构、多语种及非二元金融决策,风险未知。
- 偏差调整虽然通过提示策略和模型规模调整呈现差异,实际场景复杂度可能超出本实验设计,尤其涉及多方互动、多时间序列决策时,偏差表现可能更异质。
- 机制解释侧重于注意力头和层,但Transformer架构的非线性、层间相互作用复杂,定位偏差源头仍存在不可解约部分。
- 实验重复次数3次虽平衡资源与稳定性,但更大样本或不同随机种子可能揭示更细微的偏差模式。
- 表现出的偏差反转(如ESG、情绪类别)值得进一步理论阐释,报告中未深入解释偏差反转的因果机理。
  • 报告策略兼顾通用和语境敏感缓解,但未涉及在线学习或实时修正机制,未来可进一步探索动态调控手段。[page::7]


---

7. 结论性综合



这份报告首次系统研究了金融领域中LLM(以开源Qwen2.5-instruct系列为例)的位置偏差现象,涵盖模型规模、提示词设计及细粒度机制层面,给出极具启发性的实践与理论价值:
  • 规模放大总体压制位置偏差,但特定金融类别(如风险管理)依然高偏差且稳固存在;这显示了金融领域术语语义的特殊性对模型决策偏差的内生影响。

- 提示词顺序与提示风格是非参数却影响显著的偏差调节杠杆,尤其保守语态强化首因效应,中庸语态降低偏差波动,提示工程不可小觑。
  • 机制解析揭示偏差“发生部位”为模型深层中后半段及少数注意头,表明偏差的“发动机”位置稳定,提示干预工作应聚焦这些核心层与头,而不只是表层提示策略。

- 多模式、多任务实证进一步强调偏差泛化与局部变异兼具,构建了金融LLM可信部署的基础框架。
  • 评估和缓解需要双轨路径:提升模型规模以及精细设计提示词,配合面向注意头的正则化、激活修补和动态监控,确保在金融决策中的公平与安全。

- 本研究奠定了金融领域LLM偏差的测量与解释国产体系,期待未来能扩展多语种、多决策维度,完善过程的自动化和验证机制。

综上,报告提出对Qwen2.5金融决策机器学习应用的深度运维与治理建议,为未来金融AI公平性与可解释性工作指明了方向。[page::0 - 7]

---

关键图表图示(示范):

图1:三种模型规模(1.5B、7B、14B)与两种提示模板下中层位置偏差归因热力图


图2:不同规模模型与提示模板下的注意力头消融归因热力图


图3:层间排名差异分布与赢率变化,体现偏差随模型深度的演化


图4:各类别层间赢率比较,反映领域差异和提示模板对偏差调节的影响

---

总结



本报告通过详尽的实证与机制剖析,系统揭示了金融领域开源大语言模型Qwen2.5面临的结构性位置偏差风险,为工业界和学术界带来了可操作、透明的偏差检测与缓解技术路径,强调在高风险金融应用中推进模型规模、提示词设计与细粒度内部机制调控三重一体的治理策略,保障智能决策的公平、安全和可解释性。

报告