Uncovering Representation Bias for Investment Decisions in Open-Source Large Language Models
创建于 更新于
摘要
本报告首次系统性地研究了开源Qwen大语言模型在金融投资中的表示偏差,发现模型偏好规模较大、估值高的企业,且行业分类对偏好影响显著。模型信心与基本面指标(如自由现金流)高度相关,但风险指标呈负相关,表明对低风险企业偏好更强。研究提出了基于行业的校准和分类条件评估协议以提升模型公平性和安全性 [page::0][page::1][page::2][page::3]。
速读内容
研究背景与动机 [page::0][page::1]
- 开源金融大语言模型(LLM)在投资中日益广泛应用,但存在对公司规模、行业等关键特征的表示偏差。
- 偏差可能导致风险定价和资本分配扭曲,影响监管合规和投资决策。
- 本文针对Qwen系列模型首次系统分析表示偏差及其驱动因素。
研究方法与数据设计 [page::1][page::6][page::7]
- 选取约150家美国上市公司,涵盖多财务特征与GICS行业分类,2017-2024年数据。
- 采用平衡循环的成对公司比较协议,使用两种提示语共计9类投资判断维度,重复3次以确保稳定性。
- 模型输出选择和信心评分通过限制解码和token-logit聚合获得。
- 信心分数经统计检验,包括Pearson、Spearman、Kendall相关性及FDR多重比较校正。
关键发现:LLM信心的决定因素 [page::2][page::9]

- 市值、企业价值、流通股数、自由现金流等规模和估值指标对模型信心贡献最大。
- 盈利能力、技术指标及成长性指标贡献较弱或不稳定,风险因子通常负相关。
- 产业归属(行业和板块)对信心差异显著,行业解释的方差最大,表明强行业偏好。
不同金融场景下偏好稳定性分析 [page::3][page::10]

- 模型整体表现出跨场景锚定效应,行业排序稳健。
- 技术板块内部波动最大,表明该领域模型表现不稳定。
- 较小规模模型锚定更紧,而最大规模模型更具灵活性和多样性。
模型信心与实证财务指标关联性 [page::3][page::8][page::11]
| 分类 | 财务特征 | Pearson r | Spearman p | Kendall τ |
|------------|------------------|-----------------|---------------|--------------|
| 基本面 | 自由现金流 | 0.495–0.568 | 0.268–0.464 | 0.188–0.332 |
| 技术指标 | 3个月平均成交量 | 0.265–0.424 | 0.288–0.370 | 0.195–0.266 |
| 风险因素 | Beta | -0.252 – -0.313| -0.201 – -0.229| -0.134 – -0.158|
- 模型信心最显著地与基本面指标(如自由现金流)正相关,技术指标次之,风险指标负相关。
- 这表明LLM的信心部分反映了真实合理的财务表现,但仍受表示偏差影响。
结论与应用建议 [page::3]
- Qwen开源金融LLM体现了对规模大、知名度高企业的偏好,行业特点对偏见影响较大。
- 建议实际应用中进行规模和行业偏差校准,使用类别特定提示,并监控信心不稳定性指标以保障模型安全。
- 未来研究计划测试去偏流程,探讨模型规模与架构的交互作用。
深度阅读
金融研究报告深度分析报告
题目: Uncovering Representation Bias for Investment Decisions in Open-Source Large Language Models
作者及机构: Fabrizio Dimino, Krati Saxena, Bhaskarjit Sarmah, Stefano Pasquali,均来自 Domyn,分布于纽约与古尔冈
日期: 发布具体日期未显示,参考文献最晚至2025年,推测为2024年底或2025年初
研究主题: 探讨开源大型语言模型(LLMs),特别是Qwen系列模型,在金融投资决策中存在的“表现偏差”(Representation Bias),研究其对投资判断的影响及潜在风险。
---
一、报告概览与核心论点
本文针对金融领域内开源大型语言模型在投资流程使用时可能体现的“表现偏差”展开首次系统性研究。作者指出,当前金融LLMs表现出对公司规模、行业类别及财务特征的偏好,这种偏差可能导致投资偏误。研究基于约150家美国上市公司,通过Qwen模型的定量评估,验证模型在不同投资判定情景中的信心评分及其与真实财务指标的对齐情况。
核心发现:
- 规模较大、估值较高的公司获得语言模型更高的偏好信心分数,而风险因素越高则模型信心越低。
- 不同行业,尤其科技行业,模型的信心波动较大,表现出类别依赖性强。
- 以不同财务类别进行提示时,模型信心排序与基本面指标关联最强,技术指标居中,成长指标关联最弱。
建议: 需要引入行业敏感的校准及类别条件化的评估策略以缓解偏差,保障模型在高风险金融场景的安全和公平应用。
---
二、逐章深度解读
1. 背景与动机(Background and Motivation)
- 论点总结: LLMs广泛应用于金融领域,但存在表现偏差,即由于训练数据覆盖不足,模型偏向更大型或知名企业,忽视中小企业,从而影响资本配置和风险管理。表现偏差与金融决策的偏误密切相关,亟需深入研究与衡量。
- 支撑依据: 通过引用近期文献,强调表现偏差的金融重要性和现有研究缺口,指出主流开源和商业模型在投资分析中表现迥异,商业模型偏差较小但仍存在。
- 研究定位: 采用多尺度Qwen模型,首次系统定量分析金融LLMs内部的表现偏差,弥补此前研究在投资领域的不足。
2. 研究方法(Methodology)
- 数据与样本: 约300家美国上市公司,对应时间区间2017年1月至2024年12月。跨时间截面标准化企业财务特征,包括估值、财务健康、盈利能力、风险波动、市结构、成长、分红及技术指标。
- 模型测试设计:
- 采用两种稍变的提示词(prompt variants),避免措辞效应干扰;
- 平衡的循环式(round-robin)两两比较,每家公司多次参与对比;
- 输出结果含选择的股票代码及基于token级概率的置信度评分,后者量化模型偏好强度。
- 主要研究问题(RQ):
1. 企业特征对模型信心的影响因子?
2. 模型偏好在不同财务情境下是否稳定?
3. 模型偏好排名与真实财务表现是否对齐?
- 数据统计方法:
- 对数相关指标使用Pearson$r$、Spearman$\rho$和Kendall$\tau$进行多重置信关联分析,控制多重假设检验(Benjamini-Hochberg校正)。
- 行业与板块分类变量使用单因素方差分析(ANOVA)评估影响大小($\eta^2, \omega^2$)。
- 稳定性通过置信度的标准差和中位数绝对偏差的对数变换量化。
3. 研究结果(Results)
RQ1:影响模型信心的关键财务指标
- 如图1(见下图)所示,规模指标(市值market cap、企业价值enterprise value、流通股float shares、总股本shares outstanding)及自由现金流(free cash flow)与模型信心呈显著正相关。
- 盈利能力、技术指标及风险指标关联较弱或不稳定。风险特征如Beta指标呈负相关,说明模型对低风险企业更有信心。
- 行业(industry)对模型信心影响显著(效果量$\eta^2$在0.52至0.67间),板块(sector)影响较小(0.16至0.31间)。这意味着模型在企业归属的细分类别上更为敏感。
- 结论表明模型偏向于在预训练数据中显著暴露的“大型、知名”企业特征,而非传统深层财务质量或市场信号。

RQ2:跨财务情境的偏好稳定性
- 如图2中间、右图所示,模型表现出广泛的锚定效应(anchoring),即不同财务类提示下对同一公司偏好的信心存在一定一致性。
- 科技行业是信心波动最大、表现不稳定的板块,标准差和MAD均高,显示该行业内模型表现对财务上下文更敏感。
- 款项较小模型(Qwen3-8B、Qwen2.5-7B)偏好更锚定且相对稳定,而Qwen2.5-32B较为灵活,显示模型规模和架构影响偏好稳定性。
- 行业内企业间表现差异在不同模型间基本一致,显示行业属性对行为影响显著。

RQ3:模型偏好与财务指标匹配程度
- 表1(下文给出,含统计显著性标识)显示,当提示词与财务类别相对应时,模型信心与实际财务指标具有不同程度的正关联。
- 自由现金流作为基本面指标,在所有模型上均表现出最高且一致的正相关(Pearson相关系数约在0.5左右,且极高显著性$p<0.001$),说明模型能一定程度依赖财务稳健性做出投资偏好判断。
- 技术指标(如3个月平均交易量)呈中等正相关,表明模型能够捕捉市场活动信号。
- 风险指标如Beta值则表现出负相关,符合投资低风险企业获得更高偏好信心的预期。
- 有趣的是,模型规模和架构对效能影响不一,大模型并不总是优于小模型。
| 模型 | 指标类别 | 指标 | Pearson $r$ (95%置信区间) | 显著性 |
|-|-|-|-|-|
| Qwen3-32B | 基本面 | freecashflow | 0.568 [0.405, 0.696] | |
| | 风险 | beta | -0.252 [-0.427, -0.058] | |
| | 技术 | avg-volume3m | 0.394 [0.214, 0.548] | |
| 注释: p<0.001, p<0.01, p<0.05,均为FDR校正后值 |
(详见表1及后续附录表10)
---
4. 结论(Conclusions)
- 表现偏差源于规模和行业影响: Qwen开源财务LLM信心得分主要受企业规模(市值、企业价值)和市场结构指标引导,而传统盈利能力、成长或部分技术指标影响有限,风险指标多为负影响。
- 跨情境表现锚定稳定: 不同提示类别下模型偏好表现锚定且稳定;科技行业的偏好变异最大,显示该领域信息复杂多变。
- 财务指标对应性: 在类别针对性提示条件下,模型信心能显著对应基本面价值,尤其是自由现金流,但成长度指标关联弱。
- 管理建议:
- 需通过后续校准减少对规模和行业的偏好,确保输出公平;
- 应用时采用类别特定的提示并实施后验一致性检查保障决策稳定;
- 纳入基于置信区间和波动性(SD/MAD)的稳定性监控,警告潜在风险。
- 局限与未来研究: 样本只涵盖约150家美国公司,扩展公司池和全球样本后结果可能变动;结果为相关性非因果;未来工作将探索反偏策略及模型规模与架构权衡。
---
三、图表深度解读
图1(第2页图片)
- 描述: 展示四个不同规模与版本Qwen模型中,五个公司财务特征与模型信心的三种相关系数(Pearson、Spearman、Kendall)及其95%置信区间。
- 解读: 各模型均表现出规模相关指标如市值、企业价值、自由现金流与模型置信度的中高正相关,置信区间未跨零,统计学显著明确。技术和风险指标浑浊,表明模型对规模信息敏感,代表训练数据中大型企业信息占优。
- 联系文本: 该图直证了研究中关于表示偏差的核心观点:模型偏好大企业,更少依据深入盈利或成长数据。
图2(第3页图片)
- 描述: 左图柱状统计行业与板块对模型信心的解释力度(n²统计量)。中右两图为模型在各行业内跨财务情境提示下信心波动的热力图,采用标准差(SD)和中位数绝对偏差(MAD)度量。
- 解读: 行业变量解释力显著高于板块,且各模型间结果一致。跨上下文信心波动最高集中出现在科技行业,表明模型对不同行业背景下信息的处理稳定性存在差异。
- 联系文本: 指导我们理解模型跨不同投资策略时的一致性,提醒金融应用中针对特定行业需要特别谨慎和调适。
表1及附录表10(第3至11页)
- 描述: 表格汇总了模型信心分数与对应财务特征(分属于基本面、风险、技术、成长等类别)之间的相关指标,附带统计显著水平及置信区间。
- 解读: 反复确认自由现金流作为核心变量体现模型的主要偏好信心信号,风险指标多为负,技术指标正向但强度有限,成长指标关联最低。各模型规模与架构差异对整体相关度影响有限。
- 联系文本: 该数据支持模型部分地“理解”和反映了真实金融指标,但更大程度上偏向市场规模和风险层面特征。
其他附录表(附录)
- 包括财务特征详细分类(估值、健康、风险、利润等)、样本行业分类、具体提示词版本、统计检验结果详情等,为上述分析提供完整技术支撑。
---
四、风险因素评估
- 报告明确指出表现偏差对投资决策的潜在风险:偏重大型企业可能导致资本错配、小型企业被低估,板块间偏见可能引发监管问题和投资组合失衡。
- 模型在科技行业的信心波动最大,提示该行业信息噪声及演化速度高,实际使用中结果不稳定风险更大。
- 研究未控制数据因果关系,实际交易绩效尚未验证,提示进一步风险评估需要实地验证和回测。
---
五、批判性视角与细节
- 偏见识别与暗示: 报告注重表现偏差,且体现研究者对开源模型在金融领域潜在限制的清醒认识。
- 局限性自主揭示: 样本数量有限,区域局限于美国,无法代表全球,且相关性分析无法断言因果。
- 技术细节严谨: 论文采用多方法、多指标交叉验证,显示出统计学严谨性。
- 潜在不足: 对于模型参数差异和架构细节影响缺乏深入探讨,未来研究方向虽提出但细节尚待展开。
---
六、结论性综合
此报告系统性揭示了开源金融大型语言模型,特别是Qwen系列,在投资决策支持中的表现偏差。研究明确指出,模型对企业规模及行业归属高度敏感,偏好大市值和高自由现金流企业,而对盈利、成长指标关注较少,并对风险指标作出较低信心。这种偏好不仅反映了模型训练语料中信息的天然不均衡,也暗示现实金融应用中潜在的过度简化和信息偏倚风险。跨多财务情境的锚定效应验证了模型偏好稳定存在,而科技行业中表现出的信心波动最大,提醒实践中对复杂高波动行业需特别关注。通过配合类别化提示,模型表现出对基本面和技术指标的部分“理解”,但成长因素关联较弱。整体来看,模型规模与结构对表现影响混杂,提示后续需关注训练数据与架构优化。作者建议实务上对模型输出进行行业和规模调节,采用类别化提示结合后验一致性检测、加大稳定性监控以确保安全使用。
本研究在金融人工智能风险治理中的贡献重大,为金融机构和监管者如何识别、量化及缓解LLM表现偏差提供了数据驱动的技术框架和实践建议,具有较强的现实参考价值。
---
参考摘录
- 关键术语解释:
- 表现偏差(Representation Bias): 训练数据覆盖或呈现不均,导致模型对某类对象(大公司、高估值企业等)有系统偏好。
- 置信度评分(Confidence Score): 模型基于token概率输出判定偏好的强弱指标,反映模型对选择的信心大小。
- 锚定效应(Anchoring): 模型在不同投资判断情境中表现出的偏好稳定性。
- FDR(False Discovery Rate)控制法: 多重假设检验时控制错误发现率的统计技巧。
- 重要测量指标:
- 规模指标: 市值、企业价值、总股本、流通股数。
- 基本面指标: 自由现金流、盈利能力指标。
- 风险指标: Beta、波动率。
- 技术指标: 交易量、移动平均比。
- 成长指标: 收入和盈余增长率。
---
完整报告所有数据、公式、方法和详细表格都在附录中列明,确保研究结论数据支持充分。
[page::0,1,2,3,4,6,7,8,9,10,11]