`

Left Leaning Models: AI Assumptions on Economic Policy

创建于 更新于

摘要

本论文通过组合作用实验系统揭示大型语言模型(LLMs)对经济政策的内在假设,发现其对失业、收入不平等、金融稳定性及环境损害高度敏感,对经济增长、通胀及政府债务等传统宏观经济指标则敏感度较低,且结果在不同模型和政策场景中高度一致,表明LLMs在经济政策立场上存在明显的左倾偏好,为使用LLMs进行经济分析时提供了重要的偏见识别视角 [page::0][page::1][page::5][page::7]。

速读内容


大型语言模型(LLMs)在经济政策评价中的应用及重要性 [page::1]

  • LLMs已广泛用于经济文本总结、政策建议和数据汇总。

- 现存的LLM假设和偏见仍为“黑箱”,亟需深入研究。
  • 本研究采用组合作用实验方法系统提取模型对经济政策的敏感因素。


组合作用实验设计与样本构建 [page::2][page::3]


| 经济政策场景 | 影响因素(变量) |
|--------------|--------------------------------------------|
| 财政刺激 | 经济增长、失业率、通货膨胀、收入不平等等 |
| 货币政策 | 经济增长、失业率、通货膨胀、收入不平等等 |
| 贸易政策 | 经济增长、失业率、通货膨胀、收入不平等等 |
| 税收政策 | 经济增长、失业率、通货膨胀、收入不平等等 |
| 监管政策 | 经济增长、失业率、通货膨胀、收入不平等等 |
  • 128个场景变量组合,每个场景模拟100次,共计64,000次观察。

- 变量均设为二元取值(高/低),确保结果可解释。

核心实验结果:主要影响因素排序 [page::5]


  • 失业率、收入不平等、环境损害对模型评分影响最大(降分约14-16分)。

- 金融稳定性次之,影响约13分。
  • 政府债务和通胀影响较弱(分别约9分和7分)。

- 经济增长对评分影响最小(仅3分)。
  • 不同政策场景下,模型对变量关注有所差异:如通胀权重大多在货币政策场景,政府债务在税收场景更重要。


不同LLM模型之间的一致性与差异 [page::6][page::7]


| 模型 | 平均评分 | 标准差 | 中位数 |
|-------------------------|----------|--------|--------|
| OpenAI GPT-4o-mini | 61.1 | 16.2 | 65 |
| OpenAI GPT-4o | 52.4 | 28.8 | 60 |
| Anthropic Claude Haiku 3.5 | 64.3 | 12.1 | 70 |
| Anthropic Claude Sonnet 3.5 | 48.6 | 25.4 | 25 |
| Google Gemini 2.0 flash | 50.6 | 21.2 | 45 |
  • 各模型对失业影响反应最强(降分幅度从约12到超过40不等)。

- 对收入不平等、环境损害、金融稳定和债务的敏感性较为稳定。
  • 通胀和增长重要性依旧最低。

- 更大模型(如GPT-4o)倾向于更保守的政策评分。
  • 不同模型对特定因素敏感度存在细微差异,例如Gemini对通胀权重更高。


研究结论与意义 [page::7][page::8]

  • LLMs对经济政策表现出明显的“左倾”偏好,优先考虑就业、平等、环境和金融稳定。

- 线性回归模型能够解释超过80%的评分变异,表明LLMs决策具备较强的规律性。
  • 研究方法简单透明,易于复现,展示了社会科学实验方法用于AI模型假设与偏向性分析的潜力。

- 未来工作可进一步拓展为复杂的多阶段、多主体决策分析。

深度阅读

金融研究报告详尽分析 ——《Left Leaning Models: AI Assumptions on Economic Policy》



---

1. 元数据与报告概览



报告标题: Left Leaning Models: AI Assumptions on Economic Policy
作者: Maxim Chupilkin
发布机构/形式: 预印本论文(arXiv等学术渠道,含多篇引用支持),完成于2025年左右
主题: 研究大型语言模型(LLMs)在经济政策评估中的隐含偏好及假设,尤其聚焦AI模型对不同经济政策因素的敏感程度和决策机制。

核心论点及目标信息:
报告旨在考察当前大型语言模型(如OpenAI GPT和Anthropic Claude系列)在评估经济政策时凸显出的偏好和假设,特别是其是否体现出所谓的“左倾”经济政策倾向。通过搭建多因素共轭实验(conjoint experiment),作者探索模型对于关键经济变量(失业、通胀、增长、环境等)的相对重视程度。作者结论是:LLMs较为侧重减少失业、不平等、维护金融稳定及保护环境,而对传统宏观经济关注点如经济增长、通胀、政府债务反而较不敏感。这种模式在多种流行模型间高度一致,暗示其固有偏向需在实际应用中予以重视。该研究提出了对经济政策使用LLMs时需考虑模型内隐假设的警示与未来研究方向。

---

2. 逐节深度解读



2.1 摘要与引言(Abstract & Introduction)



本文指出虽然LLMs被日益广泛用于经济学领域(文本摘要、政策建议、数据聚合等),其内在对经济议题的假设仍是“黑箱”。
作者通过设计共轭实验,系统操纵经济政策变量(财政刺激、货币政策、贸易自由化、税制和监管调整)以及相关结果变量(增长、失业、不平等等),测试模型的响应偏好。
主要发现:不平等、失业和金融稳定及环境影响是模型最关注的因素,而增长、通胀和债务不那么重要;且模型在不同政策情境中显示出对特定变量的侧重(如货币政策更关注通胀)。
多模型间结果高度一致,揭示其内在“偏左”倾向,值得政策制定者和研究者警觉。
方法为社会科学中的共轭实验,引入经济学AI研究领域,且为黑箱模型提供一种可操作的解读工具。[page::0][page::1][page::2]

2.2 文献综述(Literature Review)



文中回顾了当前LLMs在经济领域应用的多方面实例,包括美联储文本分析、财政数据处理和经济科研辅助,也涉及探讨LLMs偏见的相关研究。
对比其他公开研究,作者强调该研究独特之处在于以社科实验方法揭示模型假设,开辟从人类社会科学方法切入AI“黑箱”的道路。
引用了大量近期相关文献支撑理论背景,显示研究紧密衔接前沿学术动态。[page::1][page::2][page::9]

2.3 方法论(Method)



采用共轭实验设计,将五类经济政策(财政刺激、货币政策、贸易、税收、监管)作为基础场景。
对每个场景施加七个二元变量的政策结果预测(经济增长、收入不平等、环境损害、公共债务比例、通胀率、失业率及金融稳定风险),分别赋予“高”或“低”水平。
组合产生128个场景,每个5类政策共640个基础场景,通过重复100次得到64000个观测值,赋予充分数据稳定性。
使用OpenAI GPT-4o-mini模型作为基准,并给模型明确提示让其按0-100整数评价每个政策方案,排除解释以保证评分纯粹。
作者详述设计局限:变量二值处理非连续变化、最小上下文模式、单轮评分限制,后续研究可扩展为多阶段复杂决策模式。
设计透明易复现,是一种探索LLMs假设的初步概念验证。[page::2][page::3][page::4]

2.4 结果分析(Results)



2.4.1 基本统计描述



总体政策方案平均得分约61分,中位数70,显示模型对政策持较为支持态度。
贸易政策得到最高的认可,货币政策得分最低且最不确定(标准差最大)。
模型极少给出最低分(0),表明存在一定的乐观偏差。

2.4.2 关键驱动因素识别(线性回归)



运用OLS线性回归建立评分与七个二元变量之间的关系,人为简化模型但便于解读和传播。
表3结果显示:失业(-15.94分)、不平等(-14.30分)、环境损害(-14.45分)、金融稳定风险(-12.70分)是最主要的负向影响因素。
公共债务(-9.03分)和通胀(-7.09分)效应居中,经济增长影响最小(+2.93分)。
各政策场景保留了这一大致排名,但呈现部分差异,如税收更看重债务,货币政策更看重通胀与金融稳定。
模型解释力强(R² > 0.8),线性模型较好地捕捉大部分评分变异。
实例对比,低失业情境平均得分69,高失业仅53,增长高低评分差异仅为3分,体现模型价值权重明显偏向就业。[page::4][page::5]

2.4.3 模型间对比



论文进一步将财政刺激情景运行于多款主流LLMs:OpenAI GPT 4o、Anthropic Claude系列、Google Gemini 2.0。
各模型的评分均值差异明显,Anthropic Claude Sonnet 3.5最为保守低评分(平均48.6,中位25),GPT 4o-mini和Claude Haiku较为积极。
回归分析表5显示,不论模型,失业仍是首要影响因素,紧接着依旧是收入不平等、环境和金融稳定,债务稍后,增长和通胀最弱。
不同模型对变量敏感度存在幅度差异(如GPT 4o和Sonnet 3.5对失业评分调整幅度达40分以上,GPT-4o-mini和Haiku略弱)。
此外,一些模型对某些变量有更强响应(GPT 4o对债务,Google Gemini对通胀)。
多模型结果高度一致证实了作者关于偏好模式的稳健性及普适性假设。[page::6][page::7]

2.5 讨论与结论(Discussion and Conclusion)



研究确认LLMs在经济政策评估时明显偏好减少失业与不平等、保护环境和保证金融稳定,而对传统经济指标如增长、债务和通胀关注度较低。可归纳为“左倾”经济政策倾向。
多模型的一致性暗示非个别模型特质,而可能源自训练数据或模型架构的深层次原因。
研究强调随着LLMs在经济学界和政策制定领域的广泛采用,理应对模型假设和潜在偏见保持警惕。既要设计无偏模型,也要理解常见商业模型存在的内隐倾向。
方法论贡献显著,证明社科方法尤其是共轭实验能有效解读AI复杂决策过程,未来可丰富为多主体、多阶段的动态研究。
研究呼吁关注模型内隐偏见,并作为后续探索的起点。[page::7][page::8]

---

3. 图表深度解读



3.1 表1:情景设计(Scenario Design)



该表列明五个政策场景及7个二元(高/低)经济变量的设定:财政刺激、货币政策、贸易政策、税收、监管政策,搭配因素包括GDP增长,收入不平等,环境破坏,公共债务比例,通胀率,失业率,金融稳定风险。每变量简单区分“高”和“低”两种情况,便于实验操作和结果解释。

实际文本中带有错误显示,但核心设计可明确理解为固定政策主体 + 变量状态组合,生成128×5=640个独立情景供模型评估,随后每情景评估100次确保稳定性。设计体现对实验可复现性和透明性的重视。[page::3]

3.2 表2:按政策场景统计描述



内容如下:

| 场景 | 平均得分 | 标准差 | 中位数 | 最小值 | 最大值 |
|----------------|----------|---------|--------|--------|--------|
| Fiscal stimulus| 61.1 | 16.2 | 65 | 20 | 100 |
| Monetary policy| 58.1 | 20.0 | 70 | 10 | 100 |
| Trade policy | 64.5 | 15.3 | 70 | 20 | 100 |
| Taxation | 60.3 | 17.0 | 65 | 10 | 100 |
| Regulation | 63.1 | 17.0 | 70 | 10 | 100 |
| 合并样本 | 61.4 | 17.3 | 70 | 10 | 100 |

解读说明:
  • 模型在贸易政策情景中最卖力支持,评分最高,且失业率、环境等综合效应均较低。

- 货币政策得分最低且波动最大,表明该情景中模型立场最为谨慎,可能反映通胀及金融稳定风险的复杂权衡。
  • 模型保持积极面向政策的评分态度(均值均显著高于中性点50),极端低分较少。

- 该表为分析策略关键参数与变量敏感度提供基线,辅以后续回归分析。[page::4]

3.3 表3:按政策场景的回归结果



该表展示每个变量的回归系数及标准误,符号均为负值(除增长为正),系数均在统计上高度显著(p<0.01)。总结主要如下:
  • 失业影响最大(约负14到-17点),意味着失业率升高导致政策评分大幅下降。

- 其次是不平等和环境损害,分别导致评分下降约13-16点。
  • 金融稳定风险影响也显著,降幅在10-18点之间。

- 公共债务和通胀影响中等,分别导致约7-10和5-13点下降。
  • 经济增长正向影响最小,1-5点左右,且部分情境负相关。

- R²超0.8,线性模型解释度较高。

通过这些详细参数,读者可清楚理解不到位经济指标对AI模型评判政策积极性的量化影响,且不同政策情境中权重略有差别,体现模型有条件的内在经济逻辑。[page::5]

3.4 表4:不同模型的统计表现(财政刺激情景)



| 模型 | 平均得分 | 标准差 | 中位数 | 最小值 | 最大值 |
|-----------------------|---------|--------|--------|--------|--------|
| OpenAI GPT 4o-mini | 61.1 | 16.2 | 65 | 20 | 100 |
| OpenAI GPT 4o | 52.4 | 28.8 | 60 | 0 | 100 |
| Anthropic Claude Haiku 3.5 | 64.3 | 12.1 | 70 | 20 | 90 |
| Anthropic Claude Sonnet 3.5| 48.6 | 25.4 | 25 | 15 | 95 |
| Google Gemini 2.0 flash | 50.6 | 21.2 | 45 | 10 | 100 |
| 合并样本 | 55.4 | 22.5 | 60 | 0 | 100 |

解读:
  • 模型间评分平均值差异显著,表现出不同“保守-激进”的政策评价风格:Claude Sonnet最低,GPT 4o-mini和Haiku相对积极。

- 标准差表现模型内部一致性,GPT 4o波动最大,Sonnet也较高,暗示后者在相同输入下回复多样性较大。
  • 这些数据帮助确认先前观察到的倾向不是单个模型异常,而是行业普遍现象的一部分。[page::6]


3.5 表5:不同模型的回归对比分析



分析七个变量对政策评分的影响系数,含标准误,均显著:
  • 失业依然是所有模型反应最大因素,影响幅度从约-12到-41不等(Sonnet 3.5和GPT 4o表现最激烈)。

- 不平等、环境损害、金融稳定风险和公共债务均为中间层次影响,系数大小各异。
  • 通胀和增长整体影响较弱,有些模型甚至对增长无显著反应。

- 该表展现不同模型在细节上的反应弹性差异,反映其训练数据、架构或优化目标差异。
  • R²仍然保持较高,显示线性模型能合理解释评分变化。


此层面分析强化了模型内部存在稳固偏好结构,同时提示用户关注不同模型在权重配置上的差异。[page::7]

---

4. 估值分析



本报告为文本模型行为评估研究,非典型金融估值报告,因此不包含企业估值、DCF、市盈率等传统估值方法内容。报告核心在于对AI模型评价经济政策偏好的统计分析和回归,故无估值分析内容。

---

5. 风险因素评估



报告无直接针对经济风险的财务或市场风险分析,但隐含风险包括:
  • LLMs经济政策建议偏见风险: 模型偏向左派经济政策假设,可能在推荐政策时低估通胀控制、债务风险或增长动力的必要性,影响决策质量。

- 黑箱性风险: 由于模型内部假设难解,使用时难以全面评估其偏好来源及合理性。
  • 模型一致性带来的普适偏见风险: 不同模型来源统一偏差,表明训练语料或架构设定可能普遍嵌入特定价值观,难以消除。

- 报告未详述缓解策略,但强调需识别此类偏见以避免盲信,建议相关研究和政策制定应谨慎评估。

---

6. 批判性视角与细微差别



报告虽严谨,但采用简化二元变量处理复杂经济现实,可能低估了模型对变量连续性和非线性影响的敏感度。
评分指导策略排除解释和多轮互动,限制了模型可能的策略性推理或上下文学习能力。
高R²表明线性模型拟合良好,但也可能掩盖部分内在非线性或交互效应。
多模型表现一致在某种程度上既证实了发现的普适性,又提示需进一步探讨训练数据及模型架构来源是否带来系统性偏见。
报告未展开深层分析模型“左倾”具体源头(例如某些经济学文献倾向性、训练语料中主流经济学派偏见等),是后续研究桥梁。
表1中政策文字输入部分存在乱码和格式问题,影响细节阅读,但不妨碍整体理解设计思路。
  • 作者在强调该方法为“proof-of-concept”时,提醒本研究为初步探索性质,未来应增加复杂场景、多版本提示和多轮问询。


---

7. 结论性综合



Maxim Chupilkin的报告通过创新性地引入社会科学共轭实验方法,深刻剖析了当前大型语言模型在经济政策判断中的偏好结构。基于对64,000条不同经济政策情景的系统分析,报告发现:
  • LLMs对减少失业、降低不平等、维护金融稳定与环保的敏感度最高,联盟了“左倾”经济观点;

- 传统经济指针如经济增长、通胀及政府债务在评分中占次要地位,尤其是经济增长被模型普遍轻视;
  • 不同政策域表现出模型对变量权重的灵活调整,如货币政策评分受通胀更大影响,税制改革更重视债务压力;

- 多款主流LLMs(GPT-4o、Anthropic Claude版本、Google Gemini)均呈现高度一致的偏好格局,验证了研究结果的可靠性和跨模型普适性;
  • 该研究强调用户(经济学研究者、政策制定者、市场参与者)需警觉LLMs固有偏见的潜在风险,避免盲目依赖未经审视的AI经济建议;

- 方法论贡献显著,证明利用社会科学实验设计对“黑箱”AI进行假设解码的可行性及有效性,为未来AI经济学研究开辟广阔前景。

综上,报告不仅提供了一套明确、可复现的技术框架来分析AI经济政策偏见,更通过详尽数据和模型对比,揭示了AI模型内建的价值倾向及其可能的政策影响,呼吁行业对AI辅助决策的审慎和持续监督。[page::0~8]

---

总体评价



本报告以严谨的实验设计,富有洞察力的数据分析和清晰的逻辑论证,为理解和批判当前AI模型经济政策建议的内涵偏好提供了重要工具和视角。图表和回归模型解析细致,跨模型验证增强结论可信度。研究既有理论深度,又具现实针对性,是AI和经济学交叉领域杰出的实践探索。

---

(附:报告中所有表格与回归数据均转载于文本段落对应处,原始格式略有简化方便理解)

报告