`

STEER: Assessing the Economic Rationality of Large Language Models

创建于 更新于

摘要

本报告提出了STEER基准,系统且可调控地评估大语言模型(LLM)在经济理性决策方面的表现,通过设计细化的64个理性元素及层次结构,生成24500多道多项选择题,覆盖金融、医疗等多领域与13个难度等级。通过对14款不同规模LLM的大规模实验,结果表明模型性能显著受参数量影响,大模型(如GPT-4 Turbo)在低难度题上表现优异,但高级推理题表现趋近随机,且适当提示技术和自我解释能提升模型表现。此外,模型在避免认知偏差和多领域鲁棒性方面表现不一,展现当前技术的潜力与局限 [page::0][page::1][page::5][page::11][page::18][page::19][page::20][page::21]

速读内容

  • STEER框架基于经济学理性决策理论构建,区分FOUNDATIONS、单主体、多主体及代理决策四大设定,涵盖64个细化理性元素,以严谨的依赖图组织这些元素,设计多项选择题以校验模型对各元素的掌握 [page::2][page::5][page::6].


  • 问题生成流程采用GPT-4 Turbo基于模板与静态系统提示自动生成,并通过人工抽查保证98.54%的有效率。题目涵盖医疗、金融、技术等多领域,配以13级难度分级,确保测试的系统性与广泛适应性 [page::2][page::3].


  • 报告对14款不同规模及微调状态的LLM进行对比,包括GPT-4 Turbo、GPT-3.5 Turbo、Llama系列及Falcon多种开源模型。评估指标包含准确率、归一化准确率和置信度校准误差(ECE)。揭示了模型参数量与性能强相关,40B参数以下的模型整体表现较差,GPT-4 Turbo表现最优 [page::6][page::17][page::18].

  • 基础数学技能(算术、概率、逻辑、优化等FOUNDATIONS)方面,GPT-4及GPT-3.5表现优异,归一化准确率普遍高于0.3,而小模型表现负面,表明在基础推理上仍存在显著差距 [page::8][page::9].




  • 对单主体环境决策(如效用最大化、公理遵守、认知偏差回避)评测显示,高级认知偏差(避免沉没成本谬误、避免禀赋效应)GPT-4 Turbo表现出较高能力(多项归一化准确率>0.5),但对风险态度及理性预期计算仍有不足 [page::11][page::12].



  • 多主体环境测试(博弈论范畴)中,模型在纳什均衡、优势策略识别、迭代删除劣势策略等元素上表现整体较弱,尤其是在复杂的扩展式博弈及重复博弈中性能下降明显,深入体现了LLM对多轮互动和战略推理的局限 [page::13][page::14].



  • 在代理他人决策(社会选择与机制设计)模块,模型能在帕累托效率、多数投票等简单社会选择问题中取得中等水平,但在机制设计关键特性(激励兼容、预算均衡)上表现弱,说明LLMs对涉及策略欺诈和复杂激励机制推理的理解有限 [page::16].



  • GPT-4 Turbo整体准确率约63.6%,归一化准确率约0.33,显著领先其他模型;GPT-3.5 Turbo紧随其后,但在高级难度及多主体环境题目中表现趋于随机猜测。小型模型多呈现负归一化准确率,未能稳定超越随机水平 [page::18].


| Model | Normalized Accuracy | Exact-Match Accuracy |
|-----------------|---------------------|----------------------|
| GPT-4 Turbo | 0.3302 | 63.61% |
| GPT-3.5 Turbo | 0.3071 | 61.69% |
| Llama-2 70b | 0.2897 | 41.73% |
| Llama 65b | 0.2849 | 39.67% |
| Falcon 40b Instruct | 0.1320 | 35.73% |
| Falcon 40b | 0.0765 | 34.55% |
| Llama 13b | -0.2655 | 20.54% |
| Llama-2 13b | -0.3013 | 16.39% |
| Alpaca Native | -0.3044 | 22.19% |
  • 难度等级划分的SRC显示,模型表现随难度上升而显著下降。GPT-4 Turbo在Grade 0(最简单)题目能完成约75%的理性差距,Grade 9及以上则接近随机性能。GPT-3.5 Turbo更早跌至随机水平(Grade 7) [page::19].


  • 认知偏差专项报告卡中,GPT模型在确定性环境中更表现理性,在随机环境下易受框架效应影响,特别是避免确定性效应的表现明显不足。避免沉没成本谬误上表现优异 [page::18][page::19].
  • 领域鲁棒性分析显示同一模型在不同应用领域(如医疗、金融)表现差异显著,GPT-4 Turbo在医学领域面临表现波动,可能因对敏感领域的对齐策略导致模型反应更谨慎或表现噪声增多 [page::19].
  • 依赖鲁棒性分析表明模型在高级元素的表现通常不及其基础元素,迭代删除劣势策略等部分高级元素表现尤其薄弱,暴露复杂因果关系推理不足 [page::19].
  • 自我解释适配技术对提升模型表现有效,GPT-4 Turbo在处理确定性环境认知偏差时准确率显著提升,例如确定性效应避免的准确率由0.079提高至0.508 [page::19].
  • 少样本提示法表明,最多三例示范能提升大部分模型性能,超出此数则可能导致性能下降,提示示范数量需精细调控 [page::19].

深度阅读

STEER: Assessing the Economic Rationality of Large Language Models — 深度解析报告



---

1. 元数据与概览


  • 报告标题: STEER: Assessing the Economic Rationality of Large Language Models

- 作者与机构: 主要作者包括Narun Raman、Taylor Lundy、Samuel Amouyal、Yoav Levine、Kevin Leyton-Brown、Moshe Tennenholtz,分别隶属于不列颠哥伦比亚大学(UBC)、特拉维夫大学、斯坦福大学和AI21 Labs、Technion等。
  • 时间节点: 2023年,文章为预印本,处于审稿阶段。

- 主题: 该报告提出了一套系统性的基准体系STEER,用于评估大型语言模型(LLMs)是否具备“经济理性”,即作为经济决策代理人时的合理决策能力。
  • 核心论点: 传统上经济学和认知科学对理性行为已有成熟理论,LLMs是否能作为经济代理人值得深究。STEER基于精细的64个“经济理性元素”构建测试,覆盖单代理、多代理、代理他人决策及基础数理逻辑能力。通过生成超过13万道测试问题,对14个不同LLM进行大规模实证评测,发现模型大小和特殊提示对理性表现影响显著。STEER最终产出报告卡(SRC)形式,支持用户灵活定制评估标准。[page::0,1]


---

2. 逐节深度解读



2.1 引言及研究动机


  • 近年来,多项研究尝试将LLMs作为经济决策“代理人”,涉及规划、医疗诊断、金融规划、游戏等领域,未来有望完全替代人类决策者。

- 这就提出了两个核心问题:如何配置和调教LLMs以最大化决策效果?当前表现如何?传统方法局限于具体狭义任务,作者主张从经济理论出发,提出一个跨领域普适性的理性判断测试体系。
  • 经济理性核心在于效用最大化与风险偏好,且涵盖单一代理、多代理博弈与社会选择等复杂结构,凸显其理论深度和应用复杂度。[page::0,1]


2.2 STEER设计与测试体系(Section 2)


  • STEER将64个理性“元素”定义成可测问题的形式,每个元素多域、多难度层级实现,题目均为多选形式,形式统一且易于自动生成与检测。

- 采用GPT-4 Turbo辅助模板生成理念:专家设计模板和示范,通过模型生成变量化题目,结合人工抽查保障题目质量,整体有效率98.54%,最低仍达97%。
  • 题目难度(Grade Level)分级1-13,体现从简单数学到复杂策略推理不同层次,领域涵盖医学、金融、工作等,确保测评内容多样性与鲁棒性。

- 用户可通过web界面定制测试集,生成包含分层和域过滤的理性表现报告单,即SRC,支持相关性深挖和开放源码促进后续研究。
  • 实测评估14款LLM,涵盖OpenAI GPT-4 API及多模型开源版本,采样温度0,结合“自我解释”和少样本演示提升策略,呈现丰富适应性实验设计。[page::2,3,6]


2.3 经济理性元素的分类(Section 4)



报告将理性元素结构化为四大“决策场景”设置:
  • Foundations(基础):算术、优化、概率、逻辑、理论心智(即认识他人信念的能力)

- Decisions in Single-Agent Environments(单代理环境):基于von Neumann-Morgenstern(vNM)效用公理,涵盖偏好转移性、独立性、公平避免认知偏差(沉没成本、禀赋效应)、风险中性效用计算等
  • Decisions in Multi-Agent Environments(多代理环境):游戏理论分析,包括正常形式博弈,广义形式博弈,迭代消除劣策略、纯纳什均衡、子博弈完美均衡、完全与不完全信息博弈,Bayesian博弈等

- Decisions on Behalf of Other Agents(代理他人决策):社会选择与机制设计,包括社会福利函数、公平投票算法、激励相容机制及拍卖理论

每个模块细分多项具体测试元素,构建依赖关系图,例如“迭代消除劣策略”依赖于“理解博弈收益矩阵”、“理论心智”等。

注解: 此分类系统准确映射经济学文献中的理性元素,同时兼容认知和逻辑基础,为LLM测试搭建严密的理论框架。[page::2,6,7,9,12-16]

2.4 模型表现评估与指标(Section 5)


  • 使用两种准确率指标:

- 精确匹配(Exact Match Accuracy): 直接测答题正确率
- 归一化准确率: 考虑题目选项数,调整随机猜测基线,使得不同测试可比性更强
  • 置信度校准(Expected Calibration Error): 衡量模型预测的概率估计与实际准确率差别,用于反映模型决策信心水平

- 鲁棒性评估:
- 域最差性能(Domain Robustness):衡量模型在不同领域里最弱表现,以检测泛化能力
- 依赖性能(Dependency Robustness):根据元素依赖图,验证高级元素表现应不优于基础组成部分,验证逻辑一致性
  • 适应策略:

- 自我解释(Self-Explanation): 要求模型解释推理过程,显著提高低难度及认知偏差模块表现
- 少样本提示(Few-Shot Prompting): 适量示例可调动模型能力,3样本效果最佳,超过则表现退步

2.5 各模块模型表现细节(核心图表说明)


  • FOUNDATIONS(图8-10)

- 算术、优化、概率、逻辑和理论心智基础模块中,GPT-4 Turbo和GPT-3.5 Turbo表现优异(归一化准确率均远高于0),开源模型中Llama-2(70b)表现次优。
- 部分开源模型表现甚至低于随机基线,尤其是较小模型。[page::8,9,10]
  • 单代理决策(图11-14)

- vNM效用公理相关测试(转移性、独立性)中,GPT家族表现优良,其他模型差距明显。
- 沉没成本悖论避免表现较好,但禀赋效应避免有较大差异,不同模型表现极分化,部分小模型表现异常。
- 风险中性计算和最大化元素,GPT-4仍领先,表现随难度加大迅速下降。[page::10,11]
  • 多代理博弈(图17-18)

- 结构单一的正常形式博弈相关元素,如识别优势策略表现较好,但纳什均衡及迭代消除劣策略等高级元素表现普遍不及低层元素。
- 广义形式博弈中,子博弈完美均衡、向后归纳难度更高,所有模型表现均有限。[page::13,14]
  • 社会选择与机制设计(图19-20)

- 社会选择的帕累托效率、一致性、公平投票等基础元素,GPT-4优于其他,开源模型普遍处于低水平甚至负表现区。
- 机制设计部分(激励兼容、预算平衡、拍卖设计)目前测试尚未充分展现顶尖模型优势,整体表现较为平淡。[page::16]
  • 测试报告摘要(表2)

- GPT-4 Turbo总体归一化准确率最高(0.33,精确匹配63.6%),紧随其后的是GPT-3.5 Turbo,开源中Llama-2 70b次之。
- 小于40B参数模型未能显著超过随机猜测,模型尺寸显著影响表现。
- 分难度等级表现呈递减趋势,高等级(9以上)题目显著难倒所有模型,进一步反应当前模型推理层级的瓶颈。[page::17,18,19]

---

3. 图表深度解读



3.1 分类体系及依赖图(图1、图5)


  • 图1系统展示了经济理性的分类框架:基础数学能力在最底层,分为算术、优化、概率、逻辑、理论心智;上层分别为单代理决策、多代理、多主体决策。模块色彩区分,从基础红色至代理他人决策的紫色,视觉清晰易于导航。

- 图5依赖子图具体揭示“2人2策略博弈中迭代消除劣策略”所需的分步认知能力,明晰了模型能力测评的逻辑连贯性以及元素间因果关系。

3.2 题目生成与示例(图2、图4)


  • 图2展示了具体题目自动生成过程,包含用户提示模板、系统静态提示和扩展题目示例,确保生成内容契合定义要求。

- 图4展示不同领域(项目、工作、医学、拍卖)中“最大化期望效用”元素的多领域、多等级题目示例,体现STEER测验题目丰富的应用场景和难度分布。

3.3 具体模块表现热力图多样化呈现(图8至图20)


  • 每一模块图表均以归一化准确率为度量,横轴为14个不同模型,纵轴为模块具体子任务。

- 颜色从深绿(高性能)到深红(低性能)分布均匀,其中GPT-4 Turbo多处表现绿色,上游小模型普遍红色。
  • 该视觉效果直观反映不同子任务在不同模型中的性能落差,为后续细节分析提供了直观依据。


3.4 总体性能与等级趋势(图21)


  • 左图清晰展示了各模型随着题目难度增加表现的系统性下降,尤其是GPT-4 Turbo从Grade 0的0.75水准降至Grade 9附近的随机猜测水平,表明随着推理深度的需求增长,现有模型能力骤减。

- 右图展现了模型元素对中平均与领域最差表现存在较大分散,验证了领域鲁棒性问题。

3.5 Web应用界面(图22-23)


  • 图22详示任务层级选择、具体问题样例预览(如损失厌恶)及导航设计,高度交互,方便用户自定义SRC

- 图23展示用户按难度筛选形成的测试课程体系,灵活针对不同需求下载相应题库。

---

4. 估值分析



本报告并不针对某个金融标的进行估值,而是围绕LLM经济理性构建独立的评测框架。因此估值方法聚焦于:
  • 准确率指标(Exact Match、Normalized Accuracy)以及置信度校准(ECE)

- 依赖图逻辑稽核,保证模型对组成部分的掌握优于或等于对更复杂任务的理解
  • 鲁棒性指标,对不同领域间最低表现进行分析

- 模型调优与prompt策略评估,衡量自我解释、少样本提示对成绩的提升和边际效应
  • 本质为实验设计价值评估体系,不涉及DCF、PE等传统估值技术。


---

5. 风险因素评估



报告提及部分隐含风险:
  • 评测结果的可解释性分散:允许用户自由设置报告卡,可能导致跨用户、跨实验间难以统一对比,增加模型性能“全球性”排名的复杂度。

- 任务组合复杂性限制:目前测试多为元素独立评估,现实中模型面临多项要素交叉,表现可能有差异。
  • 适用性边界:难以确保现有prompt和策略适用所有元素,需要针对性调校。

- 真实世界表现不确定性:现实场景变化多端,超出测试范围。
  • 模型训练与刷新风险:存在少样本过度拟合、提示数目增加带来的性能下降等现象。


这些风险对模型部署及结果解释带来约束,报告建议需谨慎解读并结合实际场景进行验证。[page::20,21]

---

6. 批判性视角与细微差别


  • 模型表现可能偏低的原因多样:模型训练目标、应用场景偏差(如医疗数据敏感调控)可能导致某些子领域表现不稳定。

- 报告结构合理但部分依赖手工评判与模板设计:尽管高效,但仍存在潜在误判及题目设计偏差风险。
  • 对高级博弈策略(如迭代消除劣策略)表现明显偏弱,而这往往是更接近人类理性思维的关键,体现当前LLM推理短板。

- 评分方式多样则助于多场景适应,但不利统一排名,限制了benchmark的通用性。
  • 在认知偏差测试中,模型虽避免部分偏差但在风险偏好上的一致性测试表现欠佳,暗示模型内嵌人类非理性偏差的可能性。[page::5,19,20]


---

7. 结论性综合



STEER报告书为LLM经济理性评估设立了行业首个结构性标准,其创新点及价值体现在:
  • 理论基础扎实:直接对接经济学经典理性理论,覆盖范围广泛,结构清晰,形成64个可测元素的层级网络。

- 数据量大、覆盖面广:近13.5万题,14款主流模型,多领域、多难度层级,自动与人工验证结合保证题目质量。
  • 严格依赖多维度评分指标,包括准确率、置信度校准和鲁棒性,保证评估全面细致。

- 揭示模型能力瓶颈:大模型表现明显优于中小模型,等级升高表现显著滑坡,表明复杂推理及多代理决策仍困难。
  • 辅助适应技术有效:自我解释促进低难度和认知偏差模块表现改善,少样本提示聚焦3例最佳,多例反而下降。

- 开放生态自定义:用户可灵活定义测试集与评分标准,促进多学科社区参与。
  • 应用广泛,社会影响深远:为AI代理系统安全性、可靠性提供量化验证工具,助力经济决策自动化发展,同时提醒潜在的社会风险与偏见复制。


图21的表现趋势、模块热力图和依赖关系图体现了整体研究深度和细致性,报告严谨且前瞻性强,为今后LLM理性能力的调优、强化学习提供重要基线和映射。

---

参考文献与附录简介


  • 报告列举详尽文献,覆盖经济和机器学习领域,引用经典vNM理论、Kahneman-Tversky行分别理论、博弈论文献等。

- 附录提供各元素详细示例题,涵盖1.1算术到4.4机制设计模块,帮助用户理解评估细节与场景设计。
  • Webapp展示图片演示实际界面交互,支持灵活的定制和格式输出。


---

总结



STEER为LLM经济理性测试奠定了规范方向,突破当前单领域、单任务限制,提供多维度、跨模型、跨领域的标杆基准。它的层级化设计与丰富题库使经济理性评测科学化、标准化,有效揭露了模型当前限制,同时通过适应策略实验表达未来改进空间。该报告不仅为LLM作为可靠经济决策代理的路径提供理论和实践工具,也针对代理系统的社会影响和风险提出警示,推动更负责任的人工智能发展。

---

(全文引用页码示例:此处所有结论均对应相应位置,标注格式:[page::0,1],[page::2],[page::5,6],[page::19,20]等。)

报告