When Experimental Economics Meets Large Language Models: Evidence-based Tactics
创建于 更新于
摘要
本论文结合实验经济学与大语言模型(LLMs)研究,设计两个案例研究探讨实验设计关键要素对LLM行为的影响。发现人格设定显著影响经济偏好但不影响理性表现,单轮对话形态和多选答案限制降低某些模型理性得分。总结七大实操策略以提升LLM实验设计的可复现性和通用性,推动实验经济学在数字时代的拓展和方法论标准化 [page::0][page::2][page::6][page::17]
速读内容
LLMs经济理性测试及基线表现 [page::4][page::6][page::8]

- 采用Afriat临界成本效率指数(CCEI)评价LLM理性,分数越高越理性,1为完美理性。
- GPT、DeepSeek表现优于人类样本,Llama与Qwen表现稍逊,在风险与社会偏好任务均通过Turing测试。
- 个人人格设定对其理性表现无显著影响。
实验设计参数对理性的影响分析 [page::7][page::9][page::10][page::36]

- 单轮对话大幅降低Llama和Qwen理性评分,多轮对话更适合序列决策任务。
- 多选答案格式相比开放式回答降低两模型理性表现,表明限制答案空间影响推理能力。
- 温度参数及例子设置对理性影响有限,奖励激励对除个别模型无明显作用。
- Qwen模型在增大赌注下理性显著下降。
LLMs经济偏好及行为异质性分析 [page::11][page::13][page::14]

- 5种行为经济学游戏展现不同模型间偏好差异,如GPT偏好更公平分配。
- 先进模型GPT更倾向于表现出人类行为,且大部分游戏中能通过Turing测试。
- 人格设定对行为影响显著,尤其职业身份对结果影响最大。
关键实验指导策略总结 [page::15][page::16]
- 建议使用默认温度并固定随机种子以保证结果重复性。
- 默认不分配人格角色,除非研究需评估人格影响。
- 建议使用多轮对话以模拟人类顺序决策过程。
- 优先开放式回答避免答案空间限制导致性能下降。
- 报告无效答案比例,作为模型表现的衡量指标。
- 保持激励机制的描述以便与人类实验对比,实际奖励难以落实。
- 在复杂任务中应设计示例和理解性问题以辅助模型理解任务。
这些策略为未来LLM实验设计提供了经过实证验证的方案,促进方法学统一和实验结果的可比性。[page::17][page::36]
深度阅读
深度分析报告:
1. 元数据与概览 (引言与报告概览)
- 报告标题:When Experimental Economics Meets Large Language Models: Evidence-based Tactics
- 作者:Shu Wang, Zijun Yao, Shuhuai Zhang, Jianuo Gai, Tracy Xiao Liu, Songfa Zhong
- 发布日期:2025年7月17日
- 发布机构:未明确给出,但通过引用和领域推断应属于跨人工智能与实验经济学交叉研究的高水准学术团队
- 研究主题:结合实验经济学原理与大型语言模型(LLMs)实验设计,研究如何科学、标准且可靠地设计经济学实验以测量和评估LLM的行为表现,尤其关注LLM的决策行为、理性及偏好。
报告核心论点:
- 目前针对LLMs的实验经济学设计缺乏系统规范与公认的流程标准。
- 通过综述传统实验经济学原则以及对近年LLM相关研究的分析,明确影响LLM实验结果的关键设计因素。
- 以两组案例研究(预算决策任务与行为游戏)为基础,实证各种设计因素(人物设定、对话类型、回答类型)对不同LLM表现的影响。
- 基于实证结论,提出七条实践策略,指导未来LLM实验设计以提升实验的可重复性和适用范围。
- 报告为实验经济学在数字化时代,尤其是LLM研究中的方法论建设提供了重要贡献。[page::0,1,2,17]
2. 逐节深度解读 (逐章精读与剖析)
2.1 引言与文献综述(第1-3页)
关键点总结:
- LLM(如ChatGPT)的迅速发展激起了围绕其经济行为模拟能力的研究热潮。
- 现有研究多集中于测试LLMs的理性、决策偏好及人类行为的相似度,但在设计规范上高度分散且未统一。
- 与传统NLP指标(有明确正确答案)不同,经济实验聚焦于观察LLM表现出的行为模式,难以用对错标准衡量,结果对提示(prompt)极其敏感。
- 报告提倡借鉴实验经济学设计理念来规范LLM实验,尤其关注指令的清晰、中立及激励安排,同时探讨单回合与多回合对话的设计差异。
- 综述十二篇重要LLM经济实验研究,分析其在温度、人物角色、激励方式、示例与理解问题、对话类型、回答类型和无效回答处理上的异质化设置。
支撑证据与假设:
- 明确实验经济学对指令设计、激励相容的重要性(induced value theory、避免欺骗等)。
- 发现当前文献中Prompt参数设置不统一,如温度设置散布于0至1间,人物设定差异化明显。
- 通过对比,指出多任务对话的单多回合设计对实验结果有效性的影响不容忽视。
- 设定实验验证这些设计因素的实际影响,填补研究规范空白。[page::1,2,3,4]
2.2 Case Study 1:LLMs的经济理性(第3-10页)
设计:
- 选用四种代表性模型:GPT-4o(先进)、DeepSeek-V3(最大参数开源)、Llama3.1-8B、Qwen2.5-7B。
- 两类预算决策任务测量经济理性:风险偏好任务(点数100分配于资产A与B,随机获得资产回报)和社会偏好任务(点数分配给自己与另一人)。
- 基线条件:默认温度、无人物设定、多回合对话、开端带示例及理解问题、多次实验取有效解并统计无效回答,重复100次模拟。
- 实验变量:人物设定(性别、年龄、教育、种族及职业)、对话类型(单回合与多回合)、回答类型(开放式与多选)。
关键发现:
- 无效回答极少,除Llama偶尔出现,说明LLM可大致理解任务要求。
- CCEI(经济理性指标)中,GPT与DeepSeek表现优异,接近完美(CCEI约1),超过常规人类实验结果;Llama与Qwen虽稍差,却处于人类区间。
- Turing测试显示四模型均未被轻易区分于人类理性行为模式。
- 人物设定对理性无显著影响(敏感度0)。
- 单回合对话显著降低Llama与Qwen理性表现(CCEI降约0.1至0.2),GPT、DeepSeek无明显影响,说明对话结构影响模型顺序推理能力。
- 多选回答制约了较小参数模型理性(明显下降),GPT4o已克服此问题。
- 温度变化(0-1)、示例的有无及激励方案变化对理性无一致影响,除Qwen随激励强度递增理性下降较明显。
论证逻辑:
- 通过对比人类基线与四模型表现,展示LLM理性的多样性及对应不同实验条件的敏感度。
- 利用统计检验(t检验)与指标(CCEI)客观量化调整对模型性能的影响。
- 通过多重复模拟修正输出随机波动,增强结果的稳健性。
关键数据:
- GPT和DeepSeek风险偏好CCEI = 1,社会偏好约0.994±0.005。
- Llama风险偏好CCEI=0.953,社会偏好0.968。
- Qwen风险偏好CCEI=0.98,社会偏好0.994。
- 单回合对话对Llama风险偏好CCEI降低至0.841(p<0.01),社会偏好降至0.756。
- 多选回答对Llama风险偏好CCEI降低至0.853(p<0.01),社会偏好降至0.936。


这些图支持文本结论:模型理性表现分布、不同实验设计导致的CCEI变化及统计显著性。[page::4,5,6,7,8,9,10]
2.3 Case Study 2:LLMs的经济偏好(第10-15页)
设计:
- 重复选用同四模型,开展行为博弈测试,包括独裁者博弈、最后通牒博弈(主动方和受益方)、公共物品博弈及炸弹风险游戏。
- 采集首次决策,避免学习效应。
- 基线与实验条件变体包括赋予人物及回答类型(开放式与多选),未操作对话类型(多轮必需)。
- 每场景收集100有效样本。
关键发现:
- 模型间偏好多样,表现出显著异质性。例:在独裁者游戏中,GPT、DeepSeek与Qwen对他人的分配高于人类;在炸弹风险游戏中,GPT和Llama表现更为风险规避。
- GPT能在所有博弈中通过Turing测试,表现最为人类行为相似。
- 人物设定对行为博弈结果影响明显高于预算任务,敏感度分别为35.7% vs. 0%。
- 不同人格设定的影响因任务性质不同而显著异:如最后通牒游戏中的受益者角色对人物设定较为敏感。
- 职业人物的影响尤为突出,影响敏感度达48.3%。
- 多选回答同样显著改变较多模型行为(敏感度55%,略高于人物设定),体现回答类型对行为测试的重要性。
关键数据:
- Turing测试中,GPT在5个场景全通过,DeepSeek与Qwen各失败1场,Llama失败2场。
- 答案图示见Figure 3及对比图Figure 4。


图3展示模型间决策分布差异及概率累积,图4详细展现人格及回答类型对均值决策的影响。[page::10,11,12,13,14]
2.4 实验经济学方法论梳理及LLM实验现状(第2-4页)
- 报告细致梳理经典实验经济学对设计与实施的指导原则,如根据支付理论诱导真实选择、避免欺骗、降低实验者效应、指令清晰中立、考查理解度等。
- 调查现有12篇LLMs实验发表论文,揭示参数不一致(温度、对话方式、回答类型、无效解处理等)。
- 角色设定被有选择地采纳,但其对结果的一致影响并未得到充分验证。
- 多轮对话往往更利于连续决策任务,而单轮对话效率高但限制模型 sequential reasoning。
- 结果突显设计差异对LLM表现统计差异贡献,强调建立标准化协议必要性。[page::2,3,22]
2.5 实验设计和实施建议(第14-17页)
- 温度设为默认或1,兼顾多样性和稳定性,不同温度对表现影响有限。
- 人物设定一般不推荐,除非专门考察人口异质性,否则易引入混杂变量且模型对人物含义理解有限。
- 虚拟奖励方案可纳入提示以便与人类实验对比,但因模型不具备主观效用函数,去除激励一般影响较小。
- 建议在复杂任务中加入示例与理解题以保障理解。
- 多问题任务建议使用多轮对话保障推理连贯。
- 答案格式首选开放式,避免连续变量离散化造成性能下降,除非任务本质要求多选。
- 统计和报告无效回答比例作为性能指标。
报告对七条战术(Tactic 1-7)提供详尽论证(见正文第5章),为今后LLM实验规范化提供了操作指南。[page::14,15,16,17]
2.6 讨论与未来展望(第17-18页)
- 报告总结两案例验证的主要发现,并强调设计差异对理性与偏好实验结果的敏感性。
- 与人类实验规范对齐,有助于推动LLM实验的可复现性、泛化性,并借LLM实验促进人类行为研究。
- 未来方向包括拓展多主体与人机混合实验、适应多模态新LLM架构、提升模型解释性以判别模拟人类理性还是简单模仿。
- 强调在技术飞速发展中,稳固方法论尤为关键。[page::17,18]
3. 图表深度解读(重点图表解析)
FIGURE 1(第8页)
内容描述:展示4大模型与人类在风险偏好和社会偏好任务中CCEI得分的累计分布,以及采用Turing测试判别模型决策是否类人表现的概率。
解读关键点:
- GPT和DeepSeek的CCEI高度集中于1附近,表现几乎完全理性化,超过大多数人类受试者。
- Llama与Qwen虽略有波动,但仍在合理范围内。模拟随机代理反映出明显理性不足。
- Turing测试结果表明,所有四模型均能被判定为“人类行为可能”,超过50%对比判定为人类,模拟随机代理表现不佳。
与文本联系:此图支持了报告强调先进LLMs在经济理性上表现出色,且难区别人类的观点。[page::6,8]
FIGURE 2(第9页)
内容描述:对比各种实验条件(如人物设定、对话类型单/多轮、回答类型开放/多选)对CCEI平均得分的影响差异及置信区间。
解读:
- 不同人物设定对理性几乎无显著影响,点分散围绕0水平线。
- 单回合对话和多选回答对Llama和Qwen的理性影响显著负面,表现为CCEI下降,上述两种条件对GPT与DeepSeek影响较小或无效。
辅助结论:单回合对话限制了顺序推理,多选离散回答限制连续选择表现,提示实验设计需结合模型特性调整。[page::7,9,10]
FIGURE 3(第13页)
内容描述:五个行为博弈场景中不同LLMs及人类的累计决策概率分布和Turing测试结果比较。
解读:
- GPT在五种场景中的行为分布与人类最接近,其他模型差异较大。
- 模型之间表现差异反映在分配金额的统计差异和接受合作的阈值。
- Turing测试表明GPT全部通过,DeepSeek和Qwen部分未通过,Llama通过率最低。
联系文本:支持报告论点,更先进模型模拟行为更接近人类。[page::11,13]
FIGURE 4(第14页)
内容描述:人物设定和答案类型变化对行为博弈中LLMs决策均值差异的置信区间展示。
解读:
- 职业设定对应的行为影响明显,尤其在某些游戏场景(如可靠方)。
- 多选答案引起的行为均值变化往往比人物设定更大,强调回答格式设计对数据影响巨大。
---
4. 估值分析
报告未涉及公司估值财务模型,纯方法论及实证影响研究,无传统估值模块。[page::全文]
5. 风险因素评估
- Persona设定可能引入未能完全理解的人类属性,导致实验内生变量难控,影响结果稳定性。
- 单回合对话限制模型顺序推理,引发理性表现下降,对于较小模型影响尤为显著。
- 离散答题格式压缩了决策空间,导致表现偏离人类真实连续决策。
- 现阶段缺乏检测LLM“表面合理”与“真实理性”间差异的工具,未来解释性风险需重视。
- 模型推断随机性及无效回答率也可能干扰实验结果解读。
报告提出缓解策略包括不强制使用persona, 优先多轮对话、保持开放式回答、详报告无效回答比例。[page::15,16,17]
6. 批判性视角与细微差别
- 报告适度警示赋予人物角色时模型难以准确理解或表现一贯性偏误,呼吁谨慎使用。
- 单回合对话与回答格式改动带来的效应提示某些模型顺序逻辑处理能力不足,体现模型容量对实验设计敏感度。
- 归纳七条指导原则虽有高度实用价值,但并非“金科玉律”,仍需未来发展中灵活调整与验证。
- 人类行为模型较LLM输出包含较多随机性和非理性,报告将‘理性’定义聚焦于经典实验经济标准,或未详尽考察LLM潜在非标准决策。
- 实验只覆盖文本基础模型,未来多模态或更先进模型适用性仍有待检验。
- 报告内部始终保持客观审慎态度,没有过度拔高,也未忽略现有技术的局限。[page::15,17,18]
7. 结论性综合
本报告系统梳理了实验经济学设计原则与LLM研究的交汇,结合12篇代表作及自我设计的两大案例,深入探讨了LLM实验设计中关键的影响因素,对实验表现具有显著量化影响。实证结果显示:
- GPT-4o与DeepSeek表现出极高的经济理性和行为逼真度,超过传统人类基准,且通过多轮对话与开放式回答保证理性输出稳定。
- Llama与Qwen等较小模型易受单回合对话、多选回答等设计因素负面影响,理性表现明显降低。
- 人物身份设定对理性无显著影响,但对行为偏好表现出高度敏感,且职业身份影响最为显著。
- 多选回答类型对行为决策的影响超过人物设定,实验设计时必须慎重权衡回答格式。
- 两案例均通过Turing测试筛选,进一步印证部分模型行为近人。
- 七条设计指导策略基于大量文献与案例实证,强调清晰中立的指令、多轮对话开箱即用的默认温度、开放式回答、适当激励模拟和详尽报告无效输出。
整体来看,报告在保证方法论严谨的同时,从实用角度提出了一套科学、规范、灵活的LLM实验设计方案,有助促进该领域的研究可复制、结果可比较,并推动未来更复杂人机交互实验的发展。通过对所有重要图表、数据趋势、策略细节的详尽解析,帮助学界厘清和评估LLM在经济学领域作为实验对象的潜力及挑战。[page::全文]
---
总结:
此报告是LLM与实验经济学交叉领域的里程碑之作,聚焦于标准化和科学化LLM实验设计。它以严谨的实验方法为基础,通过对四大主流模型在两类经济任务中的表现定量分析,揭示了实验设计对结果的深远影响,并基于扎实证据提出实用操作指南。这些发现和方法有望成为未来LLM行为研究的标准,促进该领域进一步的理论探索与实证深化。
---
如需报告细节,可指定页码用以精准溯源引用。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18]