Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina
创建于 更新于
摘要
本报告通过11-20金钱请求游戏评估大型语言模型(LLMs)的战略推理深度,揭示几乎所有先进LLM未能复制人类行为分布,表现出显著的行为不稳定性和与人类认知本质的根本差异。多种提升方法(提示工程、检索增强生成、微调)均未能显著提高LLM的人类相似度,强调了提示脆弱性、模型记忆依赖及LLM理性缺失等局限,呼吁研究者谨慎使用LLM作为人类行为代理或模拟工具 [page::0][page::1][page::3][page::4][page::5][page::9][page::10][page::12][page::13]
速读内容
- 研究背景及动机:
- 近期研究表明大型语言模型(LLM)在经济实验、感知任务和心理理论任务中表现出类似人类的行为,推动其作为社会科学人类代理的应用 [page::0][page::1]。
- 研究质疑LLM在较少研究的上下文中的泛化能力及其对设计与实施选择的敏感性,强调需科学审慎使用 [page::1][page::12]。
- 核心实验设计:
- 采用11-20金钱请求游戏评估LLM的Level-k推理能力,该游戏因简单且知名度较低,减少记忆效应干扰 [page::2][page::3]。
- 使用8款主流LLM(包括GPT-4, GPT-3.5, Claude模型及Llama系列)进行1000次独立游戏模拟,数据收集时间为2024年2至4月 [page::3]。
- 实验主要结果:
- 除GPT-3.5外,所有LLM常选择20或19,表现相当于level-0或level-1推理,远低于人类玩家平均level-3推理(选择17)水平 [page::3]。
- LLM的响应分布显著偏离人类行为分布,经Jensen-Shannon散度统计检验均显著不同(p<0.001),且模型尺寸越大并不代表行为越接近人类 [page::4]。
- 不同11-20游戏变体对人类与LLM的影响反应不同,LLM对任务设计变化不敏感或反应不一致,体现出稳定性差 [page::4][page::25]。
- 语言(英语、中文、西班牙语、德语)及角色指派(理性玩家、人类玩家)对模型表现影响显著,提示存在严重的提示脆弱性 [page::5]。

- 提升技术测试:
- 零样本提示(Chain-of-Thought等)、具示例的少样本提示和情绪或优化类提示对提升行为人类相似度效果有限,反而导致部分LLM过度集中于非典型的推理水平 [page::5][page::6][page::22][page::23][page::24]。



- 检索增强生成(RAG)使输出更贴近人类分布但仍显著不同;微调GPT-4o可复制人类数据分布,但其泛化能力尚不明确;新微调模型Centaur虽训练大量人类数据,仍无法完全复现人类行为[page::7][page::8][page::9]。

- 行为不一致与失败模式:
- LLM自述选择理由暴露其对游戏规则的误解和偏差,如误认为多叫一元可得奖励,或偏向公平和避免损失,反映RLHF带来的行为倾向 [page::8][page::27]。
- LLM对简单任务表现不一,较大模型有时难以理解直白规则,表现出记忆驱动和模式匹配多于真实推理 [page::9][page::21]。
- 记忆测试显示LLM对传统美丽竞赛游戏文本指令记忆准确,但在11-20游戏上几乎无记忆,说明之前的良好表现主要依赖训练数据而非推理能力 [page::9][page::21]。

- LLM的本质缺陷与局限性:
- LLM与人类智力目标本质不同,前者依赖统计规律记忆与文本预测,无具身经验;数据稀缺、推理弱、解释不一、提示脆弱和过度记忆均限制其作为人类代理的适用性 [page::10][page::11]。
- RLHF调校虽减少有害输出,但引入行为同质化和偏差,不利于精准模拟多样化人类行为 [page::11]。
- LLM输出表现强随机性,提示设计和语言细微变动即可引发显著差异,应重点关注提示稳定性和模型响应一致性 [page::5][page::10][page::11][page::29]。
- 研究建议与结论:
- 明确实验设计参数,运行多次采样关注输出分布,识别并报告已知失效模式,跨模型跨条件测试稳定性,关注OOD与ID表现差异,并重视提示设计和数据泄露风险 [page::12]。
- 体认LLM非传统数学/物理仿真工具,应作为创新生成工具用于假设设计,避免过度信任其当前输出作为人类行为模拟 [page::13]。
- 研究发现:LLM虽形态似人类,归根结底依赖多头自回归结构驱动的统计模式,行为不可预测、有多头风险,使用时务必谨慎,谨防陷入“LLM回声室”效应 [page::13]。
- 辅助数据:
- 多图展现各LLM及策略的响应分布及其与人类的差异(详见第4、5、7、9、21页相关图表)。
- 多表详细统计响应分布的时间变异性、提示脆弱性测试结果及Jensen-Shannon散度统计(均显示除微调外显著差异) [page::28][page::29]。
深度阅读
金融研究报告深度分析报告
---
一、元数据与概览
报告标题:Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina
作者:Yuan Gao, Dokyun Lee, Gordon Burtch, Sina Fazelpour
发布机构:Boston University(波士顿大学)Questrom School of Business & Northeastern University
发布日期:2025年1月23日(最新版)
研究主题:探讨大型语言模型(LLMs)能否作为人类的行为替代者(Human Surrogates)在社会科学及行为经济学研究中的效用与局限,特别聚焦于其在人类决策行为模拟的准确性与稳定性。
核心论点:虽然一些研究表明LLMs可以展示类似人类的推理能力,但实际上LLMs在模仿人类行为分布方面表现不稳定且多样,且难以通过常用强化技巧(零样本、few-shot、RAG、微调)实现真正的“人类行为”复制。报告通过11-20金钱请求游戏为实验载体,系统验证了各主流LLM在该简单博弈中的表现差异及失败模式,强调LLMs的潜在不适用风险,呼吁对模型行为的严谨评估及谨慎使用。
作者从学术和实践两个视角提醒,现阶段LLMs应被看作是具备“类似人类的表象”但在本质与行为决策机制上存在重大不同的系统,是“Scylla Ex Machina”(人类模样、内核却异质多面的‘怪物’),并非人类智慧的真正替代品。[page::0,1,2,12,13]
---
二、章节深度解读
2.1 引言与研究背景
报告首先回顾了近期文献中关于LLMs表现出“类人认知能力”的研究,涵盖行为经济学经典任务、政治学、市场营销及心理学等领域,有部分研究称其能够“模拟”人类偏好与决策过程。产业界也兴起了用LLMs模拟消费者行为的应用场景(例如Startup Synthetic Users)[page::0,1]。
作者指出,尽管表现引人注目,但LLMs的行为稳定性及泛化能力未被充分检验。以此出发,报告设计实验验证它们在一个相对未知、简单且结构清晰的策略性博弈中的表现。这为控制“记忆效应”与“指令理解”的影响提供了基础[page::1,2]。
---
2.2 研究核心实验设计:11-20 金钱请求游戏及Level-k推理机制
- 游戏规则简介:
- 两位玩家各自请求11到20谢克尔的整数金额。
- 每人获得请求金额。
- 当且仅当一个人请求金额恰好比另一人少1谢克尔,则前者得到额外20谢克尔奖励。
- Level-k理性框架:
- 该游戏设计有助于检测战略推理深度——选择20为level-0(无推理),19为level-1(推理一步),依此类推,17代表level-3,被普遍认为是典型人类参与者的推理水平。[page::2,3]
---
2.3 实验执行与主要结果
- 实验方法:
- 选取8款主流LLM(包括多个版本的GPT和Claude及Meta的LLaMa模型)进行各1,000次独立实验。
- 采集生成的请求金额分布,使用Jensen-Shannon(JS)散度衡量与人类样本及纳什均衡的差异。
- 关键发现:
1. LLM在该游戏中表现出明显较低的推理深度,大多数模型选择20或19(level-0/level-1),远低于人类平均17(level-3)。
2. 所有模型输出分布与人类显著不同(JS散度统计显著,p<0.001)。
3. 模型规格/参数量与人类相似度不成正比,例如,GPT-3.5的表现更接近人类且更为多样,GPT-4反而更趋集中且推理深度偏浅。
4. 游戏设计的轻微变动导致LLMs表现不一且不稳定,部分模型对设计变化反应不敏感,表现“机械”,与人类行为模式差异明显。
5. 这一表现并未因模型规模增加或近期迭代改进得到本质改善[page::3,4,25]。
---
2.4 提高性能的高级技术尝试
作者测试三大流行方法:
- 零样本提示(Zero-shot Prompts)及链式思维提示(Chain-of-Thought, CoT),鼓励LLMs分步推理。结果显示大多数高级模型并未明显改变输出分布,小型模型会偏向非人类的极端行为,效果有限[page::5,22-24]。
- 少样本提示(Few-shot Prompts),向模型提供有限数目的典型人类例子。实验显示模型行为极度依赖示例本身,表现为“机械复制”输入示例的分布,未展现真实的类人推理[page::6,7]。
- 检索增强生成(Retrieval-Augmented Generation, RAG),即让模型访问外部已知文献以辅助推理。结果虽有所改善,但仍无法完全匹配人类行为分布[page::7,9]。
- 微调(Fine-Tuning),针对11-20游戏真实人类样本定向训练。微调GPT-4o可生成不可拒绝来自人类分布的输出,但对新情形的泛化能力仍未可知。类似微调模型Centaur同样未能通用模拟人类行为,且微调依赖大量已有人类行为数据,性质上违背用LLM替代数据稀缺现实的初衷[page::7,8,9]。
---
2.5 LLM链接失败模式与内在逻辑分析
- LLM回答理由存在多种失败模式:
- 误解游戏规则(例如Bonus定义错误)
- 行为不一致(如声称风险规避但行为未体现)
- RLHF导致输出偏向公平和无害,模糊模拟真实人类行为的复杂性
- 大型模型经常出现对简单问题的逻辑错误,且对任务描述的敏感性与不稳定性较高。
- LLM未能准确复述11-20游戏说明(逼近0%),但对“Beauty Contest”等经典游戏说明呈现高复述率,表明经典任务可能存在“数据记忆”而非真正推理,质疑了其作为人类行为模拟器的有效性[page::8,9,21,27]。
---
2.6 LLM本质上的局限性
- 根本目标不同:LLMs以概率模式预测文本,缺乏人类的身体经验和生存目标,表现出的推理难以真正模拟人类动机。
- 缺乏“体现”:与人类通过感官、行为与文化嵌入世界不同,LLMs纯粹依赖语言模型架构,认知维度受限。
- 数据瓶颈与知识稀缺:高质量训练数据趋于枯竭,且人类隐形知识未数字化,限制了模型对人类复杂认知的学习。
- 推理能力不足且不稳定:表现为在逻辑推理、因果推断、时间、事实等多个基础认知能力上的弱点。
- 提示易变性(Prompt Brittleness):微小改动带来显著输出差异,影响模型在科学实验中作为“稳定代理”的可靠性。
- 过渡记忆而非真正理解:模型大量依赖训练数据记忆,导致“随机鹦鹉效应”(stochastic parroting),表现出伪造理解。
- 强化学习反馈(RLHF)影响:降低输出多样性,增加偏向特定价值观(公平、无害),与真实人类行为背后的多样性存在差异[page::10,11]。
---
2.7 研究者与审稿人评估建议
明确推荐了9条评估要点,强调对LLMs作为人类代理模型的使用应注意:
- 实验详细文档,包括模型版本、接口、采样时间与提示内容。
- 多次迭代捕捉完整响应分布,远超均值描述。
- 识别常见失败模式(幻觉、记忆依赖、不一致性)。
- 检查模型跨不同条件下的稳定性与敏感性。
- 验证任务敏感性,模型需对任务细节变更表现出类似人类的响应。
- 测试提示脆弱性,尝试多语种、多措辞。
- 排查数据泄露和训练数据记忆(通过要求描述实验任务说明等)。
- 比较模型在熟悉/陌生任务下的表现差异(OOD检测)。
- 利用自我解释辅助理解模型行为,但需警惕其与实际行为不符[page::12]。
---
三、图表深度解读
3.1 图1:11-20游戏中人类、纳什均衡与LLMs响应分布对比(第4页)
- 描述:图示包括人类用户、理论纳什均衡及各LLMs(GPT-4,GPT-3.5,Claude系列,Llama系列)的响应频率分布和与人类分布相似度(以JS散度评分表示)。
- 数据与趋势:
- 人类分布多元,集中在16-18左右,反映level-3推理深度。
- 纳什均衡分布显示多峰结构,理性选择为标准参考。
- GPT-4、Claude3-Opus、Llama多集中选19/20,代表低层次推理。GPT-3.5分布较宽,呈现多层推理但与人类仍有显著差异。
- 文本联系:证实模型普遍表现低于人类策略水平,规模更大模型不必然更好。
- 局限性:部分模型数据过于集中,导致密度分布图省略以防误导。[page::4]

---
3.2 图2:提示脆弱性—不同语言与角色设置对GPT-4与GPT-3.5行为的影响(第5页)
- 描述:左侧展示不同语言(英语、中文、西班牙语、德语)下的响应分布,右侧则是基于角色(无角色定义,理性玩家,人类玩家)的变化。
- 解读:
- GPT-4在中文提示中推理深度低于英语,且角色定义更改表现反应有限。
- GPT-3.5对语言和角色非常敏感,显著改变推理深度分布,输出多样性减少。
- 联系文本:强调语言与角色定义等看似无关的提示元素会大幅影响模型行为,带来行为稳定性隐患。
- 局限性:不同语言训练数据量和质量差异可能导致行为变化。[page::5]

---
3.3 图3:Few-shot链式思维提示后的响应分布(第7页)
- 描述:展示三段不同程度推理深度示例提示后,LLMs的响应分布相应聚集于示例区段(灰色阴影)。
- 解读:
- LLM几乎直接复制示例的回答分布,缺乏真实推理泛化能力。
- 证实模型对例子的依赖性很强,难以激发模型进行创新推理。
- 联系文本:呼应之前对Few-shot提示方法局限的批判,表明模型多是“应答人类期望”产出。
- 局限性:示例选择对于模拟结果影响重大,容易产生样本偏差。[page::7]

---
3.4 图4:RAG与微调后响应分布(第9页)
- 描述:包括未修改、RAG增强和微调版本的GPT-4及GPT-3.5响应,另含Centaur微调模型表现。
- 数据与趋势:
- RAG和微调提升了与人类分布的相似度,呈现更分散、覆盖更多策略层级的分布。
- 微调GPT-4o的结果不显著差异于人类分布,但未能证明其泛化能力。
- Centaur虽训练于大量人的行为数据,依旧未能完全复制人类行为分布。
- 联系文本:验证高级调整虽发挥一定作用,但称不上“真正推理”,存在泛化和应用场景限制。
- 局限性:训练数据声明有限,且微调模型依赖大量已有人类样本数据,失去模拟初衷。[page::8,9]

---
3.5 附加图表与数据
- 图5(第21页):模型对11-20游戏说明的记忆扫描,显示lLM在游戏说明记忆的准确度趋近零,暗示其行为较少受训练数据直接驱动,而更像基于语言模式生成。相反,经典Beauty Contest游戏说明记忆率近100%,对应之前解释的“记忆驱动行为”疑虑。[page::21]

- 图6~8(22~24页):高级提示策略(链式思维、情绪驱动、优化提示)在不同模型上均难以引导较为合成人类分布的响应,进一步佐证模型的行为在提示结构微调上的不稳定与无根性[page::22-24]。
- 图9(25页):不同版本的11-20游戏(基本版、无成本版、循环版)下,人类与LLMs的响应差异趋势图,揭示LLMs在面对设计变体敏感度不足或反常,显示其行为对实验环境的稳定性存疑[page::25]。
- 图10(26页):引入真实人口统计特征是否改善LLMs行为多样性,结果否定了该假设,LLMs不能模拟带有人口统计变量的真实人类群体响应[page::26]。
- 表1(27页):LLMs自述选择理由分类,揭示普遍的游戏规则误解和行为不一致问题,例如将“少一谢克尔得奖金”错误解释为“多一谢克尔”,RLHF影响引起的公平性考虑等[page::27]。
- 表5(29页):各模型和方法对应的JS散度及统计显著性,除微调外均拒绝“与人类分布无差别”假设,定量验证了先进技术仍难复刻人类行为分布的主张[page::29]。
---
四、估值分析
本报告非传统金融估值报告,无明确市值估算或公司财务预测,但从方法论角度涉及到:
- 评估标准:运用Jensen-Shannon散度衡量LLMs输出分布与真实人类样本分布的差异,属于信息论距离度量,用以检测模拟分布的相似度与多样性,揭示模拟性能。
- 统计方法:通过置换测试(Permutation Test)获得p值,保证结果统计显著性。
- 先进技术尝试的估值性质:零样本、少样本、RAG和微调各有不同假设与限制,微调效果最好,但其泛化缺乏保障,且需要大量真实数据支持。
该“估值”实为对行为模拟准确性及泛化性的评估。[page::18,29]
---
五、风险因素评估
- 行为不稳定性与不可预测性:模型表现受提示、语言、角色定义等微小改动影响,导致研究结果难以复现和可靠。[page::2,5,10,11]
- 记忆与数据污染风险:LLMs可能“背诵”训练数据而非推理,导致认知能力被高估,对科研结论产生误导。训练数据泄露或泄露检测不足也会带来风险。[page::9,10,11,12]
- 强化学习反馈引起偏差: RLHF强调无害和公平行为,这与真实人类行为的复杂性相悖,限制其作为人类代理的多样性和真实性。[page::8,11]
- 缺乏泛化能力:微调模型虽能复制训练分布却无法保证新任务或环境下的稳健性。[page::7,8,9,13]
- 提示脆弱性与系统升级:模型版本迭代或默认参数更新会带来不稳定影响,缺乏长期稳定性保证。[page::12,13,28,29]
报告建议严密记录实验条件,并多模型、多语言、多轮测试以缓解风险。[page::12]
---
六、批判性视角与细微差别
- 报告立场客观谨慎,强调LLMs行为“类人外表遮盖本质异质”,避免空泛乐观。
- 证据链深入,辅以大量实证数据与多维度测试,支持结论可靠。
- 但微调模型表现被相对乐观评估,尚缺乏对其能力泛化和适用边界的深入实验验证。
- 对提示策略和RLHF的影响讨论到位,未完全涉及未来可能的技术改进路径探讨。
- 识别“记忆”和“泛化”二者的潜在冲突,这是目前LLM应用中难以逾越的核心难题。
- 尽管报告未提供新的理论模型,强调了哲学视角与认知本质差别,有力阐明了LLM代理人限制根源。
---
七、结论性综合
该研究通过严密设计的经济游戏和多型号LLM的对比实验,系统揭露了当前LLMs难以作为人类行为替代者的现状。核心结论包括:
- LLMs的行为分布与人类明显偏离,体现出较低的战略推理深度和明显的行为稳定性缺陷。
- 规模庞大与模型先进并不保证更类人表现,提示结构敏感性强且多模型间表现不一致。
- 主流提升技术(提示工程、检索增强、微调)提升有限,多数情况下陷入对示例和数据的机械复制,缺乏真实推理与泛化力。即使表现更优的微调模型,其泛化能力和适用范围仍待验证。
- 模型失败根源在于目标函数及认知本质与人类根本不同,强调LLMs缺少物理“体现”与生存驱动的认知机制。
- 存在较大风险,如提示脆弱性、数据记忆、输出幻觉、RLHF引入的偏差等,严重影响LLMs作为可靠社会科学代理的适用性。
- 研究者必须严格审慎,完整记录实验细节,多角度验证稳定性,避免随意调整模型与提示导致的“数据拷问”效应。
- LLMs目前更适合作为“新颖想法生成与辅助工具”,而非真实行为模拟器,避免过度依赖以防误导后续科学研究。
- 整体上,LLMs是外观类人、内核异质且行为复杂难以预测的“Scylla”,需要保持高度警觉与科学态度对待。
图表数据深刻佐证LLMs与人类行为在推理深度及策略分布上的差异,强化了理论分析与实验结论。鉴于LLMs的快速演进,上述结论强调“现状适用性”而非技术终极定义,未来改进仍需大量创新与验证。为促进社会科学领域合理应用,报告提出严格评估框架与问题清单,为后续研究与应用提供实用指南。
---
总结
本报告系统考察大型语言模型在社会科学领域,尤其是在基于游戏理论的级数推理任务中,模拟人类行为的能力与局限。通过高样本量、多模型、多提示策略的实验实证,报告揭示了LLMs的系统性不足和根本障碍,强调谨慎应用现有LLMs作为人类代理的必要性。所附丰富的图表和统计分析详尽支持了其科学性和客观性,是当前理解和规范使用LLMs的重要学术参考。
---
如需进一步针对特定章节、图表或表格进行详细解读,欢迎提出。