How human is the machine? Evidence from 66,000 Conversations with Large Language Models
创建于 更新于
摘要
本论文基于十个预注册实验、逾6.6万次与大型语言模型(LLMs)的对话,系统测试LLMs在六种认知偏差与启发式中的表现,发现LLMs在人类行为表现上存在四种偏离:部分纠正人类偏差、放大偏差、反向偏差以及回答不一致。研究结果表明,LLMs难以完全模拟消费者和人类决策行为,且其偏差表现受模型类型、提示词及时间影响,为AI替代人类提供理论和实践警示[page::0][page::14][page::16][page::21][page::25][page::28]。
速读内容
研究背景与问题设定 [page::0][page::1][page::2]
- AI和LLMs作为消费者替代工具,假设其行为能类比人类,但实际人类行为的欠佳特性如偏差应被准确复制而非修正。
- 研究提出“human-likeness”即AI行为与人类偏差一致性的测试维度。
- 10项预注册实验涵盖了6种经典认知偏差,如可得性启发、代表性启发、禀赋效应、锚定效应、交易效用和框架效应。
研究设计与实验方法 [page::9][page::11][page::12]
- 采用OpenAI API调用GPT-3.5、GPT-4及其他多款GPT模型,累计66,000个实验试次。
- 实验条件包含角色指派(研究参与者角色)、去偏提示语、模型版本、提示词变异等。
- 评价偏差表现采取与经典人类行为效应及元分析结果对比,判定偏差为衰减、放大、逆转或一致。
主要实验结果及偏离形式 [page::14][page::15][page::18][page::19][page::20]

- 偏差衰减最为普遍,LLMs在大多数条件下表现出较人类较弱的人类偏差。
- 偏差放大较少见,GPT-4在代表性和可得性启发中表现出超人类的偏差强度。
- 出现多达五个实验中,有逆向偏差,即LLMs的偏差方向与人类完全相反。
- LLMs表现出时序不一致性,同一模型对同提示延迟回答不同,模型间表现差异显著,提示词微小变化导致响应不同。
- GPT-3.5表现出较强的风险偏好,远超传统人类风险倾向。
量化分析与统计显著性 [page::18][page::20][page::22]
- 多数效应达到统计学显著,详细见表2中的ANOVA与逻辑回归效应量与显著性。
- 偏差衰减占主导,偏差放大次之,逆转偏差出现但不系统,呈现复杂多维偏差结构。
- 模型类型、去偏提示以及角色指派均显著调节偏差表现。
理论与实际影响 [page::21][page::22][page::25]
- 质疑AI人类行为模拟的普遍假设,提出更细致的偏差类型分类框架。
- 指出AI偏差来源可能非单纯来源于人类数据,而包含模型训练和版本进化因素。
- 警示消费者、企业及监管机构关于LLMs偏差表现及不一致性的实务风险。
- 推荐制定基于AI模型特定偏差表现的使用和合规规范。
深度阅读
金融研究报告深度分析报告
报告标题
How human is the machine? Evidence from 66,000 Conversations with Large Language Models
1. 元数据与概览
- 作者与机构:
Antonios Stamatogiannakis(IE Business School, IE University, 西班牙马德里),Arsham Ghodsinia(IE Business School), Sepehr Etminanrad(Rotterdam School of Management, Erasmus University,荷兰鹿特丹),Dilney Gonçalves(IE Business School),David Santos(心理学系,马德里自治大学)。
- 关键词: AI、GPT、启发式判断、决策、算法、大型语言模型(LLMs)。
- 研究主题: 本报告聚焦于大型语言模型(LLMs)的行为是否具有人类特质,即其是否能够真实模拟消费者及一般人类的决策偏差和启发式行为。为此,作者进行了10个实验,涉及超过66000次与LLM的交互,具体检测LLMs在典型认知偏差和启发式问题上的表现,探讨与人类行为的相似度及偏离方式。
- 核心论点: LLMs在重复人类行为方面并非一致。其表现呈现四种偏离:
1) 一些情况下纠正或减弱人类偏差;
2) 一些情况下放大这些偏差;
3) 一些情况下反向表现,显示与人类相反的偏差;
4) 反复试验中表现出不一致性,比如同一模型随时间回答不稳定,不同模型间回答差异大,及跨研究结果的复现性较差。这说明LLMs的行为不能完全等同于人类,这对于使用LLMs模拟或预测消费者行为产生挑战。
- 目标与价值: 本研究不仅丰富了对AI生成消费者数据中偏差来源的理解,也为AI替代人类的适用领域提供实证参考。
---
2. 逐节深度解读
2.1 引言与研究背景
- 内容总结: 随着AI和LLMs技术的发展,AI越来越多地被用来替代人类参与者,尤其是在沟通、医疗、业务流程、算法学习等领域中。这种替代假设AI能准确模拟消费者行为,尤其是复制人类的决策偏差与启发式,而非单纯优化表现。
- 推理依据: 与性能提升相比,精准复制人类行为的需求更严格,AI不仅不能纠正人类“错误”,反而应在偏差的方向和程度上与人类保持一致。早期研究表明LLMs在这方面仅约50%的成功率。
- 关键点: 本文关注的“human-likeness”即人类相似度,涵盖表现一致性和偏差表现的复杂互动,提出了四种偏离模式,为未受充分关注的领域补充经验数据。
2.2 研究设计与方法论
- 选定偏差: 六个经典认知偏差与启发式 - 可客观判定正误的(可得性启发式、代表性启发式、赋值效应)与无明确正确答案但环境影响显著的(锚定、交易效用、框架效应)。
- 实验规模与样本: 10个预注册实验,累计66000次与LLM交互,覆盖多种型号(GPT-3.5, GPT-4及十种不同GPT版本)及多版本内及跨版本对比。
- 实验流程: 统一使用API接口获取答案,控制模型版本和“temperature”参数(创造力程度)。单次实验通过两步提示确保模型被赋予“研究参与者”角色以模拟人类被试,后续部分实验中取消角色赋值以检验影响。实验设计中嵌入了$2\times2$因素变异,分别是模型版本和去偏差提示(简短反偏差指令)。
- 偏差评估标准: 将LLM结果与经典的元分析数据对照,定义偏差是减弱(attenuation)、放大(amplification)还是反向(reversal),依据统计显著性、方向和效应大小,细节详见附表。
2.3 研究内容详解
- 一致性与稳定性测试: 测试同模型随时间回答一致性、跨版本一致性、不同研究间的结果对比,以及对轻微提示的敏感度。
- 特殊关注点:
- 模型版本升级并不保证行为更接近人类,有时更高级的LLM如GPT-4反而表现出更严重的偏差放大或反向偏差。
- 同一模型不同时间点回答可存在显著差异,即使受控,表现不具备“人类般”的一致性。
---
3. 图表深度解读
3.1 表格1(偏离行为总结)
- 描述: 表1系统展示了不同研究、模型及条件下偏差表现类别(减弱、放大、反向),涵盖研究1至7全系列实验。
- 观察和解读:
- GPT-3.5倾向于偏差减弱(如可得性启发式和代表性启发式),但部分偏差如锚定效应则放大。
- GPT-4在部分领域,如可得性、代表性启发式偏差,表现为放大偏差;赋值效应出现减弱或反向偏差。
- 多数情况下,要求“表现成研究参与者”未实现对人类偏差的准确复制,甚至存在反向偏差。
- 研究7汇总了10种型号,发现9种均表现赋值效应偏差减弱,说明即使是最新模型仍存在此偏离现象。
3.2 图1(偏差效应和置信区间)
- 描述: 图示全系列研究,在不同模型和去偏差提示条件下,偏差程度的定量表现,含95%置信区间。
- 趋势分析:
- GPT-3.5在可得性启发(图左上)表现出很低的偏差百分比(偏差大幅减弱),而GPT-4则接近90%-95%的偏差水平(偏差放大)。
- 赋值效应(图左下)中,GPT-3.5给出买家和卖家意愿支付区分较小的差异(反向偏差),GPT-4则显示一定程度的传统赋值效应。
- 锚定效应(图中下部)GPT-3.5体现经典锚定高低差异明显,而GPT-4则回答相差甚微,甚至呈现反向趋势。
- 联结文本论点: 这些图表有力印证了作者对不同偏差放大、减弱和反向的论述,揭示LLM行为的复杂性和不稳定性。
3.3 表2(统计效应总结)
- 内容与解读:
- 详细汇总了各实验的显著性及效应量。偏差出现的统计效应强烈(多数p<0.001),表明结果的可靠性。
- 一些交互作用(模型 × 去偏差提示,模型 × 角色赋值)显著,指出模型不同及操作条件改变对偏差表现影响明显。
- 统计报告支持图表和文本陈述,对实验设计合理性和数据稳健性形成强有力背书。
---
4. 估值分析
本报告属于认知与行为领域科学实证研究,不涉及公司或财务估值,因此不具备估值分析内容。
---
5. 风险因素评估
- 作者识别的风险包括:
- LLM输出结果参数不稳定,存在跨时间、版本及提示变化的显著差异,致使研究结果难以复现或预测。
- AI行为偏离人类,可能导致替代人类决策时产生非预期甚至不利后果。
- 反向偏差和放大偏差存在,提示着AI的风险管理与伦理使用需谨慎,尤其是在医疗、金融等需稳定可靠决策支持的领域。
- 依赖训练数据和训练过程产生偏差无法完全解释现象,欠缺对AI偏差来源的深入理论支持,增加未来治理复杂度。
- 缓解策略:
- 作者建议对模型赋予更精准的角色指示以期引导行为,但效果有限。
- 强调需要彻底测试不同版本及提示设置对AI行为的影响。
- 呼吁AI模型发布时附带详细的行为特征说明清单。
---
6. 批判性视角与细微差别
- 偏见与局限:
- 报告基于OpenAI的GPT系列,主要采用API版本进行测试,可能与在线Chat版本存在差异,限制结果的广泛适用性。
- 问题设置部分依赖人类实验的设计,虽保证了指标的可比性,但LLMs本质上缺乏喜好和偏好,是否可完全解释其输出行为仍存争议。
- 部分结果(如反向偏差)说明当前训练方法及数据集无法完全控制AI行为的偏离,这存在理论研究和技术实现上的挑战。
- 研究强调提示工程影响,但未深入探讨如何通过更复杂提示优化行为,留下未来研究空间。
- 内部一致性:
- 报告反复强调一致性不足,且结果在不同研究之间也有不完全对齐,增强了其“LLMs行为不稳定”的论点,也体现了当下LLM研究的复杂性。
- 通过对抗先前部分研究观点(如Suri et al., 2024的“LLMs模仿人类”结论),凸显了基于更大样本和更细致设计的细微差异和理性怀疑态度。
---
7. 结论性综合
通过对10个大规模实验(共计66,000次对话)系统测试LLMs在经典认知偏差领域的人类相似度,本研究揭示LLMs在多个维度显著偏离人类表现:
- 偏差减弱是最常见的偏离类型,LLMs在多场景表现出减少甚至消除人类偏差的倾向,即便在被指示模仿人类的情况下仍如此,这违背了用AI复制人类行为的基本假设。
- 偏差放大与反向偏差也均有体现,特别是更高级的GPT-4模型,反向偏差尤其令人关注,表明LLMs不仅仅是简单的人类行为复制品,还可能展现出独特异常的决策模式。
- LLMs行为的不一致主要体现在: 同一模型时间间隔回答明显变化;不同模型版本之间存在质的差异;轻微提示变化导致响应截然不同,这严重挑战了LLMs作为稳定人类行为模拟工具的有效性。
- 图表和统计数据的深度剖析进一步支持了上述论点,显示了LLMs在传统心理学效应检验中表现的偏差模式和效果大小的显著差异。
总的来说,报告明确指出,尽管LLMs在某些任务中表现优异,但在人类心理偏差与行为模拟方面,他们无法被默认等同于人类。AI模型在人类替代和辅助系统设计中需谨慎对待,尤其是在性能提升与真实模拟人类行为之间存在冲突时。作者呼吁对AI模型的行为模式进行更细致的实证研究和评估,并据此调整理论框架、伦理标准以及监管政策。
---
总结
本研究提供了迄今为止最丰富、严谨的实证证据,系统呈现了大型语言模型在经典认知偏差领域的人类相似度局限。通过超大规模交互数据、严密设计、多模型比较和多元化统计分析,报告深刻揭示了LLMs在模拟人类决策时出现的偏差减弱、偏差放大、偏差反转和响应不一致等多重重要偏离,极大丰富了AI行为理论认知及实际应用的风险评估,为未来AI伦理、市场应用和模型开发策略提供基础性指导。这是人工智能领域关于LLMs“人类化”能力质疑的重要里程碑性报告。
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28]