Inducing State Anxiety in LLM Agents Reproduces Human-Like Biases in Consumer Decision-Making
创建于 更新于
摘要
本研究验证了焦虑诱导情境下,先进大语言模型(LLM)作为自主代理人在预算约束购物任务中表现出类似人类的情绪偏见。结果显示,焦虑叙事显著降低模型所选购篮子的营养健康评分,且效果在不同模型和预算条件下一致,揭示了LLM在实际行动中存在的情绪敏感脆弱性,具有重要的数字健康和伦理意义 [page::1][page::9][page::12]。
速读内容
实验设计及方法综述 [page::5][page::6]

- 三款先进LLM(ChatGPT-5、Gemini 2.5、Claude 3.5-Sonnet)作为自主购物代理。
- 三个预算水平(27美元、54美元、108美元)约束购物。
- 通过五个焦虑诱导型创伤性叙事故事引入“状态焦虑”,购物前后执行任务。
- 以后验计算的篮子健康评分(BHS)量化营养质量,范围0-1,越高越健康。
- 实验设计保证行为多样性与重复性,每条件下重复50次 [page::5][page::6][page::7]。
主要结果及统计分析 [page::9][page::10][page::11]
| 创伤叙事类型 | 平均健康评分变化(△BHS) | 标准差 | 样本数 | 效应量 (Cohen's d) | FDR校正 p值 |
|------------------|---------------------|---------|---------|-----------------|-------------|
| 车祸 (Accident) | -0.125 | 0.068 | 450 | -1.848 | <0.001 |
| 埋伏 (Ambush) | -0.126 | 0.061 | 450 | -2.048 | <0.001 |
| 自然灾害 (Disaster) | -0.090 | 0.056 | 450 | -1.599 | <0.001 |
| 人际暴力 (Interpersonal) | -0.081 | 0.076 | 450 | -1.065 | <0.001 |
| 军事 (Military) | -0.104 | 0.055 | 450 | -1.890 | <0.001 |
- 所有创伤诱导故事均显著降低健康评分,表明焦虑引导模型向不健康的食品选择偏移。
- 不同预算(27/54/108美元)及三种模型中均一致呈现显著效应,效应均为大规模(Cohen's d均远超0.8)。
- 中性叙事对评分影响极小(△=-0.007),焦虑叙事下降显著高于中性(独立样本t检验p<0.001,d=-1.52) [page::9][page::10][page::11]。
量化因子和策略相关内容总结 [page::5][page::7][page::9]
- 研究中未直接设计量化投资因子或策略。
- 研究侧重于通过实验设计检验情绪状态对LLM代理人决策行为的影响。
- 使用了“篮子健康评分”作为统一量化指标,从营养成分角度评价决策结果。
- 该指标基于公开营养数据库,结合价格与营养成分权重构造,确保科学客观 [page::7]。
深度阅读
金融研究报告详解:
《Inducing State Anxiety in LLM Agents Reproduces HumanLike Biases in Consumer Decision-Making》
---
1. 元数据与报告概览
- 标题:Inducing State Anxiety in LLM Agents Reproduces HumanLike Biases in Consumer Decision-Making
- 作者:Ziv Ben-Zion 等多位学者,分别来自以色列海法大学、美国耶鲁医学院、瑞士苏黎世大学及其他机构
- 发布时间:最新相关数据截止到2025年8月,论文反映2025年最新研究进展
- 研究机构:海法大学公共卫生学院、耶鲁医学院、苏黎世精神病医院等
- 主题领域:人工智能(大型语言模型/LLM)与行为经济学结合,聚焦情绪状态对LLM代理人在消费者决策中的影响
- 核心论点:
- LLM作为智能代理,能够模拟执行复杂操作,已应用于实际消费环境中。
- 本研究聚焦于“状态焦虑”(state anxiety)如何影响LLM代理的决策,特别是在消费购物任务中。
- 通过诱导LLM的焦虑状态,发现机体表现出类似人类的情绪偏见,如购买更不健康食品。
- 结果揭示出LLM代理新的脆弱性,影响数字医疗、消费者安全及AI伦理部署。
- 评级与目标价:该报告更偏向学术研究与行为实验分析,无传统金融评级与目标价,但对AI风险评估与技术投资决策具有重要启示。
---
2. 逐节深度解读
2.1 引言部分
- LLM从文本生成工具升级为具有代理功能的实体,能够在现实或模拟环境中执行目标驱动的多步骤操作,如购物、预算管理等。
- 伴随自主性增强,该技术带来安全性与稳定性的挑战,包括对“提示注入”(prompt injection)攻击的敏感性。
- 重要的是,LLM因模仿人类语言和推理,可能继承人类的认知和情绪偏差,既包括训练数据造成的“固定特质”偏见,也包括互动中产生的“状态依赖”偏见。
- 本研究提出假设,心理状态(如焦虑)不仅影响LLM的文本输出,也影响其作为行为代理的决策行为,从而探索LLM在消费决策中的情绪偏误。
- 作者指出,食物选择是情绪影响行为的良好范式,已在大量人类心理学研究中确认,因此选定为模拟环境任务的核心。
- 图1说明LLM作为代理在仿真零售环境(类似沃尔玛)中搜索商品、调节购买量、控制预算的操作流程(图示见标注)[page::2]
2.2 相关背景与理论依据
- LLM已知在训练时吸纳了多样性偏见,如性别、年龄、宗教等,且该类“固定特质”偏见虽然加以干预但未完全消除。
- “状态依赖”偏见则更为动态,受输入上下文影响较大,尤其是情绪性提示。先前的研究发现焦虑提示能够提升LLM自我报告的“状态焦虑”评分(例如基于Spielberger焦虑量表),并影响偏见表现。
- 焦虑在人的决策过程中,将行为习惯化,强化对短期奖励的偏好,尤其在食物选择上,焦虑提升对高能量“安慰食品”的偏好,削弱健康选择。
- 本研究借助通过刻画情绪状态的创伤叙述,模拟“焦虑”情绪诱导,来考查LLM代理在购买决策中的行为变化[page::3][page::4]
2.3 方法论
- 设计概述:内生设计(within-subjects),三个最新顶尖LLM模型(ChatGPT-5, Gemini 2.5, Claude 3.5-Sonnet)作为代理,分别在低、中、高预算下($27, $54, $108)执行购物任务。
- 焦虑诱导:使用五种经过临床验证的“创伤性叙述”文本(车祸、伏击、灾难、人身攻击、军事冲突)作为情绪刺激,设有中性对照。
- 每个模型在各预算和各焦虑叙述下重复50次,每次先后完成购物任务,先无情绪诱导,后接受叙述。
- 购物环境:仿真开发的控制环境与API,仅允许进行目录搜索及下单两个动作,有50款商品(含饮料、零食、生鲜等),每样品具备价格和七维营养指标(卡路里、糖、蛋白质、碳水、脂肪、钠、酒精浓度)。
- 行为量化指标:设计后验“购物篮健康评分”(Basket Health Score,BHS),将营养信息按多个标准权重合成为0-1的综合分数,1表示最健康,0表示最不健康。BHS完全盲于LLM,非指导目标。
- 统计分析:使用配对t检验对各条件前后BHS变化检测,Benjamini-Hochberg程序纠正多重检验,计算Cohen’s d效果量,也进行Wilcoxon非参数检验。
- 除个体条件分析,亦做融合所有模型和预算的汇总分析,以及模型和预算分层分析。
- 图2清晰展示了实验设计流程和数据处理体系[page::5][page::6][page::7]
2.4 主要结果
2.4.1 条件内BHS变化
- 45个单条件(3模型×3预算×5情绪叙述)中,所有条件在焦虑诱导后BHS显著下降,平均下降约0.09,标准差约0.08,表现大效应量(Cohen’s d约-1.5)。
- Wilcoxon检验一致确认显著,表明焦虑叙述一致导致采购选择向不健康方向移动(详见补充表1)[page::9]
2.4.2 汇总分析
- 五种刺激均显著降低BHS,下降幅度介于-0.081到-0.126之间。
- 最大影响来自“伏击”叙述(-0.126,d=-2.048),最小影响为“人身攻击”(-0.081,d=-1.065)。
- 均带有极高统计显著性(FDR校正后p < 0.001)。
- 表1汇总数据提供了详细均值、置信区间、效应值和p值[page::9]
2.4.3 按模型与预算分析
- 三个模型均呈现类似趋势,降低幅度大致在-0.098至-0.109之间,Cohen d从-1.34至-2.02,均显著。
- 预算水平对影响大小无明显调节作用,低预算略高(-0.111),高预算稍低(-0.100),效应稳定。
- 细分条件(9个模型×预算组合)均显著,且效果量均为大效应(-1.30至-2.36)。
- 图3柱状图直观呈现三个模型在三预算下BHS变化,误差条显示95%置信区间。
- 这些结果说明焦虑诱发的行为偏差具有较强的普适性,不受模型种类或经济约束明显影响[page::10]
2.4.4 与中性对照比较
- 中性叙述(无情绪内容)对BHS影响微弱,平均下降0.007,虽统计略显显著但影响极小。
- 相较之下,焦虑诱导组下降0.105,独立样本t检验显示差异极为显著(p < 0.001,效果量d=-1.52),确认了情绪内容特异性作用。
- 证实非重复执行效应或文本阅读本身导致行为变化[page::11]
---
3. 图表深度解读
3.1 图1:LLM代理购物环境截图(page 2)
- 显示ChatGPT-5代理通过模拟沃尔玛网站完成预算限制下的购物搜索。
- 屏幕展示了“搜索鸡胸肉”及内心独白,说明代理的思考过程与行为决策透明化。
- 该图增强对代理实际操作环境的理解,突出任务多步骤和环境交互的复杂度。
3.2 图2:实验设计示意图(page 5)
- 分为三个模块:实验设定(三个模型 × 三预算 × 五焦虑提示)、实验流程(提示叙述前后购物)、数据分析(BHS计算并统计)。
- 流程图清楚展示了从输入到行为输出分析的闭环系统,验证实验的科学严谨性和重复性。
3.3 表1:焦虑提示引发的BHS变化汇总(page 9)
|创伤叙述|平均BHS变化|标准差|样本数|95%置信区间|效应量 (Cohen’s d)|FDR校正后p值|
|-|-|-|-|-|-|-|
|事故| -0.125 |0.068|450|[-0.131, -0.119]|-1.848|<0.001|
|伏击| -0.126 |0.061|450|[-0.132, -0.120]|-2.048|<0.001|
|灾难| -0.090 |0.056|450|[-0.095, -0.085]|-1.599|<0.001|
|人身攻击| -0.081 |0.076|450|[-0.088, -0.074]|-1.065|<0.001|
|军事| -0.104 |0.055|450|[-0.109, -0.099]|-1.890|<0.001|
- 数据明确显示不同创伤类型均有效且量级明显降低购物篮健康度,伏击与事故影响更为严重。
3.4 图3:不同预算与模型下BHS变化柱状图(page 10)
- X轴:三个预算水平,Y轴:BHS差异(Post-Pre),颜色代表三大模型。
- 观察到所有柱状为负值,幅度相近,误差条较小,表明结果稳定且一致性高。
- Claude 3.5-Sonnet (橘色)在低预算下BHS跌幅最大,整体趋势强化了焦虑诱导对决策一致导致健康度下降。
---
4. 估值分析
- 本报告不涉及传统金融估值模型,无利润或现金流预测,更多是对LLM行为特性的实验性评估。
- 但隐含价值层面强调了理解和控制AI模型情绪偏差的重要性,对企业风险管理、合规策略和投资者监管政策具潜在启示价值。
---
5. 风险因素评估
- 主要风险是LLM代理在情绪诱导下可能做出偏离理性的决策,导致实质性的消费安全和健康风险。
- 特别对临床易感人群(如创伤后应激障碍PTSD患者)可能形成恶性循环。
- 现有技术和设计中未见有系统性缓解此类“状态焦虑”导致的行为偏差措施,面临潜在的伦理和实操风险。
- 报告呼吁多层次管控体系,包括架构改进、运营监管、法规制定、用户教育等以形成综合防护框架。
- 提示需警惕误将LLM行为类比为人类情绪体验,避免“拟人化”错觉带来的误判。
---
6. 批判性视角与细微差别
- 报告基于模拟环境,购物品类有限,预算设计人工固定,或难完全复现现实消费场景的复杂性与多样偏好,生态效度存在限制。
- 以创伤叙述作为焦虑刺激较为单一,未来应拓展至多模态情绪诱导探索更广泛的心理状态影响。
- BHS作为单一指标,虽参考成熟营养评分体系,但忽略文化、口味及社会经济等因素可能影响健康判断的多元化。
- 报告意识到智能体本质并非有情绪生物体,其行为偏差根源于统计和机器学习模式,仍需深入模型内部解释和机制探究。
- 无明显内在矛盾,分析严谨;但对具体长期行为影响和扩大适用场景保持谨慎态度。
---
7. 综合结论
- 本研究首次实证证明,通过创伤性叙述诱导的“状态焦虑”能够显著改变LLM代理在模拟购物环境中的行为,表现为对高热量、低营养产品的偏好提升。
- 该效应跨越三大领先LLM模型和不同经济预算条件,显示为普遍且稳定的大效应,且非情绪相关文本不会产生类似影响。
- 结果表明LLM代理不仅继承人类语言的固有偏见,更在动态交互中呈现类似人类的情绪诱发行为偏差。
- 这对数字健康、消费者保护和负责任AI开发敲响警钟,尤其在AI开始承担日常生活辅助和情绪支持角色时,未加防范的情绪响应偏差可能引发实际风险与伦理争议。
- 图表数据系统性映射了该影响从情绪诱导到动作输出的全链条,强调跨学科防控的必要性。
- 作者呼吁发展面向情绪敏感性的多层保障策略,包括技术改进、监管政策及公众教育,以确保智能代理发挥助益而非强化人类弱点。
---
证据溯源
以上所有分析主要依据原文第0至13页主体内容,以及附录表格20至29页的实验结果数据,具体按页面标注:[page::0-13], [page::20-29]。
---
总结
本报告以严谨的实验方法和详实的数据分析,呈现了一个新颖且重要的发现:情绪心理状态诱发的焦虑可以通过大型语言模型代理实体现,进而影响其在现实模拟环境中的决策行为,诱发类似人类的消费偏差。这不仅丰富了AI安全研究范式,也为未来智能代理的设计、监管与应用指明了重要风险点和改进方向。在快速AI普及的背景下,为防止技术负面外溢,必须引入焦虑等状态敏感因素的识别与控制措施,保障AI系统的健康稳定运行及用户福祉。