General Agents
创建于 更新于
摘要
本研报提出并实证了一种基于理论驱动的自然语言提示构造AI代理的方法,有效模拟人类行为并在高度异构的战略游戏中实现跨环境泛化,显著提升了人类行为预测准确率,超过传统贝叶斯纳什均衡和无指导基线,且方法在约88万个新颖游戏中具备外部有效性,为社会科学中的行为建模和预测提供了新框架与工具 [page::0][page::4][page::30][page::32]。
速读内容
研究背景与动机 [page::0][page::1]
- 传统模型难以跨环境准确预测人类行为,尤其是新环境。
- LLM虽能模拟部分人类行为,但存在一致性和泛化能力不足问题。
- 关键在于构造理论驱动、可推广的自我描述提示(prompts),指导模型生成更接近真实行为的输出。
理论驱动提示构建方法 [page::2][page::7][page::9]
- 利用社会科学中稳定且可泛化的因果理论约束提示空间。
- 采用两步优化,先针对训练数据拟合提示,再通过验证数据检测泛化,避免过拟合特定任务。
- 具体示例包括基于level-k策略推理模型设计的多层次策略提示。
11-20钱请求游戏实证与验证 [page::12][page::14][page::16]
- 基线AI多选择最优保证收益策略,缺乏多样性与人类分布显著偏离。
- 通过选择算法,构建混合层级推理提示,覆盖0至5级推理,拟合真实人类分布,KL散度从2.7降至0.3。
- 验证于其他游戏变体(Cycle及Costless版本)中,优化代理相较基线KL下降71%-84%。


无理论提示的对比分析 [page::17][page::18]
- 无理论的历史人物、MBTI类型提示无法提升模型的拟合能力。
- 尽管数据拟合类似“总选一个数”的提示看似完美,但无法泛化至新环境,验证表现最差。

新颖游戏下的预测结果 [page::19][page::20]
- 采用Prolific新样本,4个新增游戏,验证优化提示在新范围内依然保持良好预测性能。
- 优化样本相较基线减少53%-73%的KL散度,且优于原始实验人类数据。

预设策略空间中的外部效度推断 [page::21][page::22][page::29][page::30]
- 定义包含88.3万个异构策略游戏的参数化空间,随机抽样1500个游戏,用人群数据验证预测精度。
- 引入Harsanyi-Selten纳什均衡作为基准,利用针对每种游戏的均衡选择机制,确保统一客观比较。
- 设计精巧的统计框架,利用经验对数似然比评估不同模型人类行为拟合度,并给出推断置信区间。
- 实证发现优化策略较基线AI、纳什均衡、均匀分布和随机纯策略均显著优越,且在71.5%-90.2%的游戏中最优。

扩展至配给游戏,理论参数化优化样本表现优异 [page::43][page::45]
- 使用Charness和Rabin的配给游戏数据,构建效率、自利和不公平厌恶三参数提示模板。
- 采用贝叶斯优化确定参数组合,优化样本显著改善基线AI与无理论AI的拟合表现。
- 通过两阶段配给游戏验证优化样本泛化有效,显著减少均值绝对误差。
结论与展望 [page::32][page::33]
- 指出AI主体通过理论驱动提示和跨环境验证可显著提升新环境行为预测准确性。
- 该框架为社会科学领域提供可扩展的强预测工具,助力政策模拟和理论检验。
- 未来方向包括自动化理论生成与验证闭环、结合LLM内在认知结构探寻理论解释力。
深度阅读
金融研究报告详尽分析 — 《General Agents》
作者: Benjamin S. Manning, John J. Horton
机构: MIT, NBER
日期: 2025年8月26日
主题: 利用理论指导的自然语言提示,结合现代大语言模型(LLM),构建能够泛化预测人类行为的“通用”AI代理,重点在战略游戏及社会科学行为预测
---
一、元数据与概览
本文聚焦于社会科学中的行为预测问题,探讨如何利用基于理论的提示(prompts)驱动的AI主体准确模拟并预测人类在全新环境中的行为。作者提出一种构建“通用代理”(general agents)的方法,强调理论基础与跨环境验证的重要性,突破传统模型须针对特定场景调优的瓶颈。核心贡献在于设计高度多样化的战略游戏环境,以验证AI代理在无历史数据支持下的预测能力,且实验证明该方法远优于传统纳什均衡等基准。报告目标是明确这一方法的原理、设计及实证效果,推动社会科学利用先进AI工具精准建模人类行为。
---
二、逐节深度解读
2.1 摘要与引言
- 论文起点为社会科学理论难以应对新环境预测的问题,召开大规模11-20类策略博弈作为实验平台。
- AI代理基于理论驱动的自然语言提示,并利用少量人类行为数据优化及LLM的内隐知识,构建能有效预测新场景行为的模拟主体。
- 实验表明,理论基础AI代理在跨环境验证中优于传统均衡分析和未经优化的基准AI。
- 该方案支撑在无先验数据的情形下有效泛化行为模拟,辅助社会科学理论测试与探索。
2.2 建构泛化提示的理论框架(第1-2节)
- 核心论点: 经典统计机器学习因训练-测试设定限制难以实现跨分布泛化,需结合理论约束提示空间。
- 推理依据: 通过构建和优化一组限定在经济行为理论驱动的提示(如“你是自利但公平的参与者”),帮助AI模拟不仅能准确拟合训练数据,还能在结构不同的测试环境中表现良好。
- 关键数据点: 显示随机海量尝试提示仅在特定数据中有效,而理论指导提示实现跨场景稳定预测。
- 概念剖析:
- 采用“不可知函数类别限制”(类比机器学习中的假设空间约束)强化提示设计,借鉴不变风险最小化(Invariant Risk Minimization)避免对训练环境过拟合。
- 训练数据、验证数据、目标新数据分别对应不同分布,强调跨场景验证重要性。
2.3 理论指导泛化(第2.3节)
- 论点: 经济学及社会科学理论本质上描述个体决策逻辑和因果关系,适合转换成自然语言提示,兼顾解释性和泛化力。
- 举例:
- 基于级别推理(Level-k)模型的提示集,映射不同推理深度到代理行为,捕获战略理性分层。
- 风险偏好理论转换为行为指令,反映经典前景理论(Prospect Theory)等社会科学理解。
- 假设与限制:
- 理论范围并非完全界定,提示翻译存在差异性,且训练-测试数据生成过程不完全清晰,均构成实践挑战。
- 方法总结: 通过理论精心设计提示,确保高偏置低方差(bias-variance tradeoff)最佳平衡。
2.4 核心方法总结(第2.4节)
主要步骤包括:
- 训练与测试数据选择: 识别源自相似因果机制的数据集,但具有分布差异化。
2. 理论驱动的候选提示: 基于理论设计一组“可解释的”候选提示。
- 训练数据上的提示优化: 细化提示组合或参数。
4. 测试数据上的验证: 检验泛化能力以避免过拟合。
3. 实证研究:策略估计与验证(第3节)
- 利用Arad和Rubinstein (2012)的11-20资金请求游戏及其变体作训练和验证环境。
- Level-k模型回顾: 不同玩家基于对对方推理层级的预期形成响应策略,呈现分层战略推理结构;游戏无纯策略纳什均衡,体现竞争与策略性相互作用的复杂性。
- 实测数据:
- 玩家集中选择17-19区间,显著偏离纳什均衡预测。
- 游戏成本不同版本引入不同激励,影响行为分布。
3.2 基线AI表现与优化提示构建
- 基线GPT-4o在无提示情况下约87%选择19,分布极为单一,KL散度较大(2.7)。
- 构造多级别推理提示集$\Theta_{Strategic}$,包括群体中0至5级推理代理,并通过最小化累计分布函数绝对差进行权重优化。
- 优化结果权重主要集中在1-3级和0-5级区间,符合AR实验中人类推理层次分布。
- 优化AI样本KL散度降至0.3,实现89%误差减少,显著改善模型说明力。
3.3 验证阶段
- 优化AI在Costless、Cycle变体游戏中表现优异,KL散度分别比基线降低84%、71%。
- 基线AI持续倾向19号策略,未能捕捉变更后人类策略分布变化。
3.4 对照组:非理论性提示优化
- 设计三组无理论基础提示集:历史人物、Myers-Briggs人格类型、固定值策略(Always Pick 'N')。
- 优化后,仅固定值提示组在训练集上完美拟合,但完全缺乏泛化能力。
- 历史人物/MBTI提示均表现不佳,表明无因果关联性“理论”无法捕获行为驱动。
- 验证结果显示非理论提示在所有测试环境中均不优于基线,甚至更差。
3.5 新型游戏测试
- 引入1-10,1-7变体及新样本,为模型泛化能力提供挑战。
- 新数据人类行为与原AR数据存在偏差,模式更均匀,表现受环境和信念差异影响。
- 优化过的战略AI稳健泛化,所有变种中KL散度相较于基线降低至少53%,1-7游戏中接近完美拟合(KL=0.16)。
- 优化AI甚至超越了AR原始人类数据对新样本的预测质量。
4. 预先设定游戏族群中的外部有效性(第4节)
- 构造包含883,320个高度异质的战略游戏空间(多参数组合,实现游戏结构与策略空间极度多样化)。
- 使用系统方法从该空间随机抽取1,500游戏,招募4,249人参与实验,保证样本的外部代表性。
- AI代理同样在1,500游戏实现对人类行为的预测。
4.1 游戏结构与参数化
- 详细参数包含选择范围、奖金大小、奖金规则、得分规则等,形成纵深多样的游戏形式。
- 游戏在策略难度分布极广,且大多数游戏新颖且不在训练数据中。
4.2 AI响应采集
- 两类样本:基线AI与优化后的战略AI样本(基于3节中优化结果权重),分别采样100次。
- 约30万条AI响应数据,将对整个抽样游戏集实施性能测评。
4.3 利用Harsanyi-Selten均衡作为对比基准
- 多数游戏缺乏可行的Level-k推广,标准模型难以机械适用。
- Harsanyi-Selten均衡选择程序提供一个统一、机械化且理论支撑稳定性的均衡选择方法,确保每个游戏能算出单一对称均衡。
- 纯策略均衡与混合策略均衡兼备,覆盖广泛的策略形态,均衡分布表现多样化(图5)。
4.4 收集人类数据
- 在线平台采集4,249位参与者数据,每位随机分配一个游戏,确保随机性和独立性。
- 设计保障理解度及激励兼容,数据质量有保障。
4.5 评估方法
- 对各模型生成的预测分布进行平滑(80%遵守策略+20%均匀随机),以防零概率引发的无界对数损失。
- 四类参照模型:基线AI、Harsanyi-Selten均衡、均匀分布、随机纯策略。
- 统计方法和假设确保推断严格外部有效,置信区间体现群体级的统计学意义。
4.6 关键结果
- 战略AI在所有比较中显著优于对比模型:
- 相对基线AI,人类数据的平均似然比提升3.41倍。
- 相对Harsanyi-Selten均衡,提升2.44倍。
- 相对均匀分布,提升1.81倍。
- 相对随机纯策略,提升63倍。
- 86%游戏中所有人类选择的动作均包含于战略AI支持集中区域内,表现绝佳。
- 战略AI在超半数游戏中是最优预测器,其他模型中的最好情况远低于此。
- 结果对平滑参数和游戏参数的敏感性小,稳健性强。
---
三、图表深度解读
图1(第14页)— 基础11-20游戏人类与AI反应分布
- 内容: 左图为基础无提示AI反应,右图为基于优化级别提示的AI反应,两者对比均呈概率质量函数(PMF),黑线为人类数据。
- 分析:
- 基线AI几乎单点选19,表现极度集中,KL散度2.7,拟合极差。
- 优化后的AI分布广泛,重心在17-19,KL散度0.3,拟合人类数据显著改善。
- 对应作用: 显示理论驱动提示极大提升模拟人类策略多样性和精度。

图2(第16页)— 11-20游戏两变体中的AI与人类分布对比
- 内容: 本图展示成本无关和循环奖励两游戏版本中,基线AI和优化AI相较人类分布的拟合度。
- 分析:
- 基线AI依旧聚焦19策略,与人类行为差异大,KL均在0.9以上。
- 优化AI拟合度显著优于基线,KL降至0.15和0.28,表明对新变体良好泛化。
- 意义: 验证阶段性能,说明理论基础AI具备跨场景有效预测能力。

图3(第18页)— 无理论提示AI样本表现
- 内容: 多模型在训练及测试游戏上的分布拟合效果与KL差异。
- 解读:
- 历史人物、MBTI类型提示优化后仍不能拟合数据,KL与基线相近,泛化性能差。
- 固定选定数字AI能完美拟合训练样本(KL=0),但在测试集性能极差,典型的过拟合。
- 仅有理论驱动AI持续保持优异泛化性能,验证本研究方法必要性。

图4(第20页)— 四个新游戏中的人类与AI响应分布及KL比较
- 内容:
(a) 不同新游戏中,Prolific采集的真实人类响应与基线、理论、无理论版AI的概率分布比较,
(b) 列出各模型与真实数据的KL散度,越小越好。
- 数据揭示:
- 战略AI样本在各游戏中均胜过基线及无理论AI,KL缩减超过50%。
- 战略AI在1-7游戏几乎达到最佳拟合。
- Prolific样本与原AR实验存在结构差异,体现上下文敏感性。
- 结论:
- 理论驱动样本不仅有效泛化,还能优于实际历史数据对新环境的人类行为预测。

图5(第28页)— 各游戏Harsanyi-Selten均衡分布示例
- 内容: 展示612个多混合策略均衡游戏的概率质量函数排列,由低方差到高方差。
- 分析:
- 均衡分布形态多样,涵盖了均匀、尖峰、单峰、分散等分布情形。
- 关联:
- 支撑人类行为预测的多样性基准解释,指明均衡预测难度及AI模拟优势之所在。

图6(第31页)— 战略AI与其他模型预测能力比较
- 内容: 四组模型对比,纵轴为游戏中对人类数据赋予更高概率的AI相对优势的对数似然比,
- 结果: 战略AI整体优于基线AI、Harsanyi-Selten均衡、均匀、随机纯策略,优势显著且分布广泛。
- 下方条形图显示战略AI在超过70%(vs基线)和60%(vs均衡)游戏中为最佳预测者。
- 置信区间及统计检验均支持结论可靠性。

---
四、估值分析
本文主体并不涉及传统意义上公司的财务估值或资产定价分析,估值部分更多指的是对AI模拟预测人类行为能力的“价值评估”:
- 利用对比基准(基线AI、均衡策略、随机模型)计算似然比,定量评估优化代理的预测“价值”。
- 通过统计推断,估算该方法对整个游戏族群的人类行为预测能力。
- 统计框架保证结果的外部有效性,赋予“泛化预测准确度”以科学度量和置信区间。
---
五、风险因素评估
- 对理论依赖的风险: 精选提示若基于错误或不充分的理论,预测结果可能失准甚至误导。
- 数据覆盖分布偏差: 训练与验证数据生成机械差异大,若理论无法涵盖核心行为驱动力,泛化能力不足。
- 过拟合风险: 在缺乏严格跨环境验证下,模型可能对训练数据刻画精准但泛化差,尤其是无理论提示时明显。
- 技术实现风险: 复杂优化与参数搜索需在高维空间进行,非平滑或错误设定可能陷入次优解。
- 外部数据干扰: 若部分游戏在LLM训练数据中出现,可能轻微加强表现,但减弱对未知环境的预测鲁棒性。
报告通过严密的预注册设计与交叉验证策略,有效缓解上述风险。
---
六、批判性视角与细微差别
- 报告中使用的级别推理模型虽经典,但其对复杂策略的解释力尚受争议,尤其在更大策略空间中推理层数定义较难统一。
- 基线AI配置(纯随机无提示或简单词汇提示)可能偏弱,未来可测试更强优化基线。
- 训练集规模较小(<200人),虽然在当前范畴表现良好,但难以保证对更复杂社会场景的泛化。
- 报告强调理论导向,但理论自身受制于当前社会科学认识,可能无法捕捉所有行为异质性。
- 对估计方法基于随机采样假设,现实中真实应用场景可能分布与采样假设偏离较大。
- 探讨了“泛化”重要性,但也承认无法对完全不同领域实现统计保证(例如非游戏策略行为预测)。
---
七、结论性综合
本报告提出基于理论指导的自然语言提示构建AI代理,结合严谨的跨环境验证方法,显著提升了AI在战略游戏领域内模拟和预测人类行为的准确性。
通过设计超过88万种高度多样的游戏构成的族群,采用随机抽样与约300万AI模拟响应,辅之以4000余真人实验数据,报告系统展示了理论驱动AI主体远超传统均衡分析及无信息基线等模型的预测效果,且泛化能力卓越。
尤其关键的是:
- 通过精准设计的提示和层级推理模型,AI能模拟多样化人类策略,从而捕获个体之间的行为异质性和信念差异。
- 跨多环境(原始游戏、变体、不同规模策略空间的全新游戏)验证表明,这些理论基础提示促进了模型的稳健性和有效泛化,适应了社会科学行为建模中典型的分布转移和结构变化难题。
- 该研究不仅为社会科学行为预测打开新途径,也为AI赋能社会科学理论探索与假设检验提供了可行范式。
- 论文尾部附录进一步验证方法对社会偏好类非战略行为的泛化效能,强调广泛适用性。
综上,本报告系统且深入地阐述了利用现代AI语言模型与社会科学理论结合构建通用智能主体,以实现跨环境人类行为预测的理论依据、实现路径与实证成效,标志着社会科学与AI融合的重大进展。
---
# 溯源标注:[page::0, page::1, page::2, page::3, page::4, page::5, page::6, page::7, page::8, page::9, page::10, page::11, page::12, page::13, page::14, page::15, page::16, page::17, page::18, page::19, page::20, page::21, page::22, page::23, page::24, page::25, page::26, page::27, page::28, page::29, page::30, page::31, page::32, page::33, page::34, page::35, page::36, page::37, page::38, page::39, page::40, page::41, page::42, page::43, page::44, page::45, page::46, page::47, page::48, page::49, page::50, page::51, page::52, page::53, page::54, page::55, page::56, page::57, page::58, page::59, page::60, page::61, page::62, page::63]