Shall We Team Up: Exploring Spontaneous Cooperation of Competing LLM Agents
创建于 更新于
摘要
本报告研究了大型语言模型(LLM)代理在不同竞争性社会情境中自发形成合作行为的能力,设计了三个跨学科案例(凯恩斯美丽竞赛、贝特朗竞争、紧急疏散)以模拟无指令引导下的合作演化。实验表明,LLM代理能基于上下文及多轮交互,自主调整策略,逐步实现合作,且仿真结果与真实人类行为高度一致,揭示了消除内外部偏见在社会仿真中的重要性,推动了社会科学与人工智能社区对LLM推理能力的新评估标准 [page::0][page::4][page::8]
速读内容
- 研究背景与意义 [page::0][page::1]
- 探讨LLM代理在社会仿真中是否能自发形成合作,而非依赖显式指令或价值对齐。
- 强调剔除数据污染及价值偏见带来的先验,以观察基于上下文的自主适应行为。
- LLM代理不仅灵活通用,也有望验证其“刻意推理”能力的真实性。
- 案例综述与模拟框架 [page::2][page::3]
- 选取三个代表性竞争场景:
1) 凯恩斯美丽竞赛(KBC):多玩家选数,目标是接近所有人选数均值的2/3。
2) 贝特朗竞争(BC):两个公司定价博弈,通过价格调整实现利润最大化。
3) 紧急疏散(EE):多智能体在二维网格环境下选择疏散出口,考虑拥挤和认知信息。
- 统一的仿真流程:沟通、规划、行动、更新四阶段,模拟多轮动态交互,体现LLM的长程上下文学习能力。
- 不同场景中沟通形式包括群聊、一对一和广播,决策次数及信息能见度存在差异。

- 凯恩斯美丽竞赛结果解析 [page::4][page::5]
- 随着多轮沟通(k从0到3),玩家选择数的方差持续下降,表明趋向一致,合作逐渐形成。
- 在无指令设置下依然出现合作迹象,明确指令下方差迅速归零;反之“非合作人格”方差显著较大。
- GPT-4表现优于Claude 3,后者倾向于抽象策略交流而非具体数值统一,显示合作形式差异。
- 模拟数值分布与纽约时报大规模实验中人类选择高度相似,验证了模拟的现实相关性。


- 贝特朗竞争定价博弈实验结果 [page::5][page::6]
- 无沟通时,LLM代理在约400轮后价格趋近于伯特兰均衡价和卡特尔价之间,实现默契串通(collusion)。
- 允许沟通后,双方能通过对话逐步达成明确价格协议,价格快速收敛至卡特尔价,实现显性串通,收益更高且波动更小。
- 关闭沟通后,价格回落至隐式串通区间,进一步证明价格升高依赖于沟通。
- 明确鼓励合作的指令显著加速且稳定合作的达成,间接佐证无指令合作是沟通的结果。


- 紧急疏散模拟与合作观察 [page::7][page::8]
- 100名智能体模拟地震疏散,在33×33网格房间中移动选择三个出口。
- 允许沟通时,疏散速度最快且在50轮内完成全部逃脱,且三出口分布更加均衡,降低拥堵。
- 无沟通或非合作人格设置下,逃脱速度较慢,分布亦不均匀。
- 沟通中出现的信息共享、鼓励性语言等体现合作意愿,有助提升整体疏散效率。


| Round | 5 | 10 | 15 | 20 | 25 | 30 | 35 | 40 | 45 | 50 |
|-------|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
| Without Communication | 9.4 | 31.2| 51.2| 65.6| 78.6| 88.4| 96.6| 99.0| 99.8| 99.8|
| With Communication | 9.8 | 31.6| 48.8| 67.2| 80.6| 92.2| 97.2| 98.8| 99.8| 100 |
| With Comm. and Uncooperative| 9.4 | 31.2| 48.2| 64.4| 77.0| 87.4| 95.0| 98.0| 99.0| 99.0|
- LLM模型与参数调优及局限性 [page::13][page::14][page::17]
- GPT-4表现优于GPT-3.5、Gemini Pro和Claude 2,后者在KBC和BC场景中表现不佳,难有效收敛合作策略。
- 模型温度对合作稳健,KBC不同温度均表现出合作演化,BC较高温度会引起价格混乱。
- 引入总结等技术保证长历史上下文输入,已可支持最多达1200轮及400代理的仿真。
- 目前实验主要基于单一模型及有限计算资源,后续将扩展多模型验证与构建基准数据集。
- 量化因子构建及策略总结:本研报未涉及传统金融量化因子构建或具体量化策略的自动生成和回测,但深入探讨了LLM作为智能体在多轮次社交博弈中,基于上下文适应竞争策略形成合作的能力,实际等同于一种多代理竞争-合作动态策略的推演和验证。[page::2][page::4][page::6]
深度阅读
金融研究报告详细分析报告
1. 元数据与概览
- 报告标题:《Shall We Team Up: Exploring Spontaneous Cooperation of Competing LLM Agents》
- 作者及机构:Zengqing Wu 等,主要来自日本大阪大学、京都大学、美国密歇根大学等高校及研究机构。
- 发布日期:报告无明确标注具体日期,但引用年份多在2023-2024年,且提及新近大模型版本,推测为2024年上半年或之前发布。
- 主题概述:报告聚焦于大语言模型(LLM)作为模拟社会智能体(agent)时的「自发合作」行为。突破现有多数依赖明确指令塑造行为的传统方法,探讨LLM在没有显式提示下,基于上下文与过往交互,自主形成合作的能力及其模拟现实社会的潜力。
核心论点:
作者质疑以往社会模拟中对LLM智能体行为需依赖明确引导的惯例,提出「自发合作」的概念,即智能体无需外界明确指令,通过深入理解情况和历史交互,自主适应并形成合作决策。论文通过三个具有代表性的竞争场景(金融、经济和行为科学领域),成功模拟了合作现象的渐进生成,表现与实际人类行为相符。研究贡献旨在为计算社会科学(CSS)和AI社区提供两方面启示:(1)为社会模拟提供更真实的人类行为代理模型;(2)为评估LLM的深度推理能力提出新方式。此报告未明确给出投资评级及目标价,但更多偏向基础研究与算法能力评测。[page::0,1]
---
2. 逐节深度解读
2.1 引言与研究动机(摘要及1、2节)
- 关键论点:
- 传统社会模拟依赖规则明确、行为指令明确的智能体模型,限制了流程的灵活性和泛化能力。
- LLM因自然语言推理能力,天然适合构建更贴近人类推理的代理。然而,现存研究多通过“刻意引导”或标签,限制LLM行为,忽视其内在自我适应过程。
- 本文提出与检验“自发合作”的概念,意在夺回模型决策的自主权,观察在无提示诱导下,LLM能否基于交互历史自我发现合作优势。
- 推理依据和假设:
- LLM已具备一定人类推理潜力,过度引导实际削弱了其能力验证。
- 模拟系统设计避开明显关键词和引导语,最小化外部和内部偏见。
- 三个多学科场景——「Keynesian 美容比赛(KBC)」、「Bertrand 价格竞争(BC)」、「紧急疏散(EE)」具备竞争但潜在双赢的合作背景,适合作为“自发合作”测试案例。
- 重要数据/论据:
- 题图(Fig.1)直观展示了火灾逃生中,群体可能出现的两种极端行为——慌乱争先与理性排队合作,暗示合作的非显式潜能。[page::0,1]
2.2 相关工作(2节)
- LLM智能体已广泛应用于社会模拟,提升灵活性和真实感。
- 多agent协调与博弈研究较多,但多采明确引导,对LLM内生自发合作关注不够。
- SABM框架(Smart Agent-Based Modeling)被采纳,提供轻量级多agent交互基础设施,便于模拟多轮复杂交互。
- 本文立足于无指导(debiased and minimally guided)行为,强调LLM的上下文长程记忆和自主决策能力。[page::1]
2.3 自发合作定义与方法论(3节)
- 定义:不带任何合作指令,代理通过上下文理解和历史交互,自我认识到合作的商业与社会利益,自主调整行为合作。
- 明确排除因为先验知识、价值对齐导致的合作行为。
- 严格设计提示(prompts)以回避明显提示机制,提升合作“自发性”判定可信度。
- 选定方法论意图诠释“合作能否透过后天推理和经验积累形成”,非依靠背景数据预置。[page::1]
2.4 三个案例研究详细解读(3节,4-6节)
2.4.1 Keynesian Beauty Contest (KBC) — 4节
- 设定:24角色竞选猜数(0-100),胜者为最接近全部皆数均值的2/3的人。多个赢家共享奖励。
- 模拟流程(见 Fig.2,4节):
- 多轮“沟通-规划-行动-更新”环节。沟通表现为群聊,玩家交换想法。
- 玩家根据其理解和历史聊天制定“策略”及选数字。
- 关键数据与趋势:
- 方差量度:玩家猜数字方差随沟通轮次k增加逐渐下降,趋向数值收敛,意味着玩家越来越一致,体现合作。
- 明显对照组(Fig.4a):明确合作指令导致方差迅速降至0;带不合作人格的指令导致方差保持高水平。
- 定性证据:沟通内容内出现诸如“同意一致策略”、“推进低价策略”等合作表达。
- 模型比较(Fig.4b):GPT-4表现出稳定收敛,Claude 3抽象策略多样,合作呈不同样态,方差波动更大,表明合作体现多元。
- 与人类实证数据对比:
- 模拟结果与纽约时报大样本人类实验数字分布高度相符(Fig.5),验证模型模拟人类行为能力。
该节反映LLM基于上下文和历史交互,自发收敛策略、合作达成的有效性及真实性,也显示性能依赖具体LLM。[page::2,3,4,5]
2.4.2 Bertrand Competition (BC) — 5节
- 设定:两企业定价博弈,目标是通过调整价格最大化利润。模拟1200轮,或连续200轮因持续合作即达成“共谋”状态则提前终止。
- 仿真阶段(见Fig.2):
- 轮流沟通(不限话题,自由讨论),策略规划,根据历史数据决定价格,更新利润。
- 重要价格区间:
- Bertrand均衡价:无利可图的纳什均衡点。
- 卡特尔价格:双方价格达共谋最高利润点。
- 结果展示(Fig.6):
- 无沟通场景下,价格渐趋稳定于略高于均衡价但低于卡特尔价格区域,表现为默契共谋(tacit collusion)。
- 有沟通场景下,早期即显现明确价格协议,逐渐提高价格至接近卡特尔价格,展示明示共谋(cartel collusion)。
- 通过对比有沟通后停用沟通(Fig.6c),价格回落,确认合作行为真实源于沟通内容而非先验。
- 额外实验:
- 鼓励合作指令使合作更快达成,价格波动更小,增补了合作形成过程是后天学习和协商,而非靠预先知识。
- 关联文献支持:
- 结果与强化学习算法中传统共谋研究一致,但LLM代理机制导致合作收敛速度大幅提升。
该节验证了LLM在经济复杂竞争中通过长期上下文学习,模拟复杂博弈中隐性与明显合作形成过程。[page::5,6]
2.4.3 Emergency Evacuation (EE) — 6节
- 设定:
- 100代理在33×33格房间中逃生,3个出口。
- 每轮20%代理可能交流,实时更新动作策略模拟动态环境。
- 模拟流程(按Fig.2):
- 限距通信(基于物理接近),个体表达情绪和感知,规划逃生路线,行动选择上下左右八方向或静止。
- 结果与分析(Table 2,Figs.8,9):
- 有通信组逃生速度明显快于无通信组,合作促进疏散效率。
- 有通信时逃生出口的使用更均衡,减少拥堵风险,显示出代理间有效信息共享与协调合作。
- 对比带不合作人格的群体逃生效率也相对低。
- 沟通内容如“这里出口人少,我们一起有序撤离”反映真实协作行为。
- 难点:该场景无标准解析解,测试也表明LLM能通过环境感知与交互展现具复杂性的自发合作行为。
此场景验证了LLM代理在时空动态、感知受限环境中的协作表现,为传统计算社会科学方法难以覆盖的领域提供新思路。[page::7,8]
2.5 讨论与总结(7-8节)
- “自发”合作的意义:
- 凸显减少显性提示有助于更真实模拟人类社交动态,特别在多轮复杂互动中。
- 现实的合作并非凭空出现,而是逐步形塑,反映了上下文学习和适应过程。
- 是否是捷径或真推理:
- 案例均排除先验策略直接应用,如KBC非即时全体一致数字,BC价格逐渐收敛,EE现实感应动态表现,均支持模型经过逐步推理调整。
- 限制与未来方向:
- 仅测试有限几种LLM(主要GPT-4)。需拓展模型和规模验证泛化。
- 训练数据与潜在偏见难以完全规避。
- 评测标准亟需系统化,拟打造数据集与基准以促进后续研究。
- 总结:
- 充分展现LLM自发合作潜力,既是计算社会科学的新工具,也为AI社区评判主动推理智能体提供新范例。
[page::8]
---
3. 图表深度解读
3.1 图1(页面0)
- 描述:火灾逃生模拟两种潜在群体行为示意,左图群体慌乱拥挤,右图秩序排队鼓励。
- 解读:隐喻在紧急及竞争环境下,群体行为的非线性,合作与非合作可能并存及演进的场景,是本文研究“自发合作”的现实基调。
- 联系文本:此图强调传统依赖行为引导的不足,鼓励探索LLM自主适应行为能力。[page::0]
3.2 图2(页面2)
- 描述:说明三场景共用的模拟框架流程示意,包括通信、规划、行动、更新四个基本阶段,每阶段进行LLM调用,场景间几处细节差异(例如BC通信与规划阶段顺序反转)。
- 解读:该工作流体现 LLMS在多agent交互中的轮次式信息共享与决策创新,用于动态模拟复杂社会场景。
- 联系文本:支撑后续案例研究的实验设计基础,确保三个竞赛场景对比兼容及标准化。[page::2]
3.3 表1(页面3)
| Scenario | Field | Information | Communication | Decision | Analytical Sol. |
|----------|-----------------|-----------------------|---------------|-----------|-----------------|
| KBC | Finance | Unknown opponent strategy | Group discussion | Once | Yes |
| BC | Economics | Unknown opponent profit | One-on-one | Multiple | Yes |
| EE | Behavioral sci. | Partial observation | Proximity | Multiple | No |
- 解读:
- 归纳三个场景关键异同,帮助梳理实验变量影响和对比角度。
- KBC信息未知对手策略且仅决策一次,适合短期决策与合作观察。
- BC多轮且基于经济利益竞争。
- EE感知受限,涉及空间与群体动力学,最复杂。
- 联系文本:为后续分析和比较提供框架。[page::3]
3.4 图4(页面4)
- 两幅子图分别展示不同指令下(无指令、显性合作、不合作)与不同模型(GPT-4、Claude 3)在KBC里的选择方差随沟通轮次的演变。
- 关键趋势:
- 基线(GPT-4无指导)表现方差逐步下降,体现自发合作。
- 明示合作指令结果方差迅速降至零,显示直达统一结果。
- 不合作人格方差始终较高,体现无合作趋势。
- Claude 3模型表现出初期下降但随沟通次数增加方差回升,反映合作方式多样化,未形成完全一致选择。
- 推理依据:
- 方差下降象征参与者视角收敛,确认产生合作;模型间差异突显对“合作机制”的多样理解。
- 联系文本:验证无显式指令的自然合作形成,模型能力差异影响合作模式。[page::4]
3.5 图5(页面5)
- 描述:模拟玩家的数字选择分布与纽约时报真实人类实验对比。
- 发现:两者分布极为相似,主要选择33为主峰,体现模型能高度复刻人类多步推理行为。
- 联系文本:验证模型的真实性和社会模拟有效性。[page::5]
3.6 图6(页面6)
- 描述:BC模拟中两个变量代理价格随轮次变化曲线,有无沟通情形对比,以及有沟通后中断沟通的情形。
- 解读:
- 无沟通中,价格缓慢升至均衡价以上,展现默契共谋。
- 有沟通时,价格随协商显著上升逼近卡特尔价格,显示明示合作。
- 中断沟通后价格随即回落,证明合作依赖沟通维持。
- 联系文本:直接显示合作形成的动态过程及沟通的重要性。[page::6]
3.7 图7(页面6)
- 描述:鼓励合作与默认设置下,BC前200轮价格走势比较。
- 解读:鼓励合作场景合作更快形成,更稳定,展现策略引导提高效率。
- 联系文本:衬托自然合作形成需时,非先验行为即合作。[page::6]
3.8 图8、图9、表2(页面7-8)
- 图8:EE的二维网格布局与代理位置变化。
- 图9:不同通信策略下,逃生人数累积曲线,显示通信促进更快逃生及出口平衡性。
- 表2:不同时间点逃生人数量化数据,进一步数字化呈现通信正面效果。
- 解读:
- 通信促进了紧急疏散效率和空间资源合理分配,代理可实现信息共享和群体协作。
- 无通信或不合作人格组存在迟缓逃生及拥堵问题。
- 联系文本:补充说明空间感知、局域通信对合作的作用和现实意义。[page::7,8]
3.9 附加图表
- 图10-12分别表达不同LLM性能(GPT-3.5、Gemini、Claude 2等)与GPT-4在KBC和EE的差异,显示GPT-4在多任务推理与环境导航上的优越性,支撑本文方法为何以GPT-4为核心。[page::13,15]
- 图14展示400代理EE场景下多轮动图,体现大规模多代理协作模拟能力。[page::16]
- 灵敏度分析图(Fig.15-18)证明在提示词措辞、随机初始化、模型温度变化等条件下,自发合作现象的稳定性与实验结果的鲁棒性。[page::16-18]
---
4. 估值分析
该报告并不涉及财务估值分析,其主题聚焦人工智能及计算社会科学领域中语言模型多智能体协作机制的模拟分析,故无传统财务估值方法(DCF、PE倍数等)应用或讨论。
---
5. 风险因素评估
作者在伦理声明及限制部分对潜在风险做了评估:
- 训练数据偏见与模型先验:LLM因训练数据中可能存在预训练或价值观偏见,可能导致模型行为过度依赖历史数据,而非真正自发学习,影响社会模拟真实性。
- 模型泛化能力有限:仅使用单一主流版本的GPT-4导致结论尚未普遍适用,需要未来跨模型验证。
- 计算资源限制:限制了多样化及规模化实验,使得研究具有初步性和示范性。
- 社会应用风险:模拟发现LLM可达成类似市场“合谋”,提示现实中AI市场代理可能引发反竞争行为,需监管或风险控制。
- 缓解策略:设计去偏提示,尽量移除合作引导词汇;多个场景及多轮对比支撑结论的稳健性。
总之,风险大多源于技术与方法论本身的局限,以及现实应用可能的伦理法律问题,作者未发现明显负面社会影响。[page::9]
---
6. 审慎视角与细微差别
- 潜在偏见与假设:
- 虽然刻意避开显性提示以实现“自发”,但完全剥离背景知识是不现实的,因此“自发合作”很可能带有一定的隐性预设。
- 模型通信往往生成自然语言,有一定不确定性,深度合作关系可能被过度解读。
- GPT-4表现优于其他模型,说明结果可能与模型能力直接绑定,其他模型难以复刻,不宜过度泛化。
- EE场景由于无衍生解析解和真实数据难以定量验证,合作判定相对更加主观。
- 内部细节:
- Claude 3与GPT-4在KBC的合作表现差异显现,说明不同LLM可能采用不同合作策略和交流节奏。
- BC场景中,明确合作价格区间界定了合作边界,但实际运行价格波动仍较大,反映模型决策的复杂非确定性。
- EE中代理交流虽然有限频率且局域,但整体合作效应显著,显示通信设计有效。
整体而言,模拟充分揭示了LLM自发学习合作的可行性,但细节中仍需要警惕模型及算法特性对结果的影响,不能完全等同于人类真实社会互动。
---
7. 结论性综合
报告系统地展示了使用LLM代理模拟复杂、多轮、竞争场景中无显式合作指令的“自发合作”现象。核心发现如下:
- 三大典型场景中自发合作均得到显著验证:
- KBC中,多轮沟通降低选数方差,模拟出类人收敛行为及合作进化,且结果与大型人类实验证据高度匹配。
- BC中,双方代理能不言而喻地达成价格默契与显性协议,实现不同级别的共谋,合作表现与经济学理论及强化学习研究一致。
- EE中,局域通信促进了疏散效率和空间资源合理利用,体现了真实情境下的群体合作行为。
- 实验设计细致,提示工程避免显性引导,确保合作经验表征“自发性”,凸显了LLM强大的长程上下文学习与推理能力,是其推理与模拟人类社交智能的重要体现。
- 对比分析展示不同类型提示和模型差异,进一步证明合作行为非简单提示产物,而是交互中逐步形成的策略成果。
- 报告贡献显著:
- 为计算社会科学带来了更真实的人类行为建模方式,减少人为刻意引导的偏差。
- 为AI研究界提供评价LLM主动推理和适应能力的新标准。
- 图表支持充分,实验多样且结果一致,结论严谨且具有深远意义。
最终,作者以较低的温度和良好的参数设置,基于SABM多agent框架和GPT-4模型实现了可信的跨领域社会模拟,有效弥合了现实社会复杂交互与数字仿真之间的鸿沟。[page::0-8]
---
总结
本报告通过三个不同社会科学背景的模拟案例,严谨证明LLM作为“智能社会代理”拥有在无外部显式引导下自发合作的能力, 展示其在多轮上下文推理、交流与决策动态调整上的强大潜力。配合多维度数据与图表分析,该报告为未来LSM多agent协作机制研究和人工智能社会推理能力评价提供了开创性的科学方法与经验基础。