`

Strategic Interactions between Large Language Models-based Agents in Beauty Contests

创建于 更新于

摘要

本论文研究了基于大型语言模型(LLM)代理在经典美人游戏中的多玩家战略互动。结果显示,LLM代理表现出0至1之间的战略推理深度,低于人类实验结果但呈现出向纳什均衡的收敛趋势。通过调整组内代理类型组合,发现较低战略不确定性和多样化智能水平的混合环境促进了学习收敛速度,提高了高智能代理的收益,揭示了LLM间竞争与合作行为的潜在机制,为社会科学研究和算法交互提供新视角 [page::0][page::4][page::5][page::6][page::7][page::8][page::9]

速读内容


LLM基代理在美人游戏中展现的战略水平低于人类,平均处于0至1阶层间 [page::3][page::4]


  • 多个LLM模型(如ChatGLM3、Claude2、GPT3.5、GPT4)在一轮游戏中选择集中于策略水平低,GPT4稍高,表现出一定程度的迭代推理。

- LLM代理表现出战略水平范围的差异,反映了不同LLM训练和推理能力差异。
  • 表1数据表明多数模型选择平均数高于人类实验数据,战略深度偏低。


LLM代理在重复游戏中逐步学习并趋向纳什均衡,表现出有限战略演进 [page::5]


  • 大部分LLM代理在6轮重复游戏中选择的数字逐渐降低,趋近于理论纳什均衡0。

- GPT3.5和GPT4表现出战略水平和收益的稳定增长,显示适应性学习和策略调整能力。
  • 个别较弱模型(ChatGLM3、Llama2)未表现学习趋势,行为较为随机。


组内异质代理组合加速学习与收敛,环境中的战略不确定性影响收敛速度 [page::6][page::7][page::8]




  • 在固定策略算法与LLM混合环境中,LLM代理对0策略逐渐收敛,收敛速度随固定策略代理比例降低而变慢。

- LLM代理间混合高低智能类型能加速整体学习,低智能代理在存在高智能代理时学习速度明显提升。
  • 收敛率和收益均随组内代理组合异质性而显著变化,混合环境催化深度战略推理提升。


LLM代理的收益与战略水平不完全正相关,在不同组构中收益分布差异明显 [page::6][page::7][page::8]




  • 高智能代理通常获得较高平均收益,但在某些混合环境中低智能代理的波动也较大,收益并非始终逊色。

- 收益的波动性反映了博弈中战略互动的复杂性和不确定性。
  • 模拟结果可作为经济竞争模型中的定价策略自动化研究参考。


量化策略核心: 通过设定不同LLM类型,构造多期重复美人游戏,结合历史信息揭示代理的战略推理深度和学习轨迹 [page::5][page::6][page::7]

  • 使用Nagel的level-k模型评估代理战略深度,量化0阶至2阶推理层次。

- 引入部分静态(固定策略)与动态(LLM智能混合)环境,模拟实际竞争情形。
  • 利用代理的历史信息反馈,实时调整选择策略,实现博弈学习动态。

- 研究揭示异质群体结构能促进整体学习效率及策略多样性演进。

深度阅读

报告详尽解析:基于大型语言模型的代理在美人竞赛中的战略互动研究



---

1. 元数据与概览



报告标题: Strategic Interactions between Large Language Models-based Agents in Beauty Contests
作者: Siting Estee Lu
机构: 爱丁堡大学经济学院
发布时间: 2024年(具体日期未提及)
主题: 探讨多个基于大型语言模型(LLM)的智能体在经典经济学美人竞赛游戏中的战略表现及相互作用。

核心论点与目标: 本文旨在填补多玩家竞争游戏中使用多类型LLM代理战略行为研究的空白,重点在于评估LLM代理的战略深度(基于level-k模型中的0到1阶层次)及其在重复互动中的学习和收敛行为。论文强调,通过操纵组内不同类型智能体的比例,可以影响整体学习速度和均衡达成;智能体多样性促进更快的学习收敛。该工作同时指出LLM代理可能为模拟人类行为提供新的、更具成本效益的实验手段,并为我们理解算法间战略互动提供初步洞察。

---

2. 逐节深度解读



2.1 引言与研究定位


  • 作者指出,LLM基于大量人类生成数据训练,其决策和行为具有一定的人类理性和模仿性,因此可作为社会科学、尤其是博弈论领域的模拟工具。

- 现有研究多聚焦于2人博弈且智能体同质,本研究强调多玩家、多类型LLM的竞争游戏——美人竞赛,多玩家情境复杂性更高,更贴近现实战略互动。
  • 作者采用Nagel (1995)提出的level-k模型,将LLM行为映射到人类战略深度水平,并考察重复游戏中的动态学习与收敛。


2.2 背景与理论基础


  • 论文区分LLM的两种研究用法:(a)限制行为生成的合成智能体,用于检验理论模型;(b)开放性模拟自主决策,更贴近“无约束”的人类行为模拟,尤其适用重复博弈场景。

- 通过训练数据、模型结构等差异,LLM本身呈现异质性,但本研究更多从表现出的战略水平角度界定异质性。
  • LLM作为人类参与者的补充,而非替代,强调模拟战略行为的可用性和限制。

- 选择美人竞赛作为研究对象,是因其拥有唯一内部纳什均衡,易于界定战略深度,且具备代表股票市场、价格竞争和算法对抗等社会经济背景。

2.3 美人竞赛设计与实验方法(第3章)


  • 使用9种不同LLM(如ChatGLM系列、Llama2、Baichuan、Claude,及OpenAI系列GPT3.5/GPT4等)作为独立智能体参与。

- 经典游戏规则:玩家在[0, 上限]内选数,选数贴近2/3平均数者获胜,重复6期,最多可回顾3期历史(包括所有玩家决策、平均数及获胜者),信息反馈有限制以控制计算资源。
  • 战略层级定义清晰,level-0以均值作为参考点,level-1基于对0级的反应,递进式推理。

- 数据采集采用API调用生成多次独立样本,以获得稳定战略深度评估。

2.4 单轮博弈实证结果(图表及数据分析)


  • 图1(选数频率直方图) 展示了不同模型选数分布,发现大多数LLM集中选择50(中点),被视为level-0层次;少数如Claude2和GPT3.5趋近33(level-1);GPT4则集中在44左右,层级介于1和2之间,表明更为复杂和深度的推理能力。

- 表1(平均和中位数选择) 定量支持上述定性观察,GPT系列表现出较低选数和更高层次推理。
  • 对比已有的实证美人竞赛人类数据(Nagel 1995等),LLM平均层级低于人类,但呈现类似的分布及“人类化”的随机波动。

- 参考点依赖性分析(图2) 显示战略层级计算随参考点不同(均值或上限)的敏感性,强调模型推理层级评估的参数依赖。
  • 收益表现(图3) 具层级更高模型(如GPT3.5)获得均值收益也更高,表明战略深度与获胜能力相关,虽然存在例外(ChatGLM3波动较大导致收益较低)。


2.5 重复博弈结果与学习表现(图4、图5)


  • 多期游戏结果显示大多数模型行动逐期趋近纳什均衡0(即最优猜测),表明LLM通过历史反馈展现出策略调整和理性收敛。

- GPT4在后期展现超过GPT3.5的战略层级,反映其更优的信念修正与学习能力。
  • 部分模型表现出随机或不收敛(如Llama2),凸显模型间能力差异。

- 收益曲线显示整体正向增长,符合战略调整所带来的竞争优势提升。

2.6 组内异质性对学习速度的影响(第4章)


  • 选择代表“高智商”GPT3.5与“低智商”PaLM,构建含10名智能体的仿真游戏,组内类型占比变化。

- 在静态环境(LLM vs. 固定策略算法)中,固定策略数字为0,比例变化影响学习速度:

- 高比例固定策略导致LLM快速收敛;
- 高比例LLM导致较慢收敛;
- 高层级LLM表现出逐步改进(非直达),低层级则更趋横向跳变。
  • 收益曲线令人惊讶地显示低层级LLM在某些环境下获得收益可超过高层级,反映高层级优势不绝对。

- 应用示例为Bertrand定价竞争模型,模拟固定价格算法与动态调整算法企业间竞争,揭示价格弹性与市场应对机制。
  • 动态环境(LLM相互竞争)中:


- 纯高层级环境中,高阶智能体逐步选择较低数字,低阶体现随机性;
- 纯低层级环境中,低阶智能体无明显策略进化;
- 混合环境中,双方均趋向于低数字,混合性促成双方更快的学习和调整;
- 高层级个体在混合环境中战略水平显著提升,表明复杂环境激发更深思考层次。
  • 收敛速率图(图8)进一步证实混合组策略收敛更快,纯组策略收敛缓慢,实验结果彰显异质性对于学习动力的重要性。

- 【附】推理诱导实验显示:

- 低层级代理多基于模仿获胜者或调整参考点,反映简化学习;
- 高层级代理表现出多元学习机制,包括基于历史平均调整、获胜策略模仿、收益反馈和模式识别;
- 细节显示LLM对小数精度和代币限制的敏感性影响决策,类似人类注意力的异质性体现。

---

3. 图表深度解读



图1(第3页)


  • 内容:不同LLM模型在一轮美人竞赛中的选数分布。

- 解读:大部分模型在中点附近(50)集聚,表征level-0,少部分模型如GPT3.5在33附近频次高,表明更深一步的层级账户。GPT4进一步显示层级介于1和2,显示出高推理深度。
  • 支持论点:图表生动展示了不同模型的战略水平差异,是整个分析的定量基础。

- 局限:ChatGLM2无数据,可能因输出理解问题。

表1(第3页)


  • 内容:各模型选择的平均值与中位数。

- 解读:平均与中位数均集中在50左右,GPT及Claude模型略低,体现更小的选择值与更高的推理深度。
  • 支持论点:定量验证图1观察,佐证战略层级分布。


图2a/b(第4页)


  • 内容:不同参考点下战略层级与标准差。

- 解读:以$\frac{\bar{c}}{2}$作为参考点,“大多数智能体处于0到1之间”;若以$\bar{c}$为参考点,发现在1到2.5之间。
  • 说明参考点选取对战略层级估计的影响和存在一定的解释弹性。

- 支持论点:保证研究中对指标选择准确性和理论合理性。

图3(第4页)


  • 内容:各模型平均收益水平。

- 解读:高战略层级模型表现出更高收益。GPT3.5最高。
  • 说明战略深度与实际收益有正向关系,部分异常(ChatGLM3)说明波动性影响收益。


图4(第5页)


  • 内容:30次会话中每个周期平均选择数的收敛趋势。

- 解读:大多数模型逐步接近0,显示典型的纳什均衡收敛特征,Llama2除外。
  • 支持论点:证明LLM具有学习行为,符合博弈论预测的合理性。


图5a/b(第5页)


  • 内容:每周期平均战略层级及平均收益演变。

- 解读:GPT4周期后战略层级超越GPT3.5,诉说更高的适应能力;GPT3.5收益稳定领先,其余模型逐步提升收益。
  • 说明模型在重复博弈中战略深度提升有限但收益演进明显。


图6a/b(第6页)


  • 内容:LLM智能体与固定策略对手混合环境中,不同智能体随时间的选择。

- 解读:高智能体收敛速度普遍缓慢但持续,低智能体收敛不稳定或迅速随机收敛。
  • 支持论点:策略复杂度及对手类型影响学习速度和行为稳定性。


图7a-e(第7页)


  • 内容:纯高智能体、混合及纯低智能体环境中选择数的演变。

- 解读:纯低智能体环境选择基本稳定,中高智能体环境显示显著向0靠拢,混合环境促进低智能体学习。
  • 说明异质性提供协同效应,促进整体学习加速。


图8(第8页)


  • 内容:不同组成人智能体收敛率对比。

- 解读:纯环境收敛率较低,混合环境收敛度明显更高且波动大。
  • 佐证异质环境具有更强的学习推动作用。


图9(第15页)


  • 内容:同一上限条件下各模型选择数字的变异度。

- 解读:Claude2、GPT3.5与GPT4波动最大,说明决策行为存在随机因素和选择多样性。
  • 支持论点:模拟行为更贴近人类多样性。


图10(第15-16页)


  • 内容:重复博弈选择与战略层级直方图。

- 解读:与单次游戏类似,但范围更宽泛,体现多样化和动态调整。

图11(第16页)


  • 内容:第1期战略层级及标准差。

- 解读:大多数模型战略层级低至1以下,GPT4表现较高,符合单轮分析。

图12-14(第17-18页)


  • 内容:高低智能体在不同环境中的收益演化。

- 解读:高智能体在混合环境表现最好,低智能体收益受限制且波动大;固定策略对手环境中,收益结构依对手比例而变。
  • 阐释智能体贫富分化现象及对策略环境敏感性。


---

4. 估值分析与模型评估



该报告非典型金融公司研究报告,不涉及直接估值,但提供了战略能力层级及收益回报的“价值评估”。战略层级的定义相当于策略成熟度的评价指标,收益则对应博弈成果。
  • 战略水平(Level-k模型) 作为核心“估值”方法,代表参与者对对手策略的推理深度。

- 通过历史反馈进行动态调整,模型模拟收益功能体现了策略适应性对价值的影响。
  • 组内异质性被视为促进策略“投资回报”的重要因素,即多样性提升整体学习效率和收益分配。


---

5. 风险因素评估



报告主要隐含风险包括:
  • LLM本身的随机性和稳定性: 某些模型输出不稳定(如ChatGLM2无法完整完成任务),会影响结果解释力。

- 训练数据及模型限制: 语言差异(如中英文提示)、数据稀缺性及模型版本停滞使得模拟结果具有限定的时效性和语境依赖。
  • 推理深度估计依赖假设: 参考点选取及策略层级解释有一定主观判断,可能导致层次解释存在偏差。

- 模拟与现实差距: 尽管LLM行为类似人类,但直接对照推断仍不严谨,模拟不能完全取代真实人类试验。
  • 历史信息反馈限制: 提示中只能传递部分历史数据(最多三期),可能限制学习效率和策略调整。

- 外部环境通用性: 研究仅基于特定美人竞赛参数,未涵盖更多博弈形式。

缓释策略包括多次重复试验、对比不同模型、多语言验证,以及针对模拟环境的严格控制。

---

6. 批判性视角与细微差别


  • 偏见与局限


- 作者强调LLM作为模拟工具的潜力,但也预警对推理机制过度类比人类存在风险。
- GPT4推理层级偶低于GPT3.5,可能由于更宽泛数据训练引入“噪音”策略,说明模型能力不等同于预设的智能层次。
- 精细的十进制策略选择显示出LLM决策受计算资源(如token限制)影响,反映了“人工理性”与“机器理性”的差异。
- 组内异质智能体混合促进学习收敛,呼应教育学中混合分组优势,但实际应用需要谨慎考虑个体差异边界。
  • 内部矛盾


- GPT4具备更强学习表现,却策略层级不显著更高,反映学习能力与初始策略水平的可能脱节。
- 低智能体在某些环境能获得较高收益,说明简单策略在环境特定配置中仍具竞争力。
  • 未来展望


- 报告提及版本稳定性对结果复现的重要性,未来模型可能因数据更新产生截然不同的学习行为,预示模拟结果的时效性限制。

---

7. 结论性综合



本文创新性地将大型语言模型代理引入经典经济学多玩家竞争游戏——美人竞赛,全面评估了不同LLM模型在博弈中的战略水平、行为学习和适应能力。总结如下:
  • 战略层级发现:LLM代理表现出低至中度的战略层级(介于0至1),低于但类似于人类实验数据,表明LLM能模仿部分人类博弈行为但仍显欠成熟。

- 学习动态:在重复博弈场景中,多数模型展示基于历史反馈的学习行为,有意识地调整策略并趋向纳什均衡,体现基本理性。
  • 群组构成影响:组内异质性(高低智商混合)能加速整体学习过程,促进低战略水平代理提升,强调多样化学习环境的重要性。

- 收益关联:智能体战略水平与其平均收益正相关,但高战略水平不总保证领先,尤其在面对固定策略对手时,简单策略有时能获得不俗表现。
  • 算法间互动:研究揭示算法之间的战略互动特点,为理解算法代理在现实竞争和合作环境中的行为提供基础。

- 图表洞察
- 频率分布图明确了不同LLM战略层级的分布特征;
- 收敛轨迹图映射成长周期内智能体的学习成效;
- 收益演化图揭示策略进化与经济回报的内在联系;
- 组内比例调整图强调环境复杂性对策略适应的深刻影响。
  • 应用价值:结果可转化指导自动化定价、网络平台游戏设计、教育分组等领域中的智能策略配置,促进人与机器、机器与机器间更高效的交互。


综上,本文不仅以经济学经典博弈为载体,实证验证了LLM的战略互动特征,也推动了LLM作为社会科学研究工具的开拓,为将来深度理解人与智能体共存竞争提供方法论基础。[page::0,1,2,3,4,5,6,7,8,9,10,15,16,17,18,19]

---

参考



本分析直接基于全文页码标记的原文内容,对全文结构、论点、数据与图表、模型评估及潜在风险进行了全面深入的解读和综合,详细参见原文第0-20页的内容。

报告