Strategy Method Effects in Centipede Games: An Optimal Design Approach
创建于 更新于
摘要
本报告基于六款精心设计的蜈蚣博弈,实证检验了三种策略引导方法(直接响应法、完全策略法、简化策略法)对行为选择的影响。研究发现,简化策略法导致参与者更倾向于延迟终止博弈,且该行为偏差符合动态认知层级(DCH)解的预测,同时结合量化响应模型(QDCH)能更精准刻画行为差异。本研究采用最优设计方法提高了实验效能,并通过结构化估计验证了模型的优越性,丰富了关于策略方法带来的行为扭曲机制的理论理解 [page::0][page::4][page::5][page::10][page::11][page::19][page::23][page::27][page::30][page::55].
速读内容
三种蜈蚣博弈类型与参数设置 [page::7][page::8][page::9]
- 线性博弈:差值固定,收益随阶段线性增长。
- 指数博弈:收益呈指数增长,防止爆炸性增长系数设为2。
- 常数和博弈:和固定,较小收益按比例递减。
- 实验采用两组参数对应大/小策略方法效应,优化设计确保统计效能。
三种策略引导方法比较 [page::9][page::10]

- 直接响应法(DR):顺序决策,信息不完全。
- 完全策略法(FS):同时决策每个节点策略,复杂且易冗余。
- 简化策略法(RS):同时选择四种简化策略,便于执行但产生行为扭曲。
动态认知层级模型(DCH)及其策略方法效应预测 [page::10][page::11][page::12]
- DCH假设玩家有层级理性程度,低层级随机化,高层级顺序最优响应。
- 预测RS下早期采取概率降低,导致终止节点整体延后。
- DR与FS策略解预期一致,RS产生显著行为偏差。
最优设计实验与样本情况 [page::13][page::17]
- 采用先试验数据校准DCH参数(泊松分布均值约1.25),随后选取最易显现效应的参数进行实验。
- 192名参与者,三种引导方法内被试设计,避免反馈干扰,DR方法始终最后实施。
实验主要结果及统计检验 [page::18][page::19][page::21][page::22][page::23]
| 指标 | DR | RS | FS | 统计结论 |
|------------------------|-------|-------|-------|-----------------------------------|
| 平均终止节点 | 3.859 | 4.002 | 3.861 | RS终止显著晚于DR和FS,DR与FS无显著差异 |
| Friedman检验p值 | | 0.005 | | 整体存在显著差异 |
| 成对符号秩检验p值(RS vs DR) | | 0.044 | | 说明RS显著晚终止 |
| 成对符号秩检验p值(RS vs FS) | | 0.025 | | 同上 |
- 部分类游戏(小线性、小常数、大常数)中RS引发显著晚终止效应,大博弈类未观测显著效果。
- 相对效应大小与校准DCH模型预测存在偏差,提示需考虑更多行为机制。
替代理论模型比较及结构估计 [page::24][page::27][page::28]
- AQRE模型引入顺序定量响应,用以刻画非完全最优的行为。
- QDCH结合DCH层级信念与量化响应,具有两参数(层级均值τ,精确性λ)结构。
- 最大似然估计结果显示QDCH优于DCH和AQRE,表明行为扭曲因子既包含阶层理性又有随机选择成分。
QDCH模型的策略方法效应及外推验证 [page::29][page::55][page::56]
- QDCH相比DCH更精准解释了小线性和大常数博弈中策略方法效应的大小差异。
- 该模型预测DR与FS间无显著差异,RS方法下延后终止更明显,得到实证支持。
- 最优设计方法基于QDCH校准预测策略博弈效应,增强理论与实证结合。
结论与贡献 [page::30]
- 策略方法虽有效解决序贯博弈中未观测策略的问题,但会引入可预期的行为扭曲。
- DCH为理解策略方法效应提供理论基础,结合量化响应模型的QDCH进一步提升解释力。
- 本文首次结合最优设计理论与行为博弈模型,系统揭示策略方法效果的定性和定量特征。
- 结果对实验设计及机制设计领域均有深远启示。
深度阅读
研究报告详细分析:《Strategy Method Effects in Centipede Games: An Optimal Design Approach》
---
1. 元数据与概览
- 标题:《Strategy Method Effects in Centipede Games: An Optimal Design Approach》
- 作者:Shiang-Hung Hu†, Po-Hsuan Lin‡, Thomas R. Palfrey§, Joseph Tao-yi Wang¶, Yu-Hsiang Wang‖
- 发布日期:2025年8月11日
- 研究主题:探讨顺序博弈中不同策略诱发方法(direct response method、reduced strategy method、full strategy method)对行为选择的影响,重点是centipede游戏。
- 核心论点:
- 不同策略诱发方法会导致行为显著差异,这种现象称作“策略方法效应”(strategy method effect)。
- 传统博弈论无法完全解释这些行为差异。
- 作者使用动态认知层级模型(Dynamic Cognitive Hierarchy, DCH)结合量化响应模型进行理论解释。
- 采用最优设计方法构建六个centipede游戏,实证检验三种策略诱发法的行为差异。
- 发现了显著的行为扭曲且与DCH+quantal响应模型一致。
---
2. 逐节深度解读
1. 引言与研究动机
- 实验经济学中,顺序博弈广泛研究,但传统“直接响应法”存在数据不完整性(incompleteness)问题,无法完全捕获玩家在未到达信息集的行为。
- Selten(1967)提出的策略方法,要求参与者事先同时报告所有可能情形下的策略,从而解决不完整性,但带来了潜在的行为扭曲问题。
- 虽然博弈论中战略等价性认为通过缩减转化的策略形式不会影响纳什均衡结果,但实验中观察到的行为偏离却说明非均衡行为可能依赖于策略诱发法。
- 之前研究对策略方法效应的结果不一,需要统一理论解释,这正是本文动机。[page::0,1,2]
2. 理论框架与动态认知层级(DCH)模型
- DCH扩展了经典level-k/认知层级模型,适用于一般广义式游戏,假设玩家拥有层级的理性水平,与其他玩家的层级受限分布,并动态更新信念。
- DCH关键性质是违反战略等价下的不变性(violation of invariance under strategic equivalence),即尽管两个游戏在缩减正规形式上相同,DCH预测的行为可能不同。
- 该特性主要源自策略集大小的改变,尤其是level-0玩家假定均匀随机化,因动作集合缩小导致行为模式变化,进而影响更高层级玩家的策略选择。
- 对于centipede游戏,DCH预言在“直接响应法”下玩家会更早“take”,在“简化策略法”下更晚“take”,而“完全策略法”与“直接响应法”行为相近。[page::2,3,11,12]
3. 三种Centipede游戏及三种策略诱发法描述
- 研究采用了3类centipede游戏:
1. 线性增益:每通过一步,获得的大小差额$c$固定增加,具体收益递增为线性函数。
2. 指数增益:收益按固定比例$c$递增,投资收益随步数呈指数增长。
3. 常量和增益:每一步大小收益和固定总额,较小收益按$c<1$倍数递减。
- 图示提供6阶段centipede游戏的游戏树结构(图1),标注轮流决策节点及对应收益。
- 策略诱发法:
- 直接响应法(DR):玩家顺序逐节点作出决策,只获得到达节点的策略信息。
- 完整策略法(FS):玩家同时对所有三个决策节点分别作出“停”或“继续”的选择,总共8个完整纯策略。
- 简化策略法(RS):玩家仅选择“停”在三个节点中的某一个,或一直“继续”,共4个简化策略。
- 理论上,此三种方法下游戏的纳什均衡应相同,但DCH预期存在显著行为差异。[page::7,8,9,10]
4. 实验设计与最优设计法
- 针对DCH对策略诱发效应的依赖、且该效应大小受参数影响,采用Lin (2023)最优设计方法:
1. 模型标定 :先进行试点实验,估计参与者认知层级的Poisson分布平均数$\hat{\tau}=1.25$。
2. 参数筛选 :以标定参数预测策略诱发效应大小,挑选每类游戏一个预期产生大效应参数和一个预期小效应参数,共6个游戏。
- 在真正实验中,采用被试内设计,每位参与者按三种方法试玩6个最优参数选定的centipede游戏,方便个体层面观察策略诱发效应。
- 设计上为减少反馈干扰,三种策略方法分别安排顺序,DR法置于最后,RS和FS对调顺序交叉进行。[page::4,12,13,14,15,16,17]
5. 实验数据与主要结果
- 样本共192人,产生每种方法下共1152个策略观测。
- DR法策略不完整,仅63%可还原简化策略,决策点数量显著少于RS和FS法,验证DR法数据不完整性。
- 关键指标:终止节点(terminal node)——决策序列中“take”动作发生的最早位置,若全程“pass”则为7。
- Friedman检验显示不同行为诱发法下终止节点分布显著不同,后续配对Wilcoxon检验发现:
- RS法中终止节点显著晚于DR法和FS法。
- DR法和FS法终止节点无显著差异。
- 结果与DCH的定性预测高度一致(DCH预言:RS下“take”较晚,DR与FS无差别)。
- 对6个游戏逐个分析发现,部分游戏(线性小参数、两个常量参数游戏)策略方法效应显著,另有游戏无显著差异,存在异质性。
- 相对效应强度与DCH校准模型预测不符(校准DCH预期在大参数游戏显著效应,但实测部分小参数游戏显著)。
- 结论是DCH在定性上适用但需引入额外机制解释量级偏差。[page::18,19,20,21,22,23,24]
6. 备选行为模型比较:AQRE和QDCH
- Agent Quantal Response Equilibrium (AQRE):
- 引入对收益的logit型噪声响应,即非完全理性,选择行为概率随收益提升而增。
- AQRE下不同策略诱发方法产生不同定义的非线性方程系统,导致结果差异。
- AQRE强调顺序博弈中条件期望收益与访问概率差异,预期DR导致较早“take”。
- Quantal Dynamic Cognitive Hierarchy (QDCH):
- 是DCH和logit量化响应的混合体。层级结构+概率响应。
- 包含两个参数:认知层级分布参数$\tau$与量化响应精度$\lambda$。
- 收敛于DCH($\lambda\to\infty$)但AQRE与之非嵌套。
- 估计结果表明:
- QDCH显著优于DCH以及AQRE(对所有策略方法及合并数据均如此)。
- QDCH更好捕捉了数据中的量化响应与层级信念双重效应。
- 不同策略方法下量化响应效应强度不一,FS法中量化响应主导行为模式。
- 标定参数$\hat{\tau}=1.25$与试点数据一致,可实现模型预测。
- 标定的QDCH模型可更准确预测策略诱发效应的相对大小关系,尤其是强化了在部分小参数游戏中的效应解释力。[page::25,26,27,28,29]
7. 结论与贡献
- 策略方法能够有效解决实验中未观测路径上的策略不完全性问题,但会引入行为扭曲。
- 动态认知层级模型结合量化响应理论可对这种扭曲作出一致定性与部分定量解释。
- 采用最优设计方法能够大幅提升实验检测策略诱发效应的效能,并避免没有效应的设计浪费资源。
- 本文同时丰富了理论研究与实验方法论,展示了违背战略等价假设的行为模式及其动力学。
- 方法论上的“先行标定—后验最优设计”模式,适用于包含未知参数的理论与实验交叉领域,推广价值显著。[page::29,30,31]
---
3. 图表深度解读
图1(页7):6阶段centipede游戏树示意
- 展示玩家1(奇数节点)和玩家2(偶数节点)轮流决策结构。
- 每个节点玩家决定“take”(T)或“pass”(P)。
- 终端节点对应收益$(Xj,Yj)$随阶段递增,且满足$Xj > Y{j+1}$保证游戏唯一均衡为初始节点选择“take”。
- 该图为后续实验设计游戏的框架基础,说明游戏规则和信息结构。[page::7]
图2(页9):三种策略诱发方法的界面截图
- 上排左、中分别是DR法在第一、第二决策节点的动作截屏,动作决策顺序呈现。
- 下排左为FS法,玩家同时给出所有决策节点的策略选择(stop/continue),即完整策略。
- 下排右为RS法,每位玩家同时选择4个简化策略之一,即在哪一节点“stop”,或一直“continue”。
- 体现三种策略诱发方式在实验中的区分,有利于理解数据采集差异导致的行为差异来源。[page::9]
图3(页16):不同类别游戏策略诱发效应的sup-norm距离函数$\mathscr{S}(c)$
- 横轴为参数$c$,纵轴为不同策略诱发法终止节点分布的sup-norm距离(最大全距)。
- 在线性、指数、常量三类游戏中,效应幅度随参数非单调波动,存在“最优参数”能最大化策略方法差异。
- 据此选取了每类游戏中一个“大效应”和“小效应”的$c$值作为实验用。
- 表1总结了6种选取参数对应的理论最大sup-norm及统计显著性预测。
- 理论设计精确且有针对性,反映精细设计思路。[page::15,16]
图4(页21):六个游戏下三策略方法终止节点累计分布图CDF
- 用不同线型区分DR、RS、FS方法下的终止节点累积概率。
- 视觉显示RS法推迟终止(曲线普遍右移)现象在两个常量游戏和一个小线性游戏中显著。
- 其他游戏对应三条线较为重合,说明策略诱发效应存在显著异质性。[page::21]
图5(页22):策略诱发方法两两比较终止节点平均值散点图
- 左上:DR vs RS,点全部不低于45度线,表明RS终止节点晚于DR(DCH期望)。
- 右上:DR vs FS,点靠近45度线,大部分游戏无显著差异(DCH预期)。
- 左下:FS vs RS,点均不低于45度线,只有小线性游戏显著晚于FS。
- 明确展示三个策略诱发方法的行为差异模式及统计显著性,强烈支持DCH的策略方法效应假说。
- 唯一例外为小常量游戏,FS比DR晚,偏差不符合DCH理论。[page::22]
表2(页18):观察量以及终止节点统计汇总
- 展示每策略诱发法下获取的玩家游戏策略数及由此推断出的决策点信息。
- DR法观测行动最少,数据不完整,体现其采样缺陷。
- 终止节点均值:RS=4.002 > DR=3.859 ≈ FS=3.861,且RS与两者有显著差异。
- 统计测试支持方法效应存在,数据通透支持理论分析。[page::18,19]
表3(页24):策略方法效应在大游戏与小游戏间差异的对比
- 三种策略法两两比较的终止节点差异分组统计。
- 观测中,大游戏(Treatment)效应未显著高于小游戏(Control),与校准后DCH预期不符。
- 这一“强度异常”促使投入考虑额外量化响应因素的混合模型QDCH。[page::23,24]
表4(页27-28):模型结构估计与拟合优度比较
- QDCH模型参数$\tau$(认知层级均值)与$\lambda$(logit响应精度)分别估计,均有较小标准误,显示稳定性。
- 对比指标:Log-Likelihood(LL)、相对更优提升率(△%)、似然比检验(LRT)和Vuong检验。
- QDCH对比DCH在三个策略法全部显著优越(LRT $p<0.001$),证实引入量化响应重要。
- QDCH对比AQRE在所有数据整体也显著优越,说明认知层级信念结构与非均衡性质刻画更好。
- 表示量化响应+动态认知模型对实验数据拟合最佳。[page::27,28]
附录图和表
- 附录图A.1(页45):6个选定centipede游戏树及对应精确支付结构。
- 附录图A.2(页46):实验中六游戏全策略诱发法CDF对比,补充展示行为异质。
- 附录表A.1、A.2详细列示终止节点均值、频率及统计检验,支撑图5和图4。
- 附录图A.3~A.6阐释设计稳健性和QDCH理论预测。
- 附录表A.4~A.7统计分析补充,包括order effect检验等确认设计合理。
- 附录表A.8~A.10按游戏类别详细展示结构估计结果和模型比较,确保主结论跨游戏类适用。
---
4. 估值/理论模型分析
- 主要估计采用最大似然估计(MLE),口径统一,覆盖三种行为模型:DCH、AQRE与其混合QDCH。
- DCH采用Poisson分布参数τ表示玩家认知层级,默认层级最大截断(主实验中为50,试点为10)。
- AQRE基于全局博弈纳什均衡假设采用logit形式选取动作,带有精度参数λ。
- QDCH在DCH基础上引入logit量化响应(λ参数),允许非最优选择,达到拟合实际行为的目的。
- 估计结果表明,单纯DCH虽能解释策略方法效应方向,但对效应大小预估不足,需要结合量化响应方能兼顾定量解释。
- 模型选用和估计方法细节科学严谨,充分应用了博弈论行为模式与统计推断技术。
---
5. 风险因素评估
- 报告未明确展开传统财务或市场风险因素,但涉及实验设计特有的偏差压力:
- 序贯影响顺序效应:通过交叉设计和无反馈设置最小化,且统计检验显示无显著顺序效应。
- 试点依赖与标定误差:采用同场试点数据降低模型参数估计偏误,且开展多重稳健性测试。
- 策略诱发方法定义及视觉界面差异:通过保持游戏树格式一致,仅变决策提交方式来降低认知混淆风险。
- 样本偏差与异质性:样本中存在行为层级的自然分布不确定性,实验设计通过多游戏多方法交叉减少该影响。
- 整体来看,报告通过设计与统计控制措施,有效缓释纯实验设计相关风险。
---
6. 批判性视角与细微差别
- 报告基于DCH模型假设“层级认知分布独立于策略诱发法”,试点检验未否定该假设,但在主实验中策略方法效应大小偏离预测,提示该假设可能局限,未来需更细腻模型处理。
- 小样本试点估计参数($\hat{\tau}$)用于全样本设计,尽管经过稳健性检查,仍可能有一定参数传递误差。
- 策略方法效应虽稳定出现,但仅依赖纯DCH难以解释效应力度,在AQRE和QDCH补充加入量化响应后实现较好拟合,暗示单一行为模型的限制。
- 对于小常量游戏FS法与DR法非预期差异,报告未深入解释,可能暗示认知异质性、界面感知或实验特定影响。
- 报告强调“战略等价性在行为层面并非严格成立”,这一启示对机制设计领域有广泛影响,但不同环境下该结论的普适性有待后续验证。
- 实验设计未覆盖更大规模游戏长度和复杂动态下策略方法效应的泛化,后续工作可考虑扩展。
---
7. 结论性综合
本报告系统地分析了《Strategy Method Effects in Centipede Games: An Optimal Design Approach》这篇前沿行为博弈论文,涵盖理论框架、实验设计、数据分析、模型估计、图表解读及理论与方法学贡献多个维度。
- 报告首先切中“策略方法效应”这一实验经济学与行为博弈理论核心困境,通过动态认知层级(DCH)模型提出机制解释,进而结合量化响应机制(AQRE和QDCH)弥补纯DCH的不足。
- 通过最优设计方法,合理且事先标定了游戏结构参数,显著提高了实验对策略方法效应大小差异的识别力,提升实验效率与科学性。
- 实验在192名参与者的被试内设计空间完成,多游戏、多策略法横向对比,数据完整且分析充分。
重要发现包括:
- RS法导致明显更迟终止(更晚选择“take”);
- DR与FS法行为相近,符合DCH的定性预测;
- 不同游戏间策略诱发效应存在异质性,且效应强度的相对排序不完全由DCH解释,需要QDCH等更复杂模型。
- 通过结构性最大似然估计细致对比三模型,得出:
- QDCH为最优拟合,呈现层级认知与量化响应的综合动力机制。
- 量化响应部分对于解释行为偏好及策略方法效应之相对强度差异至关重要。
- 报告整体强化了行为模型在实验数据解释中的核心地位,同时推动实验设计方法学向参数化理论指导的方向迈进。
- 最终,报告提供了关于策略方法效应的全面科学图景,恰如其实验严谨与理论创新的综合体,不仅对行为博弈研究意义重大,也为实验经济学、机制设计以及认知科学领域提供了深刻启示。
---
总体评价
该报告突破传统均衡假设,提出并实证检验了策略方法诱发的行为扭曲,结合强大理论模型与创新实验设计,系统揭示了决策行为受策略表征方式影响的机制,是行为博弈学领域的代表性杰作。其详实数据与严谨分析为后续学者提供了宝贵的范例和理论工具,极大地丰富了我们理解人类决策与信念形成过程的视角。