Explaining Apparently Inaccurate Self-assessments of Relative Performance: A Replication and Adaptation of ”Overconfident: Do you put your money on it?” by Hoelzl & Rustichini (2005)
创建于 更新于
摘要
本报告对Hoelzl和Rustichini(2005)经典研究进行了在线复现与方法调整,重点分析了相对表现过度自信(overplacement)与低估(underplacement)现象。通过设计固定胜出人数的彩票机制,使之与基于表现的奖金支付机制更为可比,实验证实参与者显著倾向于选择表现测验奖金方案,体现出传统意义上的过度自信,而非原研究观察到的低估。结果显示投票行为主要由自身表现预测、样本题表现和规范性信念驱动,社会比较倾向和风险态度无显著影响。此外,参与者自述投票动机中,信心、规范考虑、控制偏好和样本信号占主要份额。研究指出性能排行榜实验中非信心因素对表现自评误差的影响,拓展了实验过度自信的理解和测量方法,对绩效相关激励设计具有实践参考价值 [page::0][page::4][page::15][page::26][page::28][page::29]。
速读内容
研究背景与目标概述 [page::0][page::1][page::2]
- 过度自信(尤其是相对表现过度自信即过度定位)影响管理、金融等多个领域。
- Hoelzl & Rustichini (2005)通过选择表现或彩票基准奖金机制的投票方法,发现具有“低估”现象(难度大且有真实奖金的任务中参与者倾向彩票)。
- 本文复现该实验并引入固定胜出人数的彩票设计,检验是否彩票设计差异导致的行为偏差。
实验设计与样本特征 [page::9][page::10][page::11][page::12][page::13]
- 复现实验在线进行,使用德语母语参与者,样本规模达到300人,纳入性别均衡样本。
- 设计两组:复制原有基于独立概率的彩票组(Replication),和固定中奖人数的彩票组(Adaptation)。
- 任务为20题逻辑类比测验,带30秒限时,防止作弊。激励真实明确。
- 投票决定奖金发放机制,之后进行测试和彩票抽奖。
- 额外问卷测量社会比较倾向、自我效能、利他性、风险及模糊厌恶等因素。
核心实验结果 [page::15][page::16][page::17][page::19][page::20][page::21]
- 两组均显著偏好表现测验奖金机制(投票率分别74.4%和71.7%),未观察到H&R所报告的低估倾向。
- 预测自己表现显著高于组平均,大约64%参与者预测超越群体,明显超过50%合理阈值。
- 投票选择与自我表现预测高度一致,87%预测超越者投测验,41%预测未超越者也投测验。
- 实际表现平均为12.8分,比预测低1.1分,表现有明显过度估计趋势。
- 逻辑回归显示,“better”指标、自我表现预测和样本题表现均显著正向预测投测验概率。
非表现因素影响与问卷结果 [page::22][page::23]
- 社会比较、一般自我效能、利他性、风险和模糊厌恶未显著影响投票决策。
- 性别和学生身份对投票有影响:男性及学生更倾向测验方案。
- 性别差异不源于实际表现差异。
- 社会比较倾向反而与低投测验倾向相关(可能回避竞争情境)。
校准与投票准确度分析 [page::24][page::25]
- 基于表现中位数划分,约68%参与者选择与其表现位置一致,彩票投票者校准准确率高于测验投票者。
- 校准良好者投票后更有信心,对任务难度的感知较低,满意度更高。
自述投票动机分析 [page::26][page::27][page::29]

- 33%受自信驱动,26%基于规范性考虑(测试方案支持“功绩制”,彩票方案体现“机会均等”),19%参考样本题表现,12%出于对控制的偏好。
- 控制偏好多为测试投票者,部分低信心得票彩票选手也归因于自信,实际可能掩盖模糊厌恶等心理。
- 非货币性动机(控制偏好、规范信念)破坏了H&R提出的纯理性均衡假设。
方法学贡献与启示 [page::4][page::28][page::29][page::31]
- 修正的固定胜出人数彩票机制,未影响投票选择,质疑H&R结果中的低估推断。
- 样本题表现作为决策信号首次被量化证明其重要作用。
- 线上实施、样本多样化及任务调整提高了结果的稳健性,但也限制结果的直接比较与解释。
- 研究补充了有关过度自信的理论和测量方法,强调在设计行为激励时需考虑非理性动机和规范信念。
深度阅读
金融研究报告详尽分析报告
---
1. 元数据与概览
报告标题: Explaining Apparently Inaccurate Self-assessments of Relative Performance: A Replication and Adaptation of "Overconfident: Do you put your money on it?" by Hoelzl & Rustichini (2005)
作者: Marius Protte
所属机构: Paderborn University, Heinz-Nixdorf-Institute
发布日期: 2025年
研究主题: 本文聚焦于行为金融领域,探讨个体在相对表现自我评估中的过度自信(overplacement)及其测度方法的有效性,复现并调整Hoelzl 与 Rustichini (2005)的实验,以解释他们观察到的相对表现下置(underplacement)现象。
核心论点及结论简述:
本文对Hoelzl和Rustichini的经典实验进行了在线复刻,针对他们实验中基于性能的奖励机制与基于抽签的奖励机制的对比设计提出质疑,认为两者在结果依赖性和奖励分配上存在显著区别,可能影响参与者选择,不应直接归因于过度自信或自信不足。
通过引入一种固定获胜者数量且成功概率相互依赖的抽签机制,本文测试了这种设计与原抽签设计对被试投票选择的影响。结果显示,参与者更倾向于表现基于奖励机制,呈现传统的过度自信(overplacement)模式,而非原文所见的下置趋势。参与者的投票行为主要受预期表现、群体表现预估和样题表现等因素影响,而社会比较倾向、风险态度无显著影响。自述的投票逻辑中,规范性信念、对控制的偏好和反馈信号等非置信度因素起到关键作用。研究结果为过度自信研究中的方法论探讨提供新视角,重新解释了误置现象可能的非置信因素影响。[page::0]
---
2. 逐节深度解读
2.1 引言(Section 1)
- 论点总结:
过度自信(overconfidence)被视为心理学中最稳健的发现之一,是决策失效的关键原因。其在金融市场、企业管理、创业决策、社会政治等领域均有深刻影响。过度自信细分成过度估计(overestimation)、过度放置(overplacement)与过度确定性(overprecision),三者依任务难度表现出复杂交互关系。Hoelzl和Rustichini聚焦过度放置/相对表现的错估问题,即个体对自己相较于他人的表现的期望错误。
- 支撑依据:
引用了大量行为金融、管理学、心理学经典文献,论述过度自信导致的经济行为偏差,如过度交易、项目过投资、兼并收购。
- 数据与预测:
任务难度调节下,过度放置多在简单任务出现,困难任务易表现为下置。自我表现较差与下置有关,高表现则引发过度放置。
- 复杂概念解析:
术语如过度估计(自我表现的绝对值高估)、过度放置(相对排名高估)、过度确定性(过度相信自身判断的准确性),以及它们与任务难度关系的“转向”效应,文中均有清晰界定。[page::1]
2.2 原始实验设计与发现(Section 2)
- 论点总结:
Hoelzl & Rustichini设计了2x2实验,区分任务难度(难/易)与激励性质(真钱/假设)。参与者在基于表现的奖金机制(排名前50%获奖金)和随机抽奖机制(单次骰子掷出决定,均为50%中奖概率)间投票。投票行为被用作行为的过度自信指标。
- 支撑依据:
更优于传统自我报告的思路,从行为选择而非问卷自评推测个体相对自信。发现唯一异常的是难任务+真金白银激励条件下,多数人选随机抽奖,解读为下置。
- 关键数据点:
50%的中位数切点,任务及奖金设定使得概率相同。
- 复杂概念解析:
通过投票行为的策略均衡理论,信心在于预计自己是否超越中位数,选择基于表现的奖金则体现过度放置倾向。[page::2][page::5][page::6]
2.3 实验设计缺陷及假设(Section 3)
- 论点总结:
原实验假设参与者作为收益最大化者,真诚地揭示自我评估。但文献及本文指出,原始设计中两类奖金机制在结果分布独立性及奖金获得者数的可变性上存在结构差异。
- 支撑依据:
- 测试机制为零和游戏且结果互斥,中奖人数固定50人;
- 抽奖机制独立成功概率,中奖者数目波动较大,且可能全部中奖。
这种不完全可比会导致非置信因素,如对社会比较的排斥、低自我效能感、利他主义或公平偏好,影响投票倾向。
- 数据与预测:
假设参与者可能因规避社会不平等或获得控制权偏好等原因而选择抽奖。
- 复杂概念解析:
文中进一步提出用固定获胜人数的抽奖机制(超几何分布,结果相互依赖)以做到制度上的公平可比。这促成两假设:
- 假设1:两种抽奖机制会导致不同投票行为;
- 假设2:固定结果分布机制会减少原文中观测到的下置现象。[page::7][page::8][page::9]
2.4 当前实验设计(Section 4)
- 内容总结:
本文基于Prolific在线平台,将H&R的难任务+真金白银条件改编成在线实验。样本量为200人,分为两组:复制原始抽奖机制和采用上述固定结果分布的改良抽奖机制。使用逻辑类比测试代替原始词汇测试,20道题,限制30秒答题时间防作弊。
- 群体构成与设计差异:
Prolific样本较H&R更异质,年龄与背景差异明显,随机但单次大组形式替代多次小组;施加严密的理解测试和问卷辅助采集社会比较倾向、自我效能、利他主义、风险及模糊态度等指标。
- 复杂概念解析:
- 抽奖机制对照:
- 复制组:独立骰子掷出决定中奖,概率独立,人数波动;
- 适应组:固定50人中奖,中奖数固定,个体结果相关联。
实验流程详尽,投票前后对参与者的预期和反思均有问卷测量。[page::9-13]
2.5 实验结果(Section 5)
2.5.1 投票结果
- 关键发现: 两组实验中,表现基于奖励机制均获得绝大多数支持(约72%-74%),明显高于H&R原实验约39%投票给表现机制,表现为过度放置而非下置。两组间投票分布无显著差异,不能支持假设1和假设2。
- 溯源: 表1明确体现此统计显著趋势。[page::15]
2.5.2 参与者预期与表现
- 数据点与趋势:
预测自我表现均值约13.94题正确,高于H&R原实验11.35,且高于预测群体均值12.99,形成平均预期表现超越群体8.8%的比例。反映明显的过度估计。
63.97%的参与者预测自己表现优于群体,远超50%理想比例。
预测与投票具有高度一致:87.4%预期优于群体者投票表现机制,40.8%预期低于群体者投票抽奖。
- 表现数据: 实际表现均值12.8,较预期低,存在过度估计偏差。
- 图示解读(图2): 预期与实际表现差分呈偏正分布,显示明显过度预期。
- 比较H&R: 本实验参与者在认知任务表现与自信心呈偏差,但整体趋势仍吻合过度放置框架。[page::16-17]
2.5.3 投票预测回归分析
- 投票(选试验)概率明显受预期表现较群体表现的比值正向影响,单变量回归中相关系数高度显著(效果边际约77%)。
- 多变量回归纳入自我和群体预期表现、样题表现后,模型解释能力提升,样题正确数显著正向影响投票表现选择(M.E.约10.5%);
- 其他如社会比较倾向、风险偏好、模糊厌恶、自我效能感和利他倾向不显著。
- 图表联系: 表5-7详述回归统计,说明投票行为较好反映部分自我评价信息。[page::19-21]
2.5.4 社会人口统计及控制变量影响
- 性别对投票偏好存在显著影响,男性倾向投表现机制比女性高。学生身份影响边际显著,学生更倾向表现机制。
- 年龄、教育程度、风险及模糊态度、社会比较倾向等多项控制变量均无显著差异。
- 实际测试表现男女及学生非学生无差异,暗示主观认知差异而非能力差异可能导致投票差异。[page::22-23]
2.5.5 校准分析
- 68.4%参与者校准准确(即高表现者投表现机制,低表现者投抽奖)显著偏离完全精准。
- 抽奖投票者校准准确率显著高于表现投票者。
- 教育程度正相关校准准确度。
- 经过测试,参与者对投票的信心和满意度、中后期认知有所调整。
- 表9 显示上述数据。[page::24-25]
2.5.6 自述动机分析
- 自述中主要动机四类:
1. 置信度(33%)
2. 规范性考虑(25%),包括绩效公平性和机会均等观点
3. 样题信号影响(19%)
4. 控制偏好(12%)——更有控制感倾向于表现机制
- 置信度解释仍占主导,但非金钱因素如规范信念和控制欲显著影响投票,挑战了H&R偏重收益最大化假设。
- 置信度与抽奖选择相关,但同时存在低置信且因模糊厌恶选择抽奖情况。
- 图3-4清晰展现分布。[page::26-27][page::48]
2.6 讨论(Section 6)
- 复刻实验未发现H&R中难任务实币条件下的下置现象,整体呈现过度放置。
- 改良抽奖机制(固定赢家数量)对投票无影响,反映两奖励机制间预期成功率并非关键决定因素。
- 样题表现作为投票信号被充分利用,体现实际投票中理性信息加工成分。
- 社会比较、风险与模糊态度等因素对投票行为无显著作用。
- 非理性动机(控制偏好、规范信念)作为解释变量补充传统过度自信模型。
- 采用逻辑类比测试替代原词汇测试,由于作弊隐患与技术限制,任务难度与性质有所调整,可能影响直接比较,但总体认知表现数据对标困难任务水平。
- 大样本在线实验与小规模校园实验的环境差异及样本结构变化对结果解释带来不确定性。
- 未来研究建议采用多元任务类型和引入社会及动机心理视角。
- 本研究为方法论展提供实证证据,强调过度自信测度需考虑非误差动机成分,有助于完善实验设计及理论解释。[page::28-31]
---
3. 图表深度解读
图1:实验流程示意图
描述: 展示参与者从阅读说明、投票与解释动机、预测与测试预期、完成表达任务、测试反思、抽奖及问卷调查的完整流程。
解读: 体现程序严谨,包含多阶段数据采集,强化对投票行为多维因素的捕捉。

表1:两组测试机制投票比例
| 组别 | 均值 | 标准差 | 统计显著性 |
| ---------- | ------- | -------- | ---------------- |
| Replication | 0.744 | 0.439 | p = 0.0000 |
| Adaptation | 0.717 | 0.453 | p = 0.0000 |
解读: 两组均显著超过50%阈值,投票表现机制意愿强烈,型同H&R原文反向下置,且两组差异不显著,否定设计差异影响投票。
表2:表现预测数据
| 变量 | 均值 | 标准差 |
| ------------------ | ------ | ------- |
| 预测自我表现 | 13.94 | 3.612 |
| 预测群体表现 | 12.99 | 2.594 |
| 比值(自我/群体表现) | 1.088 | 0.269 |
解读: 参试者预期显著高于他人,产生过度放置倾向,且高于H&R中难任务实金组的约0.88。[page::16]
表3:预测与投票行为一致性
| 预测 | 测试投票 | 抽奖投票 | 总计 |
| ---------------------- | -------- | -------- | ------ |
| 自我表现优于群体 | 152 | 22 | 174 |
| 自我表现不优于群体 | 40 | 58 | 98 |
| 总计 | 192 | 80 | 272 |
解读: 明确多数受试者投票反映自身表现在群体中的评估,尽管仍有显著偏差。[page::16]
表4:实际表现与群体表现估计
| 变量 | 均值 | 标准差 |
| ---------------- | ------- | ------- |
| 实际表现 | 12.84 | 3.551 |
| 估计群体表现 | 12.52 | 2.594 |
解读: 实际表现略低于预测,反映部分过度估计及后期调整。
图2:预测与实际表现差异分布
描述与解读: 差异分布近似正态,但偏右尾明显,说明多数受试者高估自身表现,极端高估和少量低估共存,反映高度个体差异化。[page::17]

表5-7:Logit回归结果
- 预测自己超过群体比值与测试投票概率强正相关(回归系数5.03,p<0.0001)。
- 预测自我表现正向影响投票表现测试,群体表现预测负向影响。
- 加入样题表现后模型拟合度提升,样题表现对选择测试机制影响显著(M.E. 10.5%,p<0.001)。
解读: 个人对表现的相对估计及样题表现为影响投票首要因素,体现理性成分。
表8:问卷控制变量均值与对投票选择对比
| 变量 | 全样本均值 | 测试组均值 | 抽奖组均值 |
| ------------------- | ---------- | ---------- | ---------- |
| 社会比较倾向(INCOM) | 3.47 | 3.44 | 3.55 |
| 自我效能(GSE) | 3.87 | 3.82 | 3.89 |
| 利他主义 | 3.79 | 3.77 | 3.84 |
| 风险偏好(MPL) | 15.26 | 15.19 | 15.45 |
| 风险偏好(11点) | 5.51 | 5.43 | 5.69 |
| 模糊厌恶 | 12.24 | 12.47 | 11.70 |
解读: 各心理维度无统计显著性差异,说明非置信心理特质弱化选项影响。[page::22]
表9:投票校准准确率
| 子群 | 准确率 | 卡方检验结果 |
| ------------ | ------- | --------------------- |
| 测试投票者 | 64.1% | |
| 抽奖投票者 | 78.8% | $\chi^2 = 5.63, p=0.018$|
| 男性 | 70.4% | 无显著差异 |
| 女性 | 65.8% | |
| 学生 | 69.3% | 无显著差异 |
| 非学生 | 67.9% | |
| 高学历 | 73.1% | $\chi^2=4.37, p=0.037$|
| 非高学历 | 61.0% | |
解读: 投抽奖者校准更准确,教育程度提高校准水平。[page::24]
图3、4:投票动机自述分布
总体图3显示置信度为主导动机(33%),其次为规范信念(25%)、样题成绩信号(19%)、控制偏好(12%)。
分组对比图4中,测试投票者强调置信和控制,抽奖投票者注重规范和样题信号。非货币动机意义重大。[page::26][page::27]


图5:校准准确与否的投票动机对比
校准不准确组中规范性动机更显著(36%对19%),而准确组展示较多置信引用。显示非理性原因造成的表面错误评估。

---
4. 估值分析
本报告核心为行为学实验设计与理论验证,非直接投资估值研究,无DCF或PE估值模型等相关内容。故估值分析不适用。
---
5. 风险因素评估
- 方法论风险:
- 原实验奖励机制非完全可比引发行为偏离,部分行为非置信动机驱动。
- 实验替换测试题型,任务难度及认知负荷差异存在,影响对比解释。
- 在线模式与线下实验环境差异,人口学结构异质带来样本代表性问题。
- 对参与者理解及作弊风险的控制依赖于流程设计,如限时答题防作弊等。
- 理论风险:
- 投票行为受非理性社会规范、控制欲、风险回避等因素影响,可能掩盖真实置信度。
- 过度自信定义及测度存在争议,存在“表面过度自信”和“真实过度自信”的区分困难。
- 抽奖机制的不同结构导致信息不对称及期望不确定性。
- 缓解措施:
- 设计固定赢家人数抽奖以消除奖励机制差异性。
- 多维问卷控制及投票动机自述为分解复杂因子提供佐证。
- 补充理论框架及附录讨论方法论限制和理论视角。[page::3][page::8][page::31]
---
6. 批判性视角与细微差别
- 本报告谨慎避免将投票选择直接归因于置信度,深入探讨了社会共享规范、损失厌恶、控制偏好等心理动因。
- 样本选择(非学生群体)及在线实验环境与原实验差异,可能导致结果差异难以严格归因于理论假设。
- 替代测试任务虽合理,但任务难易程度未能完全与H&R对应。
- 报告自认对“过度自信”定义及测度采用较宽松解释,强调“表面错置”与“真实置信差”之分,避免简单结论化偏误。
- 自述投票理由分析虽丰富,但基于主观陈述,样本量有限,统计严谨性不足,结论需审慎。
- 未对性别、学生身份与行为偏差的深层心理机制展开,未来研究空间广阔。
---
7. 结论性综合
本研究对Hoelzl与Rustichini (2005)经典过度自信实验设计进行了成功的在线复现与思想性扩展。核心贡献有:
- 通过设计调整(固定赢家人数抽奖机制),减少原机制结构差异,检验其是否为下置现象产生的驱动因子。结果否证了两种抽奖设计对参与者投票选择的显著影响,复刻实验显示参与者普遍倾向表现基于奖金,表明过度放置而非下置。
- 参与者对自身表现的预期超过群体中位数,且表现预测与投票行为紧密相关,表明行为选择对自我评估有较好反映,有效挑战了此前规范中低置信的解释。
- 样题性能作为关键信号在投票决策中起核心作用,增加了行为理性层面对应关系,此前文献未充分考虑此因素。
- 社会比较倾向、自我效能、利他主义、风险及模糊态度等心理变量未展现对行为选择的显著影响。
- 自述投票动机显示控制偏好与规范性信念对选项影响突出,部分投票非纯粹基于经济收益最大化,反映复杂心理驱动。
- 校准分析显示近七成参与者在投票选择上能够合理反映自身真实表现,表明行为数据具有一定的可信度。
- 本文对过度自信测度方法及其解释框架提出重要修正,提出过度自信实验中应兼顾非置信度心理动机及奖励结构可比性,避免误判“真”偏差。
- 研究方法从实验设计、问卷控制到行为-动机交叉验证,体现了科学实验精神与严谨性,推进了行为金融领域对个体认知偏差理解的深化。
图表数据深度洞察:
- 投票选择数据(表1)明确显示参与者偏好表现机制,统计显著。
- 预测数据(表2-3)及实际表现数据(表4)共同描绘了个体对自身能力的普遍高估与行为选择的内在逻辑。
- 回归模型(一系列表5-7、16-17)体现了投票行为对自我表现预期、样题表现等实际信号的敏感度。
- 自述动机图(图3、4、5)及校准率表(表9)强调非侷限于置信度的复杂动机结构,强化理论解释力。
综上,本文不仅复现了Erik Hoelzl与Aldo Rustichini 的研究,更对其实验设计和理论解释框架进行了深入反思和创新性调整,为行为金融认知偏差研究提供了更为坚实且具备外部效度的实验证据和理论启示。[page::28-31][page::15-27][page::48]
---
总结:
本文通过在线大样本行为实验,复刻并挑战经典过度自信实验,发现与原实验不同的过度放置行为,强调了实验设计中机会机制可比性、非置信度动机的重要性,对过度自信的理论建构和实验测度提出了富有启发性的改进意见。这对行为金融尤其在自我认知偏误的精确测量和解释框架构建具有重要价值。
---
如需获取更详细的表格数据和图示,请告知。