There must be an error here! Experimental evidence on coding errors’ biases
创建于 更新于
摘要
本论文基于一项随机实验,验证了人们在编码出错导致意外结果时,检测错误的概率提高20%。这一发现表明编码错误不仅增加估计结果的离散性,还可能引入系统性偏差,进而影响科学研究的可靠性。研究强调了提升代码透明度和审查的重要性以减少研究偏误 [page::0][page::2][page::15][page::16].
速读内容
研究背景与动机 [page::0][page::1]
- 科学研究中误差和偏差的来源包括数据及代码缺失、选择性报告和编码错误。
- 编码错误常常被忽视,但存在较高的发生率,影响结果的可重复性和准确性。
实验设计与数据任务 [page::2][page::3][page::4][page::5]
- 实验嵌入世界银行发展经济学副行长部招募过程中,考核候选人编码能力。
- 数据任务涉及两个州的RCT数据,故意设计一个编码错误:未剔除值为99的缺失值。
- 随机分配候选人进入“处理组”或“控制组”,编码错误导致预期或非预期的结果。
- 候选人需要分别对两个州(Q3、Q4)进行回归分析,结果用于检测是否发现编码错误。
潜在群体类型及识别策略 [page::6]
- 四类潜在群体:始终发现错误(AS)、永不发现(NS)、只在非预期结果时发现(CI)、通过比较两题结果发现(CII)。
- 利用对比Q3中的处理组和控制组不同错误发现率,及Q3未发现但Q4发现的比例差异,估计CI比例。
样本描述及均衡性检验 [page::8][page::9]
| 变量 | 全样本均值 | 控制组均值 | 处理组均值 | 差异(p值) | 样本量 |
|--------------|----------|---------|---------|--------------|-------|
| 女性 | 38.6% | 36.4% | 41.0% | 4.6% (0.124) | 1050 |
| 硕士及以上 | 92.8% | 91.7% | 94.1% | 2.4% (0.132) | 1060 |
| 计量经济学课程 | 85.9% | 85.1% | 86.8% | 1.7% (0.429) | 1064 |
| 软件偏好 | Stata 51.4%, R 29.0%, Python 16.1% | 均衡 | | |1065 |
- 处理组与控制组在关键变量上无显著差异,显示良好随机分配。
主要实证结果 [page::11][page::12][page::13]
- 发现编码错误的基线概率约7.6%(合格样本),在非预期结果下提高约1.38个百分点(约18.2%提升),统计显著。
- 不同样本(包括全部样本及对先验过滤)结果稳健且方向一致。
- 表3和表4关键数据:
| 样本 | 编码错误检测提升 (pp) | 标准误 | 双侧p值 | 单侧p值 | 样本量 |
|----------|-----------------|-------|--------|--------|------|
| 合格样本 | 1.38 | 0.0072| 0.0498 | 0.0270 | 805 |
| 全样本 | 0.86 | 0.0057| 0.1285 | 0.0636 | 1065 |
| 有序先验 | 1.53 | 0.0081| 0.0534 | 0.0299 | 704 |
异质性分析 [page::14][page::15]
- 男女性别、是否正确聚类标准误、初始编码能力高低均衡影响检测概率。
- 技能较佳人群检错概率更高,且非预期结果提升更显著,表明技能不抵消偏差风险。
结论与政策启示 [page::15][page::16]
- 编码错误检出依赖结果是否出乎预期,存在选择性检错偏差。
- 研究者对符合预期或“利好”结果检错较少,易产生系统性偏误。
- 代码开放、预发表代码审查等制度可能促进更严格的校验,助力提高研究可靠性。
- 结果增强了透明度与审查政策的重要性,有助于减少误差导致的科学结果偏差。
关键图示说明
- 图1(images/74d12342cf71d3778069c0861872432adefcab83fefd4f28805e8b56da95bd59.jpg)展示不同潜在类型在两个实验组Q3、Q4上的错误检测模式。
深度阅读
金融研究报告详尽分析报告
报告元数据与概览
- 报告标题:There must be an error here! Experimental evidence on coding errors’ biases
- 作者:Bruno Ferman, Lucas Finamor
- 发布日期:2025年8月
- 发布机构:未明示,研究嵌入于世界银行发展经济学副总裁办公室(DEC)招聘过程
- 研究主题:编码错误对科研结果产生的偏差影响;实验设计验证研究人员是否更倾向于发现导致“意外”结果的编码错误
- 核心论点:编码错误在定量经济学研究中普遍存在,且研究人员发现编码错误的概率依赖于错误导致结果是否符合预期或“意外”。实验表明,当错误导致意外结果时,研究者更有可能发现该错误,概率提升约20%。这一选择性错误发现造成了研究结果的系统性偏差。
- 研究贡献:揭示了编程错误在科学研究再现性危机中的行为机制,为非标准误差(nonstandard errors)理论提供实证支持,强调了确认偏误(confirmation bias)在研究者检测错误过程中的作用。强烈建议加强科研代码的公开和审查制度以提高科研透明度和准确性。
逐节深度解读
1. 引言
- 观点总结:研究复现性危机愈加突出,经济学与其他领域的实验与实证研究皆受其困扰。成因包括数据与代码不可得、p值捣弄(p-hacking)、发表偏差、极高研究人员自由度和编码错误。其中编码错误影响深远,甚至造成重大出版错误案例(如Reinhart和Rogoff的债务与增长论文)。
- 推理:如果编码错误与结果无关,则仅造成结果估计方差膨胀(类似非标准误差),不会系统性偏倚。若错误检测概率依赖结果,且仅对非预期结果更敏感,则错误将导致系统性偏倚。
- 数据支持:Brodeur等(2024e)大规模复制研究指示,2022年后经济学及政治学顶级期刊约1/4研究中存在编码错误。
2. 实验设计
- 2.1 研究设置与样本:两波次(2024、2025年)共1065名应聘研究助理和研究型奖学金项目候选人参加世界银行招聘数据任务。完成任务的测试数据用于研究实验,无影响招聘筛选。
- 2.2 数据任务描述:任务涉及分析虚拟随机对照试验(RCT)数据,测试教育介入对语言能力的影响。设置“缺失值编码”为99这一陷阱,随机将候选人分配到“处理组”或“控制组”,错用99会导致不同方向的显著效应(处理组Q3为负、Q4为正,控制组则相反),符合或违背候选人的预期信念(主要为正向效果0.08-0.16标准差间)。任务分为4个问题:
- Q1-Q2:基础统计和OLS回归,考查初始编码能力,不用缺失值变量。
- Q3-Q4:分别针对两个州的数据,均设陷阱,若未正确处理99编码,结果会产生预期或意外显著效应。
- 2.3 识别策略:定义4类潜在类型参与者(总会发现错误、永远不发现、仅对意外结果发现、仅对矛盾结果发现),利用两题Q3和Q4的变式以推断“仅对意外结果发现”的比例。
- 2.4 公平性与伦理:双题设计确保事前分配公平且最终评估中未对任组产生优势。历史试点验证招录成绩无显著差异。
- 2.5 描述统计:样本均衡,女性占38.6%,硕士及以上92.8%,修过计量经济学课程85.9%。编码软件Stata占51.4%,R占29%,Python占16.1%。案例平均先验效应0.125 SD,初始编码题平均得分4.12/6。
3. 实证策略
- 利用两套问题Q3和Q4中错误输出的顺序随机性,构建回归模型估计接受负结果组检测错误的差异概率。引入性别、学历、计量经济背景、初始得分、测试波次及其交互项作为控制变量。
- 构造两种估计(分别用Q3和Q4检测结果),结合加权最小方差和GMM估计以提高效率并进行假设检验,使用单边和双边检验对推断稳健性检测。
4. 研究结果
- 4.1 主要发现:
- 控制组中约7.6%可识别Q3中错误,处理组提高约1个百分点(13%-20%的相对提升),虽然用Q3数据统计显著性较弱(双边检验p值约0.6),用Q4数据明显更精确,处理组提高1.43个百分点,达到统计显著(双边p约0.06,单边p约0.03)。
- 结合估计器后得到的提升约为1.38个百分点,统计显著边界内,意味着编码错误导致意外结果时更易被发现,符合假设。
- 全样本及筛选不同先验样本结果一致,先验效应与检测概率正相关,样本资格(如是否能成功运行OLS)对检测概率有重大影响。
- 4.2 异质性分析:
- 性别、是否集群标准误和初始编码能力等变量下,均无显著差异性。编码能力强的群体基线发现率更高但对意外结果的敏感度并不降低,反而存在略高的检测提升,整体证明影响普遍存在。
5. 讨论
- 编码错误的发现概率受研究者预期影响,非中性。意外结果促使更多调试,说明科研中的错误检测带有心理偏差。
- 这机制应当推广到“有利结果”情境:研究者可能因结果符合假设而减少检查,导致系统偏倚。
- 对安慰剂测试(期待无显著效应)尤其重要,如错误导致无效显著效果,研究者容易忽视错误,增加假阴性。
- 鼓励代码透明、预发布审查等制度可降低此类偏差,实现更严格的科研质量控制。
6. 结论
- 本文用实验验证了编码错误检测存在结果偏差,编码错误导致的“意外”结果检测概率提高约20%。
- 该发现揭示编码错误不仅增大估计结果方差,更可能引入系统性偏差,影响科学研究的可靠性。
- 结果强化了科研代码公开和审查对于提升科学透明度和准确性的政策必要性。
重要图表深度剖析
表1:实验设计及平均估计效应
- 说明:展示处理组和控制组在包含或除去缺失值(代码为99)时,Q3和Q4中错误编码导致的平均估计效应。
- 解读:
- 含99时,处理组Q3表现为显著负值(-0.1602,p<0.01),Q4为显著正值(0.1488,p<0.01);控制组则相反。
- 除去99时,效应转为接近零,不显著。
- 表明错误编码导致结果方向“意外”或“预期”交错,完美匹配实验设计随机分配。
- 结论:为后续检测错误概率的偏差提供了清晰操作化的“预期”与“非预期”结果状态支持。
图1:潜在类型鉴别结构图

- 说明:四类潜在参与类型(总是发现、永不发现、仅对意外结果发现、仅对矛盾结果发现)基于Q3、Q4的识别情况在处理组和控制组的分布。
- 解读:
- 该图帮助定义研究是否对“仅对意外结果发现”者做出估计,方法一使用Q3数据差异法,方法二用Q4中“仅发现第二次错误”的差异计算。
- 联系文本:清晰统计框架支撑估计部分,确保推断的有效性和可辨识性。
表2:样本描述与均衡检验
- 说明:样本人口学与技能特征数据,含总体及分组均值、差异和统计显著性。
- 解读:
- 男女比例、学历、已修计量课程比例、计算语言使用均衡无显著差异,说明随机分组有效。
- 先验信念均值约0.125 SD,符合拟合的正向预期效应范围。
- 初始编码测试得分4.12/6,相对适中。
- 结论:确保组间比较的可比性,减少混淆。
表3:主要估计结果
- 说明:报告不同估计器(基于Q3、Q4和它们组合)、不同控制变量条件下的回归系数估计与显著性水平。
- 解读:
- Q3作为因变量的估计效果小而不显著,Q4因变量效果更大,达到边缘显著,联合估计增强了检验力量,效果稳定约1.4个百分点提升。
- 控制变量逐步加入后结果稳定,提示效果由实验处理(结果方向变化)诱发。
- 联系文本:实证支持主假设,说明研究者对“意外编码错误生成结果”的调试概率显著高于对“预期结果”的。
表4:不同样本子集估计
- 说明:展示全样本、合格样本、先验非负子样本和符合先验值区间子样本估计的比较。
- 解读:
- 筛选更严格(熟练使用OLS、有合理先验)样本,发现概率提升更为明显。
- 说明编码能力和先验效应对代码错误发现行为有调节作用。
表5:异质性分析
- 说明:分别按性别、是否应用聚类标准误和编码能力水平分组的估计效果及显著性。
- 解读:
- 所有亚组均显示正向效果,熟练群体效果略强但无显著差异。
- 表明编码偏差行为广泛存在,不受简单人口学因素影响。
附录图A.1:先验效果分布直方图

- 显示超过86%任务参与者的先验效应集中于0.08-0.16 SD,符合实验设计中期望的效果范围,强化实验现实依托和受试者预期合理性。
附录图A.2:潜在类型扩展分类

- 进一步细分“仅对矛盾结果发现”类型,考察其多样性及识别偏差风险。
- 提示核心估计方法对亚类别划分鲁棒,数据支持结论稳定。
估值分析
本报告为实验设计的社会科学研究论文,无传统企业估值内容,无现金流贴现或倍数估值应用。估计方法体现在因果推断模型设计和统计显著性验证,评估方式为多模型回归和GMM估计。
风险因素评估
- 研究依赖被试在招聘情境中的真实行为参与,若行为受外部压力或在线实验环境影响偏离真实情况,可能影响外部有效性。
- 识别依赖于对编码错误的特定表现(missing=99),这一设计的普遍性待考量。
- 部分统计结果在边缘显著水平,需慎重解读,未来研究需扩大样本和多样化错误情境验证。
- 伦理风险已充分考虑,公平性审查和招聘无偏差保障,结果可靠。
批判性视角与细微差别
- 结果表明检测错误概率的差异约1个百分点,虽比例提升显著,但绝对检测率较低(整体不到10%)。研究未知如何延伸至更复杂或隐性错误。
- 该实验仅测试一个简单且特定错误类型,是否能推广至其他类型编码错误尚未验证。
- 实验主线高度依赖先验假设中预期结果为正向,负向或中性预期情景的适用性不明。
- 采用自愿分享数据的样本,可能存在选择偏差。
- 对Q3和Q4答案的最终修正权给予被试,可能导致实验内部矛盾,但作者通过设计合理规避。
结论性综合
本文通过在经济学研究人员招聘过程中的编码任务实验,发现研究人员对导致“意外”结果的编码错误检测概率比“预期”结果编码错误提高约20%。这意味着编码错误非随机分布,其检测存在系统性偏差,可能导致科学研究中隐含的偏倚,进而损害研究结论的可靠性。
实验设计周密,结合两套关键问题,以及严格的控制变量和多重估计方法,确保结论稳健。样本涵盖多样人群,且在性别、教育背景与技能上均衡,消减混杂偏差。行为经济学中确认偏误的理论支撑为这一定向错误发现提供心理机制依据。
重要的图表和附录详细展示了设计细节与样本特征,数据任务与实验操控紧密结合,有力论证了错误识别的“预期依赖性”。虽然发现检测比例整体偏低,但结果发布为定量研究代码管理和复现性提升提供重要定量证据,建议学界加强代码公开、预审查,提升科研质量。
综上,报告清晰阐明编码错误在科研过程中的深刻影响及行为驱动机制,对改善科研透明度和提升科研成果有效性具有重要意义,值得同行重视。
---
引用:[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,23,27,28]