`

Hungry Professors? Decision Biases Are Less Widespread than Previously Thought

创建于 更新于

摘要

本报告利用瑞士洛桑大学法学院超过1.4万份口试成绩的自然实验数据,研究考试评分是否受考试顺序和时间安排的影响。结果显示,去除学生、教授、课程及日期固定效应后,考试顺序与评分之间不存在显著负相关,反驳了决策疲劳和“饥饿效应”的广泛适用性假设。此外,未发现文献中报道的负自相关现象,而是呈现微弱正自相关,提示决策偏差可能不像先前研究所示的普遍存在,强调基于具体场景的数据驱动验证政策建议必要性 [page::0][page::1][page::2][page::3][page::4][page::5]

速读内容

  • 研究背景及问题[page::0][page::1]:

- 过去多项研究报道司法判决、贷款审批、体育裁判等连续决策存在因顺序或时间安排导致的偏差,主要机制包括心理疲劳和小数法则引起的负自相关。
- 原始案例为以色列法官释囚判决显示休息前决策显著严苛,被广泛引用,但存在调度非随机、交叉影响难排除等方法学问题。
  • 数据与方法[page::1][page::2][page::5]:

- 数据来源于瑞士洛桑大学法学院2018-2021年14,658次口试记录,考试顺序随机分配。
- 利用多重固定效应模型控制学生、教授、考试科目、考试日期,排除潜在混淆变量影响。
- 额外纳入教授与学生性别配对、线上考试标识、是否午休等控制变量,保障结果稳健性。
  • 主要发现及统计结果[page::2][page::3]:

- 图1(a)初步观察显示顺序越后评分略有下降,0.0048分/单位的负相关在无控制下近显著(p=0.058)。
- 分专业细分后(图1b)发现低年级本科评分较低且更集中于末尾顺序,消除混杂偏差。
- 加入各类固定效应后(表1列2-6),评分与顺序无显著关系,时间段虚拟变量亦无系统影响。
  • 餐后休息与评分关系[page::3]:

- 与以色列法官研究截然不同,评分在休息前无下降趋势,且休息后变化不符合“饥饿”消除假设。
- 表2数据显示,休息后评分趋势有微弱下降,与传统理论相悖。
  • 自相关效应分析[page::3][page::4]:

- 以往报道的负自相关现象未见于本样本,反而发现微弱正自相关,前3个学生平均分高则当前评分也偏高。
- 自相关强度随固定效应加入而减弱,显著性降低,表明自相关效应有限。
  • 稳健性检验[page::5]:

- 包含教授-学生性别配对、线上考试、是否首末场考试、无午休变量,结果基本无变化。
- 综上,决策疲劳与依法休息带来的评分偏差在此场景下未得到支持。
  • 结论[page::4]:

- 本研究通过严格设计与大数据验证,发现先前决策疲劳及顺序偏差效应并非普遍存在。
- 提示政策建议应谨慎依据单一环境的显著结果,需多场景、多方法交叉验证。

深度阅读

金融研究报告详尽分析



---

1. 元数据与概览


  • 标题: Hungry Professors? Decision Biases Are Less Widespread than Previously Thought

- 作者: Katja Bergonzoli, Laurent Bieri, Dominic Rohner, Christian Zehnder
  • 发布机构: University of Lausanne 与 CEPR

- 发布日期: 2024年8月13日
  • 研究主题: 决策偏差在口试评分中的表现,特别关注决策顺序(排位)与评分之间的关系,检验以往司法判决中“饥饿法官效应”等决策疲劳假说在学术评分中的适用性。


核心论点总结:

本报告利用瑞士洛桑大学法学院约14,000条口试评分数据的自然实验,探讨决策顺序是否影响评分。研究发现,与先前司法判决领域广为人知的“决策疲劳”和“饥饿法官”现象不同,在本研究上下文中,决策顺序对评分无显著影响。作者强调,先前研究并非普适,提醒政策制定者谨慎推广基于决策疲劳的普遍偏差假说。

---

2. 逐节深度解读



2.1 引言与研究背景


  • 关键论点:

许多领域存在大量顺序决策的场景(司法、贷款、面试等),已有大量文献报告了决策序列中因时间安排导致的严重偏差,比如判决倾向受食物休息影响,显示“饥饿法官效应”。另一种常见发现是决策中出现负向自相关(有利决策后紧跟不利决策),被解释为“赌徒谬误”。
  • 逻辑与假设:

这些结果基于心理学、生理学假设(血糖降低导致的认知疲劳)和统计学偏误(小样本法则),并假设这些机制具有普适效力。
  • 背景质疑:

作者指出,以色列司法判例分配不随机、案件难易程度前后有差异,有可能导致观察到的趋势并非因疲劳,而是排序偏差或案件本身特征差异导致。此外,时间段内参与者表现波动和听审律师质量变化同样可能是混杂因素。

2.2 研究对象与数据说明


  • 数据来源与样本说明:

洛桑大学法学院2018至2021年间所有口试评分数据,涵盖本科和硕士阶段,总样本量14,658次评分。剔除了多人同时考试和多教授评分的情形。评分尺度为1(最低)至6(最高),0分代表无故缺考,被剔除。
  • 关键变量说明:

- 运行顺序(Order):日内具体考试位置,不计休息。
- 程序类别(Program):本科1-3年级、硕士。
- 评分(Grade):教授给出的具体分数。
- 多种控制变量包括考试科目、教授ID、学生ID、考试日期等。
  • 方法论优势:

考试顺序由学务管理随机安排,且样本量大、多教授多学生交叉使得固定效应模型能够剔除教授打分风格、学生整体水平和考试科目特性的影响。

2.3 描述性分析与初步发现


  • 描述性图 (图1):

- Panel A显示整体平均分随考试顺序略有下降趋势,尤其是第22名以后,最低至约4.5分,最高接近4.9分。
- Panel B按项目分解,硕士生评分明显高于本科生,且各级别内部评分与顺序无规律负相关。
- Panel C显示高顺序偏向本科考试,尤其硕士占比减少。
- Panel D对休息前后分数趋势进行了分段展示,显示休息前评分随顺序微幅上扬,休息后略有下降,整体趋势与饥饿假说不符。
  • 初步推断:

Panel A看到的下降趋势实为“组别构成偏差”的结果,混合了不同学习阶段的学生评分差异。[page::2] [page::3]

2.4 量化回归分析


  • 回归框架:

采用固定效应多元线性回归,包含学生、教授、考试类别及考试日期固定效应,并聚类教授层级的标准误,确保结果稳健。
  • 主要结果(表1):

- 不加控制时,顺序与评分呈弱负相关(每增加一名顺序,评分下降0.0048,p=0.058)。
- 加入程序分类后,负相关消失。
- 纳入教授、学生等固定效应后结果依旧无显著性。
- 不同时段虚拟变量检验支持无明显时间段效应。
- 休息前后顺序效应呈正负相反趋势(表2),与饥饿假说中休息重新“充电”评分上升的预期不符。
  • 自相关性测试(表3):

评分与前3次考试评分存在正相关,且随着控制变量增加正相关程度减轻,但无负自相关发现,即未发现“赌徒谬误”式的负自相关偏差。
  • 稳健性检验(附录表A2):

新增教授、学生性别组合、是否线上考试等控制变量后,结论不变。

2.5 讨论与结论


  • 核心结论:

决策顺序对口试评分无显著影响,决策疲劳和饥饿状态等因素并未在本环境中造成系统偏差。作者警示先前大量引用决策疲劳的研究可能因样本选择及方法不严谨而存在过度泛化风险。
  • 政策启示:

呼吁谨慎基于已有文献制定相关人力资源和司法管理政策,本研究表明随机安排与充分控制混杂因素能消除所谓的“饥饿效应”。

---

3. 图表深度解读



图1:描述性数据解读


  • Panel A(平均分与顺序):

展现整体评分随顺序微降趋势,但后续分析证实此为群体构成假象。该图形表明若不细分不同学习阶段,容易误解为决策疲劳效应存在。
  • Panel B(学习阶段分层):

评分随顺序变化趋于平稳。硕士群体的平均分明显高于各年级本科生,尤其是第一年本科生平均分最低且波动较大。
  • Panel C(考试人数分布):

高顺序位置以本科生占比更大,特别是硕士生集中在低顺序部分,反映了评分随着组成的结构性差异。
  • Panel D(断点休息前后分数走势):

休息前分数趋势微上升,休息后轻微下降,反转与“饥饿法官”判例截然相反,支持结论中否认了传统的决策疲劳模型。

表格1(顺序与评分关系回归)


  • 模型(1) 基础OLS回归显示顺序变量负系数边缘显著,但无控制变量,解释能力低。

- 模型(2)-(3) 加入程序及多重固定效应,顺序变量系数趋近零且不显著,R²明显提升显示模型解释力增强。
  • 各时间段虚拟变量未展现系统差异。


表格2(休息与顺序交互效应)


  • 交互项“休息后 × 顺序”为负且显著,表明休息后顺序越后评分越低,违背饥饿假说预期。


表格3(评分自相关)


  • 连续考试评分普遍呈现正自相关,系数随模型加控递减,表明学生或教授整体评分风格更可能驱动成绩连续性,而非负向“赌徒谬误”效应。


表格A1(样本描述统计)


  • 样本均值评分4.8,标准差0.93,范围1到6。

- 顺序均值9.1,最大32,分布充分,支持多样化检验。

表格A2(附加控制稳健检验)


  • 包含更多协变量后顺序变量仍不显著,显示研究设计的强稳健性,结论可信。


---

4. 估值分析



本报告无明确企业价值估值或财务预测部分,因此无相关估值分析。

---

5. 风险因素评估



尽管并非财务报告,文中隐含的风险包括:
  • 排序非随机风险: 先前研究排序非随机可能导致偏差,本研究通过自然实验设计有效排除了该隐患。

- 多因素混杂风险: 教师评分标准和学生能力差异可能混淆效果,固定效应模型控制该风险。
  • 样本代表性风险: 本研究数据仅限于法学院口试,推广至其它决策场景需谨慎。


---

6. 批判性视角与细微差别


  • 报告较为客观谨慎,清晰质疑先前文献未严格控制排序随机性和混杂因素的不足。

- 本文承认仍无法排除全部可能的微妙机制影响,比如评分标准的细微变化或非观察到的外部因素。
  • 有一点需要注意的是,结论主要适用于学术评分场景,无法据此断言司法、金融等决策中决策疲劳均不成立。


---

7. 结论性综合



本研究针对法学院口试评分的14,658个观察利用随机考试顺序作为自然实验,全面检验是否存在因决策疲劳导致的时间序列评分偏差。分析结果显示:
  • 初步宏观描述数据呈现考试顺序越后评分越低的假象,实为不同学习阶段学生分布不均导致的“构成效应”。

- 通过引入学生、教授、考试和日期固定效应,多重稳健回归分析未发现显著的顺序效应。
  • 休息时间点的评分变化不符合饥饿-恢复假说,休息前后评分趋势无显著正向“充电”效果。

- 评分存在轻微正自相关,与赌徒谬误提出的负自相关截然相反。
  • 附加变量(性别配对、线上考试等)控制后结果依旧稳健。


图表和表格清晰展示了数据结构、评分趋势和回归关系,支持了结论的可信度,即“决策疲劳”与“饥饿法官效应”并非普适现象,必须结合具体研究设计和数据质量谨慎推广。该报告为关于决策偏差理论应用提供了重要的现实检验,也提示政策制定应更多关注方法论的严谨性和外推的合理性。[page::0, page::1, page::2, page::3, page::4, page::5]

---

总结



本报告针对决策疲劳和顺序偏差的经典理论在学术评分环境中的适用性做出创新验证,揭示了该现象并非像先前文献所宣称的那般普遍。严密设计与大样本支撑了研究结论的鲁棒性,对行为金融、决策研究及相关政策制定领域均有启示意义。

报告