`

Note on Selection Bias in Observational Estimates of Algorithmic Progress

创建于 更新于

摘要

本报告针对Ho et al. [2024]关于语言模型算法进步的估计方法,指出由于计算资源选择内生于算法质量可能存在选择偏差,导致算法进步率被高估。通过理论推导及蒙特卡洛模拟验证,发现正相关时算法进步被低估,负相关时被高估,实际估计值可能偏离真实值近九倍。报告建议采用实验法或工具变量解决内生性问题[page::0][page::1][page::2][page::3][page::4][page::5]。

速读内容


估计框架与Ho et al.模型假设 [page::0][page::1]

  • Ho et al. [2024]通过语言模型的损失函数与参数量、训练数据点的关系,假设算法效率随时间指数增长。

- 该模型假设算法效率仅随时间变化,忽略不同实验室间的异质性。

选择偏差的提出与形式分析 [page::1][page::2]

  • 引入随机异质性项表示算法效率,指出计算资源(数据量)选择与算法质量相关,导致估计偏差。

- 证明选择偏差符号与计算资源与算法效率误差项的协方差符号相反。
  • 提出实际研究中β参数(数据规模回报率)估计可能受负偏差影响,Ho等估计的算法进步率被夸大约9倍。


蒙特卡洛模拟验证理论偏差结论 [page::3]


  • 模拟结果显示,计算资源和算法效率误差相关性正时,算法进步率被低估;负相关时被高估。

- 偏差幅度显著,例如相关系数为0.5时,45%真实进步降至16.5%估计,相关-0.5时升至93%。

研究结论与建议 [page::4]

  • 内生性问题广泛存在于基于观测数据的算法进步估计中。

- 建议通过实验设计随机分配计算资源或使用合适工具变量解决选择偏差。

深度阅读

金融研究报告详尽分析报告


---

1. 元数据与概览 (引言与报告概览)



报告标题:Note on Selection Bias in Observational Estimates of Algorithmic Progress
作者:Parker Whitfill
发布时间:2025年8月
主题:该报告批判性地分析了Ho等人(2024)关于语言模型算法进展的观察性估计方法,重点指出其估计可能存在的选择偏差问题。其核心关注的是算法效率随时间提升的估计是否因数据选择偏差而被系统性高估或低估。

报告的主要信息在于揭示现有文献中用来衡量“算法进步率”的时间趋势估计,可能因实验设计中“计算资源选择”与“算法质量潜变量”(未直接测量)间的内生关系而导致偏误,进而影响对算法进步速度的准确判断。报告中并不存在具体的评级或目标价,属于方法论批判性质的研究评论。作者最终建议采用实验设计或工具变量等方法来减少此类选择偏差的影响。[page::0,1,4]

---

2. 逐节深度解读 (逐章精读与剖析)



2.1 引言部分


  • 关键论点

Ho等(2024)通过对语言模型的损失函数及计算量的观察数据,估计算法效率逐年提升,即相同计算条件下的损失下降。Whitfill指出,这种估计没有考虑算法质量潜在的非观测异质性,并且实验中选择计算规模是受算法质量影响的,二者存在内生性导致了选择偏差。
  • 逻辑与假设

如果实验选择的计算规模因隐藏算法质量异质性而产生相关性,简单的时间指数增长假设将失真,导致算法进展的估计存在偏差。[page::0]

2.2 Ho等方法与数据生成过程分析(1.1 和 1.2节)


  • 关键数据与公式阐释

Ho等的基本模型是损失函数$L$关于参数数量$N$和训练数据点数$D$的缩放律:
$$
L=E + \frac{A}{(N qN)^\alpha} + \frac{B}{(D qD)^\beta}
$$
其中$qN$与$qD$是时间指数增长的算法效率因子。
Whitfill批判这一定义没有考虑在同一历年内不同实验室算法效率的异质性,于是模型中引入噪声项$\epsilonN, \epsilonD$,使效率成为随机变量:
$$
qN(Y) = e^{\alpha'(Y - Y0) + \epsilonN}, \quad qD(Y) = e^{\beta'(Y - Y0) + \epsilonD}.
$$
这更切合现实中不同实验室算法水平不同的事实。
  • 理论推理

计算资源$N, D$选择受到算法性能的影响,$\epsilonN, \epsilonD$和$N, D$可能正相关或负相关,导致估计中的选择偏差,例如数据点数$D$和$\epsilonD$的正相关使得对数据量的边际效果$\beta$被高估,反之则被低估。[page::0,1]

2.3 选择偏差的正式分析(1.3节)


  • 简化模型

通过假定参数量$N \to \infty$,剔除不可约损失$E$,解析数据大小$D$对损失的影响:
$$
L = \frac{B}{(e^{\epsilon
D} D)^\beta} e^{-\beta{\mathrm{year}} (Y - Y0)}.
$$
取对数后转化为线性模型:
$$
\ln L = \ln B - \beta \ln D - \beta{\mathrm{year}} (Y-Y0) - \beta \epsilonD.
$$
  • 选择偏差机制

由于$\epsilon
D$不可观测且或与$\ln D$相关,使$\ln D$变量存在遗漏变量偏差,导致估计$\hat{\beta}, \hat{\beta}{year}$产生偏误。
  • 数学定理(Theorem 1)

主要结论为估计量偏差的符号与$\mathrm{Cov}(\ln D, \epsilon
D)$的符号相反,即
- $\mathrm{Cov}(\ln D, \epsilonD) >0$时,算法进步被低估;
- $\mathrm{Cov}(\ln D, \epsilon
D) <0$时,算法进步被高估。
  • 正负相关的可能来源

正相关:算法优越的机构往往也大规模使用数据;
负相关:算法更先进则依赖较少数据即可取得优秀表现。
  • 经验依据

Hoffmann等(2022)及Besiroglu等(2024)通过实验控制估计的$\beta \approx 0.37$,而Ho等(2024)观察数据估计的$\beta \approx 0.04$,可能表明观察性估计中存在负向偏差,导致算法进步率高估约9倍。[page::1,2]

2.4 蒙特卡洛模拟验证(第2节)


  • 目的

通过实际年份和数据规模,基于假设的分布模拟$\epsilonD$与$\ln D$的不同相关性,观测参数估计偏误。
  • 模拟设置

取$\beta=0.37$(Besiroglu等)$\beta' = 0.45$,噪声方差设置为$\beta'(Y
i - Y0)$均值的一半,改变$\mathrm{Corr}(\ln D, \epsilonD)$在[-1,1]间。
  • 结果解读

模拟验证理论预期:正相关导致估计$\beta$偏低,算法效率进步被低估,而负相关则相反,偏高估计;当相关系数为0.5时,把45%的真实增速低估至约16.5%;负相关时45%被高估至93%。
  • 经济学意义

选择偏差对于算法效率增长率的估计影响巨大,且估计数字对噪声假设有显著敏感度,结果应谨慎解读。
  • 图表解析

图1左侧图显示随相关性增加,估计$\beta$由约0.2升至0.55,虚线显示真实0.37水平。右侧图展示估计的年度算法效率进步率随相关性从负到正变化,低相关对应高估,正相关对应估计值远低于真实值。

图表具体验证了理论与实际估计偏差间的映射关系,强化了文章主要论点。[page::3]

2.5 结论与应用(第2.1节)


  • 总结

虽然论文聚焦Ho等(2024)的方法,生成的关键结论具有广泛意义:算法质量与计算资源选择间的内生性是所有基于观测数据推断算法进步的研究都必须面对的问题。
  • 方法建议

采用随机实验设计,随机分配计算资源或算法版本;或在观测数据中引入合理工具变量,以减轻选择偏差影响。
[page::4]

2.6 附录:定理证明(第3节)


  • 数学结构

证明依赖经典计量经济学中的遗漏变量偏差分析框架,通过协方差计算与线性系统解,推导估计参数极限概率并表达偏误。
  • 核心推导

通过一阶矩条件,联立估计与数据生成过程的协方差等式,最终得到:
$$
\mathrm{sign}(\mathrm{bias}(\hat{\beta}{year}/\hat{\beta})) = - \mathrm{sign}(\mathrm{Cov}(\ln D, \epsilonD))
$$
这为选择偏差的符号提供了理论保障。
[page::4,5]

---

3. 估值分析



该报告为方法论批评论文,未涉及传统财务估值模型(如DCF、市盈率等),因此此部分无内容。

---

4. 风险因素评估


  • 模型核心风险

由于真实算法质量和数据使用量之间存在潜在的内生性,若未能加以调整,推断出的算法进步速度估计会偏离实际,风险较高。
  • 可能的偏差方向与力度

正相关时容易低估算法进步,导致技术实力被低估,负相关时则相反,可能引发过度乐观。
  • 缓解策略

- 使用随机试验设计,剔除选择偏差;
- 使用工具变量方法,通过外生性变量变异区分因果效应。
  • 缺乏风险概率定量评估

报告中未量化风险触发的概率,聚焦于理论和模拟说明的逻辑合理性。

---

5. 批判性视角与细微差别


  • 潜在偏见呈现

作者明显倾向于批判Ho等的估计方法,对内生性问题强调突出,主张现有方法难以得出准确估计,这种立场是基于理论推导与模拟,倾向于谨慎看待算法进步估计的真实性。
  • 不确定性体现在偏误方向折中

报告指出$\mathrm{Cov}(\ln D, \epsilonD)$的符号难判定,两个极端情景均有合理解释,显示作者对结论保持一定开放态度。
  • 报告细节完备,逻辑严密

通过数学定理、模拟验证及实例对比三重论证,增强了论点的说服力。
  • 有限性

- 定理依赖于简化假设(将模型参数$N$视为无穷大),现实中该假设可能未完全成立;
- 模拟结果对$\epsilon
D$分布及其参数设定敏感,提示实际应用中需谨慎。

整体而言,报告适度克制,没有过度断言,保持学术探索的态度。[page::1,2,3,4]

---

6. 结论性综合



该报告细致批判了当前算法推理进展估计中普遍存在的选择偏差问题。通过数学定理证明与蒙特卡洛模拟,作者明确:
  • 传统Ho等(2024)的方法由于未能考虑算法质量的潜在异质性和与计算资源的内生选择,估计出的算法效率进步率存在系统偏差。这种偏差的符号完全取决于计算资源使用量与算法质量潜变量之间的相关性,且该相关性在现实中正负均有合理成立的情形。
  • 具体而言,实际实验中估计的数据规模的边际收益参数$\beta$,实验证据显著大于观察估计,暗示Ho等法中可能低估了数据利用的边际收益,反向推断算法进步率被高估,可能高达约9倍。
  • 蒙特卡洛模拟清楚地展示了不同相关程度下算法进步率估计值的显著偏差,表明选择偏差非同小可。
  • 报告强调,为了获得无偏的算法进步估计,研究者应采用实验设计、随机化计算资源分配,或发掘合理工具变量以克服内生性问题。
  • 该研究的成果不仅针对Ho等(2024)单一文献,更对整个领域基于观测估计算法进步的研究方法构成警示。


图表1作为关键证据,直观显现选择偏差对于参数估计量的影响趋势及幅度,为本论文的理论主张提供了坚实实证支撑。

综上,作者对基于观测方法测算语言模型算法进步的研究结果的可靠性提出了重要质疑,促使领域内相关研究应更加谨慎考量内生性选择偏差,实现更精准衡量算法进展的目标。[page::0,1,2,3,4]

---

总结



本文由Parker Whitfill撰写,针对Ho等(2024)关于语言模型算法效率随时间进步研究提出了关键的选择偏差质疑。通过引入跨实验室算法异质性因素,系统分析了计算规模选择的内生性对估计算法进步速度的影响,提出了严密的数学定理并以蒙特卡洛模拟加以证实,警示当前基于观测数据的算法效率进步估计可能严重偏误。最终,作者建议采用实验设计或工具变量方法进行纠偏。该研究既有理论深度又具实证意义,对AI算法效率测度领域有重要启示,特别强调科学研究中谨慎对待内生选择偏差的必要性。

报告