`

Counting Clinical Trials: New Evidence on Pharmaceutical Sector Productivity

创建于 更新于

摘要

本报告基于大规模生成式人工智能模型开发了一种高精度文本分类方法,对2010年以来的临床试验发表数量、质量、组成进行了重新统计。我们发现自2010年以来,临床试验的数量和质量保持稳定,且先前报告的临床试验数量显著增加系分类方法失准所致。此外,公共经费支持比例和高质量引用的临床试验比例亦稳定,表明制药行业生产率自2010年以来未见明显下降。相比之下,其它医疗研究论文数量显著增加,主要由文献综述和来自中国等新兴科研国的科学家贡献,但这部分研究的平均质量有下降趋势。该结果指出制药行业生产率未见实质性恶化,且生成式AI在科学数据构建中展现出强大应用潜力 [page::0][page::2][page::12][page::19][page::21][page::22][page::23][page::24][page::25][page::27][page::29][page::34][page::35].

速读内容

  • 研报背景与研究动机 [page::1][page::6]

- 传统文献认为制药行业生产率自20世纪50年代以来持续下降,投入与产出严重背离。
- 政策讨论和监管改革多基于生产率下降的假设。
- 真实测量生产率面临研发投入、临床试验数据分类不准确等挑战。
  • 量化方法创新:基于大语言模型的模型蒸馏实现高质量文本分类 [page::2][page::14][page::16][page::17][page::18][page::19]

- 使用OpenAI GPT-3.5与GPT-4提取弱标签,后用开源模型(BIGBIRD、BIOMEDBERT)微调以生成精确分类模型。
- 设计并迭代多版本Prompt优化分类效果,最终ensemble模型准确率达高标准,假阳性与假阴性均低于5%。
- 相较传统关键词、NLM标签等方法,我们的方法识别临床试验更为精准。



  • 临床试验数量和质量趋势分析 [page::21][page::22][page::23][page::24][page::25]

- 使用保守阈值模型界定的样本显示,自2010年以来临床试验发表数量基本稳定,公共资金比例和高水平期刊引用率亦无显著变化。



- 临床试验样本有约70%未被顶级医疗期刊引证,质量存在显著异质性但分布稳定。
- 结合Sertkaya et al. (2024)数据,临床试验成本及药物开发成本2000-2018年间基本持平。
  • 其它形式医疗研究数量激增并伴随质量下降 [page::21][page::27][page::28][page::29][page::31][page::32]

- 非临床试验的研究文献数量自2010年以来约增长一倍,主要包括综述与荟萃分析,特别是由中国等国家的科学家贡献较多。
- 手工和关键词标注表明医学综述文献增长30%-100%。

- 文章引证分布显示高度集中度下降,低引用率文章份额扩大,研究质量整体下降趋势明显。

- 资助率略有下降,青年作者发表后的持续产出显著减少,显示科研人员流动性放缓。
  • 地理分布与政策背景 [page::29][page::30][page::31]

- 临床试验发表量地理分布稳定,美国仍占主要份额(~30%)。
- 非临床试验研究发表明显增加,尤以中国、波兰等国为代表。

- 美国临床试验多涉及本土受试者,部分因FDA审批偏好,海外试验难获批准。
  • 数据来源与传统测量误区 [page::8][page::9][page::10][page::12]

- FDA临床试验数据库ClinicalTrials.gov存在非合规注册、报告滞后及登记内容混杂问题,对试验计数产生偏差。
- PubMed多种标签和关键词检索方法收敛性差,易产生过度估计和虚假趋势。
- 本研究采用多步校准和细致手工标注,纠正了此前工作中的测量误差。

  • 研究意义与政策启示 [page::33][page::34][page::35][page::36]

- 反驳制药行业生产率持续下降的普遍看法,强调临床试验生产趋于稳定。
- 生成式AI技术为科学计量领域带来高质量数据构建工具,推动未来量化研究的范式转变。
- 呼吁聚焦临床试验生产效率提升和学术发表激励机制改革,促进医药创新产出质量提升。

深度阅读

金融研究报告详尽分析报告



---

1. 元数据与概览


  • 报告标题:《Counting Clinical Trials: New Evidence on Pharmaceutical Sector Productivity》

- 作者:Maya M. Durvasula、Sabri Eyuboglu、David M. Ritzwoller
  • 发布日期:未明确标注具体日期,但从文中数据统计截止至2022-2024年,推测为2024年前后发表

- 发布机构:未明确指出,但作者均为学术界研究者,报告充满实验方法论与实证分析,属于经济学与医疗创新交叉领域的研究报告。
  • 主题:本报告核心聚焦于医药行业生产力衰退问题,具体利用最新的文本机器学习方法重新“计数”临床试验数量,纠正既有文献关于医药生产力下降的观点。


核心论点与信息



报告针对过去几十年医药行业“生产力持续下降”的论断提出挑战。传统观点认为,临床试验数量或医药研发投入正显著增加,但创新药物批准数量却未改善,导致生产力下降。然而,作者使用先进的语言模型精细标注学术出版物,发现:
  • 自2010年以来,临床试验的数量、质量与组成均保持稳定;

- 以往的生产力下降论断,主要是由于对临床试验数量错误的测量和分类所致;
  • 研究运用了从大型专有语言模型(GPT-3.5、GPT-4)蒸馏知识给开源模型的创新方法,提升了对非结构化文本的分类精准度;

- 其他形式的医学研究(尤其是“引用临床试验”的论文)数量显著增加,但其中包含大量质量下降的文献(如代谢分析等综述性文献),引起整体发表量的膨胀,而非临床试验本身的增长。

评估视角拓宽至科学计量学领域,结合大量文献与最新算法,报告指出医药行业临床试验生产力并无明显下降迹象,纠正了以往依赖低质数据的误导。

---

2. 逐节深度解读



2.1 引言与背景(页1-7)


  • 医药行业生产力下降已争论约30年,常见统计如Scannell等(2012)竟指出生产力每十年减半;

- 政策层面对这一认知反应强烈,包括改革资助方式、放松FDA审批标准及限制医药价格谈判等;
  • 该生产力下降假说高度依赖投入与产出指标:投入(R&D费用及临床试验数量)快速增长,产出(创新药批准数)几乎未变;

- 然而,这类结论基于传统统计数据,存在诸多缺陷,如数据的覆盖性、准确性、分类偏差等问题。

本章通过回顾文献和政策影响,提出这是一个“事实”上的假说,但其数据支撑脆弱。

2.2 数据构建方法与缺陷剖析(页8-11)


  • 详细说明现有临床试验数据源的缺陷:

- 注册数据库如ClinicalTrials.gov存在严重不合规、滞后回填数据、非临床试验的条目误报等问题;
- 注重基于出版物的临床试验指标,使用PubMed数据库(近3400万条记录,完整覆盖医学发表),但分类困难;
- 现有分类方法(基于关键词、NLM标签、注册号等)不精准且易引入错误趋势,既漏检也误判显著。
  • 制定严谨的临床试验定义(Definition 2.1:仅含报告具体药物在人类受试者中的前瞻性干预试验),以提升研究精度;

- 确定2010年起为研究窗口,因此时间点后临床试验报告标准化(CONSORT标准)实施,提升文本结构和数据质量。

2.3 机器学习分类方法与模型蒸馏(页12-19)


  • 创新地使用大型语言模型(LLM)蒸馏策略

- 利用GPT-3.5和GPT-4对手工标注的1000条文本进行多轮prompt设计和测试,优化分类效果;
- 设计三类prompt,分别针对简单True/False、原因分类和带解释的分类,精细调整prompt内容和形式以减少误判;
  • 训练基于开源模型的精调语言模型(BIGBIRD、BioMedBERT架构),将上述专有模型的“弱标签”作为训练数据,获得性能媲美甚至优于专有模型的结果;

- 性能指标方面(基于ROC曲线与误报率):
- 传统机器学习模型(支持向量机、随机森林、线性模型)精度较低;
- 精调后的语言模型有效降低假阳性率和假阴性率至5%以下,表现稳定;
- 最终采用模型集成策略构建三类样本(保守、适中、宽松),推荐采用保守样本,兼顾准确率和召回率;
  • 生成的临床试验数据集包含约15.2万条记录(2010-2022),明显优于现有检索策略。


2.4 临床试验趋势分析与文本及引文质量剖析(页20-36)


  • 通过精确分类发现,自2010年至今,临床试验发表量相对稳定,反驳先前认为该指标快速上升的结论;

- 同一时期,引用临床试验的其他研究论文(包括观察性研究、meta分析和综述文章)数量激增,尤其是中国学者增长突出;
  • 进一步分析显示:

- 临床试验的公共资金支持率、被顶级医学期刊引用比例等质量指标无显著波动;
- 约70%临床试验论文未被顶尖期刊引用,表明质量或影响存在较大异质性,但此异质性稳定不变;
- 其他形式医学研究的质量指标如引用分布显示质量下降,右尾高引用文献比例下降,低引用论文比例上升;
- 作者层面数据表明,发布综述类及引用临床试验论文的领衔科学家发表数量增加,但平均引用下降,青年作者科研产出延续率下降,暗示研究质量总体趋缓;
  • 通过具体数据与图表进一步分解,说明为何传统基于简单计数的指标误判生产力下降。


2.5 讨论与政策启示(页33-36)


  • 本研究在创新计量方法上迈出显著步伐,利用生成式AI及模型蒸馏技术,解决长期以来创新标测的困难;

- 重新评估医药研发生产力下降的“事实”,发现该观点较大程度上是数据构建偏误的产物;
  • 与此同时,指出当前医学研究在促进临床药物开发方面保持稳定,但伴随大量综述文献增长,研究质量出现滑坡;

- 强调临床试验本身资源投入巨大,受监管和实际条件限制,难以快速扩展,构成研发创新瓶颈;
  • 呼吁关注提高临床试验效率、降低成本,调整学术出版激励机制,提升科学研究的实际社会价值;

- 目前结论仅适用于2010年后临床试验发表趋势,因前期规范与数据结构差异较大,未来可完全扩展至更长序列。

---

3. 图表深度解读



3.1 图表 2.1:《Potential Clinical Trials Universe》(页12)


  • 描述:图表展示了1975年至2022年间不同检索策略下“潜在临床试验”文献计数的时间系列趋势,包含以下5条线:

- 绿色:仅NLM数据库标注为“Clinical Trial”的出版物数;
- 浅蓝色:18个与临床试验相关的NLM标注类别总和;
- 蓝色:文摘中包含临床试验注册号的出版物计数;
- 深蓝色:文摘含有临床试验关键词的出版物计数;
- 紫色:上述4类之联集。
  • 解读数据趋势

- “Clinical Trial” NLM标签的科研产量出现明显波动,尤其2005年后下降,2010年后持续减少;
- 文摘关键词及注册号标注的潜在临床试验数量呈现持续增长趋势,且后者自2010年开始快速上升;
- 联合集合紫色线明显高于独立标签线,说明各策略覆盖的样本重叠较少,分类标准不统一,易产生偏差;
  • 联系文本说明

- 本图用于展现以往研究中不同检索手段导致的临床试验数量估计高度不一致,为应用高级模型分类提供有力动机。



---

3.2 图表 2.2:标准机器学习模型分类能力对比(页13)


  • 描述:图中呈现多项机器学习模型的ROC曲线(基于TF-IDF和SentenceTransformer两种嵌入表示),比较经典模型(岭回归、随机森林、支持向量机、提升树、神经网络等)与团队开发的语言模型性能。

- 数据与趋势解读
- 所有传统模型在高召回(90%真阳性率)区的假阳性率都十分高,接近50%假阳性,表明区分能力有限;
- 精调后的大语言模型(紫色)明显优于传统模型,假阳性率降至接近0,表现突出;
  • 联系文本说明

- 说明使用传统机器学习在此文本分类任务上的不足,强调大型语言模型的必要性。



---

3.3 图表 2.3:训练数据规模与模型性能(页18)


  • 描述:根据训练数据规模(500到64,000条)及标签来源(GPT-3.5、GPT-4或人工标签),显示BIGBIRD架构模型的ROC曲线变化。

- 数据趋势解读
- 随训练数据增多,模型性能明显提升,且基于GPT-4的弱标签训练模型最终可达到或接近GPT-4自身性能;
- 人工标签数据较少导致性能较弱;
- 模型训练在8000条数据后性能出现质的突变,显著提升分类准确度;
  • 联系文本说明

- 验证了语言模型蒸馏方法有效,且大量高质量弱标签可以替代大量昂贵人工标注。



---

3.4 图表 2.4:不同模型架构与集成模型性能(页19)


  • 描述:BIGBIRD和BioMedBERT不同大小模型精调后的ROC曲线与OpenAI GPT-3.5、GPT-4性能比较,以及集成模型性能。

- 数据与趋势解读
- 大型开源模型能完美匹敌GPT-4性能;
- 集成模型在测试集表现最好,平衡真阳性与假阳性率;
- 三个不同阈值(保守、中等、宽松)呈现不同的错误率,最终选定“保守”阈值采样约15.2万条被判为临床试验的记录。
  • 联系文本说明

- 反映研究者在权衡准确性与覆盖度时的折衷,使数据集满足高质量标准。



---

3.5 图表 3.1:临床试验数量相对稳定与“引用临床试验”论文数量上升(页21)


  • 描述:将2010-2019年间临床试验发表量和以不同时间窗口(2-6年)引用临床试验的发表量进行指数归一化比较。

- 趋势与解读
- 临床试验数量(虚线黑色)稳定或略有减少;
- 引用临床试验的论文数量不断增长,近10年间翻倍增长,增长幅度与时间窗口相关,窗口越大计数越多;
  • 联系文本说明

- 说明大量增长的医学发表文献并非直接产生于临床试验,提示传统文献数量与生产力之间的指标解读可能存在严重误导。



---

3.6 图表 3.2:临床试验公共资金比率及被顶级期刊引用比率稳定(页22)


  • 描述:2010-2019年期间临床试验中涉及公共资金资助的比例、被顶级医疗期刊引用的比例及公共资金临床试验中被顶级期刊引用比例。

- 趋势解读
- 三条曲线均表现出高度稳定,无明显上升或下降趋势;
- 相当部分临床试验论文不被顶级期刊引用(约70%未被引用);
  • 联系文本说明

- 进一步佐证资源分配与产出质量稳定,否定临床试验数量或质量出现大规模滑坡说法。



---

3.7 图表 3.3 与 3.5:引用分布热力图(页24、32)


  • 描述:分年份展示临床试验(3.3)及引用临床试验论文(3.5)被顶级医学期刊引用数的分布,采用色彩浓度反映引用量多寡,Y轴拉长突出尾部引用特征。

- 趋势看点
- 临床试验引用分布总体稳定,引用集中度维持不变,右尾及左尾趋势不显著变化;
- 引用临床试验论文的引用分布出现明显变化,低引用论文比例增大,右尾高引用论文比例下降,整体质量趋低;
  • 联系文本说明

- 结合前述数量变化揭示临床试验产出维稳,同时非试验性医学研究质量下滑,有碍形成误读。




---

3.8 图表 3.4:按国家分解临床试验与引用临床试验论文数量(页30)


  • 描述:分美国、中国、德国、日本及其他国家,展示临床试验论文与引用临床试验论文在2010-2019年间的发表数量。

- 趋势解读
- 临床试验数量各国家基本稳定,且美国占比始终保持约30%;
- 引用论文中,美国增长微弱,中国及其他国家明显激增(中国增幅最高达225%);
  • 联系文本说明

- 暗示全球医学研究重心在综述与二次研究方面快速变化,临床试验的生产集中度与原有格局保持。



---

4. 估值分析



本报告性质为计量经济学研究和科学计量学分析,未直接涉及企业估值与财务预测,因此无传统意义上的估值模型(如DCF、市盈率法等)及目标价。

报告重点在于创新数据构建与生产力测量的准确性,核心价值在于对行业创新产出的准确计数与趋势分析,而非财务定价。

---

5. 风险因素评估



报告虽无专门风险章节,但隐含风险与挑战包括:
  • 数据报告歧义和出版偏差:临床试验报告标准虽日趋完善,但存在未注册、延迟注册、非公开发布等状况,可能导致计数误差。

- 模型分类误差:尽管基于大模型蒸馏技术的分类精度较高,但依然存在少量误判,尤其针对复杂或模糊文本(如动物试验混淆、人为标注差异)。
  • 政策标准变动风险:监管政策对数据披露的影响较大,早期时期数据不可比,政策调整可能影响未来数据趋势及解释。

- 异质性结构风险:国内外、不同研究领域、不同研究类型文献增长不均,不同研究的质量差异使得总量指标难以全面反映真实生产力。
  • 工具依赖风险:依赖第三方私有模型生成“弱标签”,存在模型更新、黑箱不可控风险,开源模型蒸馏虽解决部分风险,但仍需持续维护。

- 出版激励变迁风险:科学出版体系盈利与晋升压力导致高数量低质量出版泛滥,致使测量指标表现失真,需持续关注机制变化带来的计量影响。

报告中展示了缓解策略,如采用高质量人工标注辅助、结合多模型集成、多策略交叉验证和新设严格样本定义,有利于控制模型风险。

---

6. 批判性视角与细微差别


  • 报告优点

- 创新使用模型蒸馏技术,结合顶尖私有模型知识迁移至开源框架,兼顾性能与透明度,技术先进;
- 细致调查分类误差类型,系统完善数据标签设计,科学严谨;
- 充分考虑数据追踪问题、政策变迁影响、发表标准变动等因素,体现出对复杂背景的深入理解;
  • 潜在不足

- 研究周期限制于2010-2022年,无法揭示更早期长期趋势;
- 尽管提升分类精度,但机器分类仍可能忽视文本部分细微信息,特别是跨领域或多模态信息;
- 依赖出版物数据可能仍面临发表偏差,尤其未纳入未发表临床试验数据,报告承认但难根除;
- 质量指标评价多以引用数为代表,虽然引用度是公认指标,但非完全等同研究质量和影响力;
- 报告未充分展开上下游基础科学研发成本、效益变化影响,对这些领域的判断较为保守。

---

7. 结论性综合



本报告通过创新的语言模型蒸馏和人工标注相结合的方法,打造了迄今最为精准的临床试验文本识别工具,成功对PubMed数据库中2010-2022年间的临床试验文献进行了高质量的重新计数。

这一新数据反转了学界关于医药行业研发生产力持续下降的核心证据——临床试验数量自2010年以来保持稳定、不升反降,而此前论文多受误分类和数据质量偏差影响,误导性称临床试验数量激增,导致产出被错误解读为停滞,生产力下降。

报告进一步结合顶级医学期刊引用分析和资金来源纬度,佐证了临床试验研究质量与资源投入持续稳定。而其他形式的医学研究(尤其是引用临床试验的论文)数量大幅增长,其中以中国和新兴高收入国家为主,但平均引用频次下降,提示这一增长主要是低质量文献和综述类文章膨胀。

这一现象反映了科学出版机制和资金配置变化的深远影响,也暗示医药创新响应伦理、法律和市场的必然制约,临床试验作为产业研发链瓶颈难以突破。

作者基于此呼吁政策制定者关注临床试验的效率提高与成本降低,并审慎调整学术激励结构,避免“量的膨胀”掩盖“质的滑坡”,以促进真正有价值的医药创新。

综上,报告不仅质疑了医药产业存在“研发生产力危机”的既有论断,还开创性地示范了生成式人工智能助力经济学和计量学数据构建的巨大潜力,具有深远的学术价值和政策参考意义。

---

报告中关键图表均展示了以下深刻见解:
  • 临床试验数据库与手工分类存在巨大差异,已有方法存在大量误判;

- 精调语言模型将错误率降至5%以下,实现了临床试验数据的“黄金标准”重构;
  • 2010年以来临床试验发表率稳定,明显不同于其他医学研究文献的快速增长;

- 质量分布、作者表现、引用分布均显示临床试验质量维持同时,其他医学文献质量指标下降趋势。

作者最终在“保守”阈值下构建包含152,027条临床试验记录的样本,废除过去粗糙计量基础,大幅提升了医药研发生产力研究的可靠性。

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36]

报告