`

Leveraging Large Language Models to Democratize Access to Costly Datasets for Academic Research

创建于 更新于

摘要

本研究利用GPT-4o-mini结合检索增强生成(RAG)框架,高效自动化提取公司信息披露中的CEO薪酬比率与关键审计事项(CAMs)数据,实现了近万份报告的快速、高准确度采集,显著降低时间与成本,促进了学术研究数据的普惠获取,推动资源有限机构的学术研究民主化[page::0][page::4][page::5][page::15][page::20][page::23].

速读内容


学术研究对数据依赖日益加深,数据获取不均带来学术不公平 [page::1][page::2][page::6][page::7][page::8]

  • 近年来,商业领域的学术研究转向经验与定量方法,依赖多个数据库,数据成本高昂。

- 资源有限机构研究者因资金不足难以获得关键数据,限制研究创新与多样性。
  • 合作虽是解决数据限制的途径,但存在合作难度、话语权不均等问题。


利用生成式AI和大型语言模型推动数据访问民主化 [page::2][page::9][page::10][page::11][page::12]

  • LLMs自动提取非结构化文本中的数据,显著提升数据收集效率和可访问性。

- GenAI有潜力扩宽研究者群体、研究主题和区域覆盖,降低学术门槛。
  • 本研究聚焦CEO薪酬比率和关键审计事项两类复杂且结构多样的披露,体现量化与质化数据自动提取能力。


研究方法框架及技术特点 [page::3][page::12][page::15][page::42][page::44][page::45][page::46][page::47][page::48]

  • 采用RAG框架,先用正则表达式定位相关文档段落,再通过GPT-4o-mini模型精确提取数据,有效减少token消耗与成本。

- 大模型具备128K上下文窗口,支持长文本处理,降低模型“幻觉”风险。
  • 迭代式提示词工程优化提取准确率,分别设计CEO薪酬与CAM提取提示。

- 利用并行API请求和多轮调试提高处理速度与结果稳定性。

大规模实验结果:高效、精确、低成本 [page::4][page::5][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23]

  • CEO薪酬比率数据采集近万份代理声明,仅耗时9分钟、成本7美元,采集准确率达99%以上。

- CAM数据采集超过1.2万份10-K报告,耗时40分钟,成本8美元,准确率超过98%。
  • LLM采集结果与人工采集及商业数据库比较表现同等甚至更优,且数据处理速度大幅领先。

- 方法可扩展性强,成本随样本扩大呈线性微增,适合大规模自动化数据挖掘。

研究贡献与未来展望 [page::5][page::23][page::24][page::25]

  • 首次系统性展示LLM在财经非结构化大数据自动提取的落地方案,助力弱势科研群体。

- 开源收集的CEO薪酬比率及CAM数据集,推动学术界数据共享与再利用。
  • 讨论了语言模型现有局限性(英语中心化、市场垄断、计算资源不均)及未来提升方向。

- 提倡多语种模型研发、市场竞争促进及政策支持,期待AI促进学术公平与创新加速。



深度阅读

研究报告详尽分析报告



---

一、元数据与报告概览


  • 报告标题: Leveraging Large Language Models to Democratize Access to Costly Datasets for Academic Research

- 作者与单位: Julian Junyan Wang(牛津大学学院,牛津大学),Victor Xiaoqi Wang(加利福尼亚州立大学长滩分校商学院)
  • 发布日期: 2025年6月

- 研究主题: 利用大型语言模型(LLMs)提升学术研究对昂贵数据集的可获取性,聚焦财务和会计领域中的CEO薪酬比例和关键审计事项(CAM)数据的自动提取方法与应用。

核心论点与信息总结



报告围绕学术界数据获取不平等问题展开,指出昂贵数据集成为资助不足机构研究者的高门槛。通过融合GPT-4o-mini在RAG(Retrieval-Augmented Generation)框架中的应用,实现从大量非结构化公司披露文件中自动提取核心定量(CEO薪酬比例)与定性(CAM)数据。其数据处理速度快(分别约9和40分钟)且成本低(均低于10美元),与传统数百工时或数千美元的手动收集与数据库订阅形成鲜明对比。最终目标是通过开源方法和数据集构建更加包容与多元的学术研究生态,强化资源有限研究者的学术能力。[page::0]

---

二、逐章节深度解读



2.1 引言部分


  • 关键论点: 学术“Publish or Perish”文化推动定量与实证研究高速发展,特别是在商业相关学科中,对数据库依赖显著上升,强化了对昂贵数据资源的需求。资源富裕与贫困机构间围绕数据访问的鸿沟显著扩大,限制了后者的科研能力和学术贡献,威胁学术多样性和创新。

- 推理依据: 引用大量文献支持:实证研究比例的提升、数据库使用增多与发表可能性相关、及数据访问限制造成的公平性问题[page::1,2]。

2.2 数据访问不平等


  • 核心信息: 描述“长尾”分布现象,少数精英机构拥有大量易用且昂贵数据,许多研究团队数据匮乏。具体指出低排名学校研究者受限于数据访问难、教学负担重、缺少助手,构成较大劣势,影响其发表成果和科研发展。

- 支撑逻辑: 结合教育资金、助理利用、研究负担等统计和文献论据,分析协作也存在局限,强调解决数据不公平性的重要性。
  • 预测: 若未改善将使学术贡献同质化,削弱研究创新[page::8,9]。


2.3 AI与研究生产力


  • 论点总结: 生成式AI(GenAI),特别是大型语言模型(LLM),正展现出让更多科研人员参与、提升生产力的潜力。例如减少数据预处理时间、辅助研究构思、跨语言支持。

- 依据: 结合现有实证(如ChatGPT对金融、经济研究的辅助)、历史技术对合作和信息流动的影响,论证LMMs对“数字平权”的可能贡献。
  • 细化: 明确“民主化”涵义主要是扩大研究参与者群体,而“公平竞争”是其一种具体实现路径;断言GenAI可扩大研究议题与地理覆盖范围。

- 三大“民主化”维度: 扩展参与群体、丰富研究主题、拓展国家地域范围[page::9-11]。

2.4 利用GenAI进行数据收集


  • 主要内容: 阐述此前用规则系统抽取文档的技术限制,探讨机器学习的潜力及难点。介绍本研究用RAG架构结合GPT-4o-mini实现成本与效率的最优平衡,以处理高容量非结构化文本。通过先检索精确片段,再利用LLM生成答案,有效降低了成本和时间消耗,同时减小“幻觉”生成风险。

- 拓展贡献: 1)涵盖定量和定性两类数据;2)进行大规模系统化实验评估技术挑战;3)首次提出大规模RAG应用于此问题的框架。
  • 技术上选择RAG而非纯嵌入检索,是为了提高精度和降低计算量,规避chunk分割带来的上下文破碎问题[page::12]。


2.5 数据来源与实验任务


  • 资料介绍: 基于美国SEC EDGAR公开文件,样本涵盖2017年至今CEO薪酬比例披露和2019年以来关键审计事项披露,分别对应Dodd-Frank和PCAOB最新监管要求。

-
任务难点: 两类数据结构高度非标准化、无XBRL标识,格式和语言多变。
  • 选取理由: 代表量化与质化两类数据,覆盖真实复杂及可普遍推广的研究场景。

-
文档长度挑战: 代理声明平均约40,000字,10-K文件超65,000字,直接输入LLM不可行,需预先提取相关片段。
  • 社会意义: 促使研究者跨越数据难题,鼓励开源共享,扩展研究视野和多元观点[page::13-15]。


3. 方法论


  • 关键步骤: 文档下载-解析-正则表达式定位片段-提示词优化-调用API-结果清洗合并-准确度评估,形成成熟一体化数据提取流程。

-
模型选择理由: GPT-4o-mini模型在性能与成本之间取得平衡,具备128K上下文窗口及长文本输出能力,输入成本低(0.15美元/百万tokens),较适合高频大规模处理。
  • 提示词设计耗时与迭代: 从简单到复杂,逐步增强提示以应对多样文本格式和边缘案例,确保定量(CEO薪酬、员工薪酬、中位数报酬、薪酬比)和定性(CAM标题、描述、审计程序)数据均准确无误提取[page::15-16,45-46]。


5. 实验结果详解



5.1 样本选择


  • 数据规模: 9,865份代理声明含CEO薪酬比例,12,499份10-K含CAM披露(2018-2023与2019-2023年间)。

-
筛选依据: 仅Compustat Execucomp公司,确保数据一致性和与CEO属性数据库对接便利[page::15].

5.2 CEO薪酬比例数据提取结果


  • 提取流程统计: 共提取13,960个文本片段,平均1.41片段/文件,73.9%文件仅1个片段。所有片段单独调用API避免交叉污染。[page::16]
  • 处理成本与速度: 全样本处理耗时9分钟,花费7美元API费用。人工估计需493小时、约5,000美元。模型展示出时间成本压缩达99.86%,费用仅占手工的0.14%[page::17].
  • 准确性: CEO薪酬采集成功率98.9%,中位员工薪酬99.74%,薪酬比例99.84%。核心测度缺失率低至0.16%-1.1%。

- 内部一致性检验显示98.13%案例中,报出比率和由薪酬计算比率绝对误差≤1,少数为四舍五入造成的小差异。
- 人工核查264差异案例,CEO薪酬准确率86%、员工薪酬97%、薪酬比97%。缺失多因CEO薪酬部分披露于其他表格。
- 与UA library数据比较显示,LLM方案准确率更高(CEO薪酬99.68% vs 97.67%;员工薪酬99.74% vs 99.05%)。
  • 总结: 靠谱自动化解决方案,高准确率,高效率,远优于传统手工[page::17-20].


5.3 CAM数据提取结果


  • 提取段落: 利用正则表达式成功提取审核报告及CAM段落,绝大多数报告结构清晰且易于定位。平均CAM片段约716 tokens。[page::20]
  • 处理时间成本: 共12,499个CAM段落,分批处理(2段/请求),6,250请求,耗时40分钟,费用约8美元。比起订阅Audit Analytics的数千美元费用极具成本优势。

-
准确性:
- 以500份随机样本为基准,使用余弦相似度衡量模型与人工对比文本相似度,标题、描述、程序分别达到约98.7%、98.7%、97.8%准确率。
- 合并近似相似度(≥0.99)后,精度超99%,部分案例LLM甚至生成缺失标题,显示语言理解和综合能力。
- 机器与人工采集误差率相近(均约0.28%错过),指向相似的漏检风险。
  • 结论: LLM优于或匹配传统人工采集,且具高效处理能力,显著降低数据获取门槛[page::21-23].


---

三、图表深度解读



注:文中图表涉及样本数量、Token数量、运行时间和成本、准确率对比等指标。
  • 图表1(样本规模与选择流程) 显示了涉及的文档总量分布,验证了样本的覆盖范围和代表性。[page::34]
  • 图表2(文本提取与LLM处理指标)

- CEO薪酬数据: 平均提取文本片段1.4个/文件,提示长度约1,114 tokens,文本约1,821 tokens,总处理tokens近4千万,运行时间9分钟,API成本7美元。
- CAM数据: 提取片段数稍少,提示tokens836,文本tokens约716,总计约2千万tokens,运行时间40分钟,成本8美元。
- 该图表突出RAG策略在tokens和成本上的节省效果,同时展示了批量与错误处理带来的增效[page::35,37].
  • 图表3(CEO薪酬数据准确性)

- 分面分析内部一致性,手工验证与第三方数据对比。数据表明核心数值获取精确,误差极少且主要由公司披露本身的不一致带来。
- LLM提取数据与第三方及人工校验数据高度一致,整体准确率超99%。
- 这一图表同时支撑LLM方案可信赖性与适用性。
[page::36-39]
  • 图表4(CAM文本提取与处理统计) 细节如前述,强调了文本提取长度、处理时间等指标。[page::37]
  • 图表5(CAM数据准确性对比)

- LLM与人工数据对比,余弦相似度大部分为1,极少异常案例通过人工复核确认非模型错误。
- 发现LLM在某些文本标准化、格式化细节上表现更佳,人工同样存在遗漏[page::38].
  • 流程图(图A-3)

系统展现了从URL采集、文件下载、正则提取、提示工程、API请求、数据合并直至准确率验证的十步自动化流程,体现方法的完整性与系统化设计。[page::52]

---

四、估值分析



该报告主要为方法论与应用研究,不涉及财务估值,故无估值分析部分。

---

五、风险因素评估


  • 语言局限: 当前LLM偏向英语,处理非英语文件效果待提升,限制了非英语区域的应用[page::23].

-
市场集中: OpenAI占据市场绝大份额,潜在垄断可能影响定价公平及访问自由度[page::23].
  • 成本与访问限制: 尽管GPT-4o-mini成本低,部分模型仍较贵;部分地区受地理政策限制无法访问[page::23].

-
模型输出随机性与交叉污染:
报告中揭示批量处理带来的信息混淆问题,采取降低批量大小等多种举措缓解[page::47-48].
  • 内容生成误差(Hallucination)风险:

针对数字型数据,设计了两阶段验证机制(确认文本存在及语境相关性)预防虚假生成。文本提取错误风险相对较低[page::48].
  • 模型多样性与开放性不足: 研究呼吁加强多语言、多模型的创新支持减少算力资源差距[page::24].


---

六、批判性视角与细微差别


  • 技术依赖风险: 报告将LLM视为工具提升效率,但并未充分讨论数据准确性的极端边缘场景及潜在监管要求;实际企业文件复杂性或引发处理局限。

-
市场风险与可持续性: 依赖OpenAI商用模型,面对技术快速进展,其技术、价格变动或许可政策更新可能影响方法可复制性。
  • 数据完整性: 虽准确率高,但部分薪酬数据缺失仍依赖其他披露来源,表明LLM虽强,仍无法完美解决原始文件不完整问题。

-
样本局限性: 研究聚焦SEC与美国法规披露,国际通用性待更广泛测试确认。
  • 人工与模型的相互补充性: 报告多处提及人工复核不可或缺,暗示应用中需结合人机协作确保数据质量。

-
隐性“民主化”定义广泛: 报告强调“民主化”,但亦指出非完全“平权”,该术语在文中定义和执行层面存细微含糊,研究者需谨慎理解。

---

七、结论性综合



本报告通过系统研究,提出并验证了利用GenAI技术尤其是GPT-4o-mini结合RAG框架,实现从数量庞大、格式复杂的SEC公司披露文档中自动抽取两类关键数据——CEO薪酬比例与CAM——的创新方法。该方法在近2万份文件中表现出优异的效率(9及40分钟内处理完成)和极低成本(7至8美元API费用),同时准确率超99%,优于现有手工及第三方数据库方式,大大降低了学术界的入门门槛。

数据呈现显示,文本预处理通过正则匹配准确锁定相关信息片段,有效减少了输入上下文大小,RAG框架则优化了模型调用效率和输出准确度。提示词设计强调了对格式多样性的适应和防止虚假的严格逻辑规则。数据的开源共享将促进资源匮乏机构拓展研究领域与地域覆盖,推动学术公平。

报告同时坦诚指出当前技术与市场存在的限制,如语言范围、成本门槛、模型获取限制等,并提出了针对潜在风险的解决思路和政策建议。未来研究应聚焦拓展多语言模型适用性,促进工具多样化以及深化自动化与人工复核的融合。

综上,作者明确传达了LLM及GenAI技术正处于变革学术数据采集范式的前沿,具备促使学术研究更为民主化的巨大潜力,尤其对于数据密集且资源要求高的财务与会计等实证领域,开启了前所未有的广阔前景。[page::0,1,4,5,15-23,34-39,42-48,52]

---

附:重要图表示例(Markdown格式)



图A-3:数据提取处理完整流程


---

结束语



该报告深刻揭示了科技进步如何克服资源壁垒,提高数据获取效率与公平性,对于学术界、政策制定者及金融信息服务业均具重大启示价值。其严谨的实验设计、系统的流程构建以及全面的效果评估,为后续相关领域融合人工智能与研究方法创新提供操盘指南和数据支持。

报告