`

Identification of the Most Frequently Asked Questions in Financial Analyst Reports to Automate Equity Research Using Llama 3 and GPT-4

创建于 更新于

摘要

本研究通过系统性划分72份股票研究报告中的4964条陈述,归纳出169种独特问题类别,评估其自动化潜力。结果显示,约75%的问题可以自动化处理,其中51.91%适合基于文本提取,24.24%基于数据库提取。采用Llama-3-70B和GPT-4两种语言模型验证,二者组合可自动化约84%的问题,大大提升了研究报告写作的效率和质量,表明股票研究报告的辅助自动化具备较高可行性 [page::0][page::2][page::3][page::4][page::5]。

速读内容


股票研究报告内容分类与自动化潜力分析 [page::0][page::2]


  • 72份股票研究报告包含4964个陈述,归纳出169个问题类型,分为财务(Financials)、公司(Company)、产品(Product)、股票(Stock)、市场(Market)、分析(Analysis)六大类。

- 财务类信息出现最频繁,股票、公司、市场信息次之,图表显示各类别信息的呈现形式存在差异,多以文本或表格形式出现,纯图形信息占比较小。

量化语言模型辅助信息提取及自动化报告写作验证 [page::3][page::4]



  • Llama-3-70B与GPT-4-turbo模型在200个问题上均能准确提取约26%-27%的文本信息,结合数据库数据后,整体自动化覆盖率超过80%,且两模型错误重叠极少,具备互补优势。

- 表格数据格式无须特殊优化,模型同样能够高效准确地提取财务信息,验证了表格与文本结合提取的可行性。

股票研究报告中高频问题及其自动化分类 [page::4][page::5]


| 主要问题 | 次类别 | 是否可提取 | 数值信息可提取 |
|--------------|--------------------|-----------|---------------|
| 关键财务指标 | Financials - Other | 是 | 是 |
| 分析师评级 | Analysis - Recommend| 否 | 否 |
| 现金流 | Financials - P&L | 是 | 是 |
| 目标价 | Analysis - Recommend| 否 | 否 |
| 收入趋势 | Financials - P&L | 是 | 是 |
  • 超过75%的问题具有自动化潜力,其中财务类自动化比例最高(约70%),公司类和产品类次之,市场与分析类自动化比例较低,尤其是涉及主观判断的分析类问题难以自动化。

- 仅约25%的问题需要人类判断与综合分析,重点集中于投资建议、风险评估等主观性强的内容。

报告写作自动化潜力总结及未来展望 [page::5][page::6]

  • 研究发现仅四分之一问题需要复杂判断,且模型在提取金融数据时表现出了良好的稳健性与互补性,表明结合多模型的集成方法能有效提升自动化覆盖率。

- 未来工作可聚焦于长文本自动化处理、领域专属模型打造及自动化写作基准构建,推动基于年报及市场数据库的股票研究报告写作半自动化乃至全自动化发展。

深度阅读

金融分析报告自动化中最常见问题的识别:基于Llama 3与GPT-4的股权研究自动化潜力分析



---

1. 元数据与报告概览


  • 报告标题:Identification of the Most Frequently Asked Questions in Financial Analyst Reports to Automate Equity Research Using Llama 3 and GPT-4

- 作者:Adria Pop, Jan Spörer
  • 发布机构:圣加仑大学(University of St. Gallen,瑞士)

- 时间:包含2018-2023年数据,引用模型截止2024年4月9日版本的GPT-4-turbo和Llama-3-70B。
  • 主题:系统解析股票研究报告(Equity Research Reports,简称ERRs),识别报告中回答的问题类别及其自动化潜力,探讨大型语言模型(LLMs)是否能辅助或自动撰写ERR。


核心论点



报告通过对72份真实ERR报告中的近5000句话进行逐句分析,归纳出169种独立的问题原型(question archetypes),并评估这些问题答案的“可提取性”(extractability)和自动化可能。研究发现:
  • 约75%的问题可以通过自动化文本提取完成,其中52%为自然语言文本可提取,24%为可通过数据库直接获得。

- 仅约25%的问题需要人工判断,也就是模型难以自动解决的复杂判断类内容。
  • 经过实证验证,基于Llama-3和GPT-4的模型组合,约可自动生成80%的ERR陈述,且模型互补性强,联合应用有望提升正确率。

- 研究结论支持提高ERR撰写的自动化程度,以提升质量和效率。
[pag::0][pag::2][pag::3][pag::5]

---

2. 逐节深度解读



2.1 报告介绍与研究动机(I. INTRODUCTION)


  • 摘要及动机:当前ERR在投资领域影响显著,但缺少对ERR中问题类别及其自动化潜力的深入系统研究。

- 作者首次不预设问题清单,反复逐句阅读72份ERR文本,从而得到一个无偏见的问题清单及其频率统计,确保对ERR内容的全面、客观把握。
  • ERR多由卖方银行及调研机构撰写,内容更新节奏通常为季度报告后即时更新,且ERR主要目的在于给出买入、持有、卖出建议。

- 研究目的是为后续ERR自动化奠定基础,判断自动化写作的可行程度。
[pag::0]

2.2 文献综述(II. LITERATURE)


  • 金融经济角度:ERR对股价波动有明显预测作用(例如Womack 1996证实股票涨跌六个月预测准确率高于随机),但存在分析师过于乐观、抛售建议罕见的问题(过往研究显示卖出建议比例极低),矛盾主要源于利益冲突。

- 调研准确率报告不一(部分研究指出约54%的目标价在一年内准确,另有报告仅38%),凸显人工分析存在局限。机器辅助或自动化可改善报告均衡性和效率。
  • 技术文献角度:已有自动信息提取技术如文本检索(text retrievers)、密集段落检索(dense passage retrieval)及检索增强生成(retrieval-augmented generation, RAG)技术,结合LLMs已能提升文本的自动生成准确性。

- 近期金融专业语言模型(如BloombergGPT)提升了对金融语义的理解能力,为ERR自动化提供技术可能。
[pag::1][pag::2]

2.3 数据与方法(III. DATA,IV. METHODS)


  • 样本情况:72份ERR,2018-2023年期间采集,主要来自23家机构,平均每报告约7页,平均68条声明(即句子)。

- 分类工作:共识别169个独立问题,归纳为5大类别:Financials(财务)、Company(公司)、Product(产品)、Stock(股票)、Market(市场)和Analysis(分析)。
  • 自动化潜力判定:问题的答案是否可以从公开年报等企业文件中直接提取?

- 若是直接文本中可查,标为“文本提取型”。
- 若需数据库支持(如彭博、Refinitiv等),则为“数据库提取型”。
- 余下需人工综合判断为“非提取型”,通常涉及主观分析或复杂归纳。
  • 显示模式:ERR内容主要通过文本或表格形式呈现,少量以图形形式展示(仅2.82%)— 这影响模型的读取和理解难度。

- 验证:通过与10名金融分析师访谈和与先前研究对比,确认问题列表和分类的现实和理论意义。
[pag::2][pag::3]

2.4 自动化验证(IV-D)


  • 评测了Llama-3-70B与GPT-4-turbo-2024-04-09两模型对200个文本可提取问题的回答能力。

- 结果显示:
- Llama 3正确回答率27%,GPT-4为26%。
- 加上数据库可提问问题(仅可通过金融数据库而非文本获得),两模型的自动化覆盖率达到约81%-82%。
- 两模型错误率互补,可联合使用,覆盖率提升至约84%,错误率约1%。
  • GPT-4回答更为详尽且带上下文,有时能补充更多信息;Llama 3回答更直接,偶尔尝试计算增长率,准确度虽不完美但靠近真实值。

- 说明即便没有对表格进行特殊格式化,模型对年报中表格和文本的鲁棒性较强。
  • 受限于模型输入上下文长度(Llama 3为8192 tokens,而年报通常超过10万tokens),解析长文本仍存在限制。

[pag::3][pag::4]

---

3. 图表深度解读



图1. ERR中报告句子数分布频率图(第1页)


  • 频数统计显示,ERR报告中的陈述句数量主要集中在30-119条之间,少于30条或超过120条的报告较少,数据与Literature中既有研究一致。

- 反映ERR信息密集且均匀分布,写作工作量较重。
图1 ERR句子数分布

图2. 不同问题类别信息呈现频率(第2页)


  • 财务类(Financials)出现频率最高,且多以文本或表格形式或二者并用展现。

- 公司信息和市场环境多以文本形式出现;股票信息多采用文本与表格或图形方式混合展示。
  • 纯图形展示的问题极少(约2.82%),图示直观表明财务数据是自动化潜力最大的部分。

图2 问题类别呈现频率

图3. 信息呈现形式的维恩图(第2页)


  • 截至大约一半(2191条声明)可采用文本或表格两种形式呈现。

- 980条声明仅有文本形式,764条仅有表格形式,52条和53条分别只有带有图形的文本或表格。
  • 图形形式覆盖较少,显示文本与表格为主,是可自动化提取的高潜力区。

图3 信息呈现形式

图4. 不同数据展现模式的占比(第3页,饼图)


  • 文本或表格合并的占比最高(约46.7%)。

- 其次分别是纯文本(20.17%)、纯表格(15.35%),含图形的综合形式约15%。
  • 仅图形模式占比最小(2.88%)。

- 再次强调多样展示形式对语言模型的影响。
图4 数据展示模式

图5. GPT-4及Llama 3对问题回答正确率(第3页)


  • GPT-4对200道题正确率为26%,错误率4%。

- Llama-3正确率27%,错误率3%,略优于GPT-4。
  • 数据库提取问题占比最大(55%),为两模型均无法直接文本回答类。

- 不可回答占比均为15%。
  • 总体显示两模型性能近似,但均在文本提取层面有较高准确率。

图5 模型答题正确率

图6. 模型组合答题表现(第4页)


  • “最佳组合”(选择两模型中表现最佳)正确率急升到59题正确,仅1题错误。

- GPT-4与Llama3的错误问题几乎不重叠,互补性明显。
  • 下方条形次级图展示具体问题上错误聚集,可看出某些问题仍难以回答。

- 合理的模型组合能显著减少错误风险。
图6 模型联合表现

图7. 五大类别问题子类别占比(第4页)


  • 财务类中利润及亏损(P&L)占比最高(22.6%)。

- 股票价格类占17.14%。
  • 其他财务项目(资产负债表、现金流等)也占显著比例。

- 分析类建议、市场环境等占比较少,约3%-5%。
  • 反映出财务数据信息是ERR内容的主干,自动化潜力大。

图7 问题子类别占比

---

4. 估值分析



本报告主要聚焦ERR文本内容的自动化分析及回答能力评估,未涉及具体公司估值模型的搭建或目标价预测,因此无估值方法论部分。但在自动化潜力评估中,分析通过文本和数据库可提取数据信息的范围,间接反映了估值相关数据自动提取和应用的可能。

---

5. 风险因素评估



报告指出自动化中存在的主要限制和挑战:
  • 分析类内容难以自动化:约占ERR总语句3.64%,这些内容涉及分析师的综合判断、主观推荐、风险评估等,当前技术难以通过文本或数据库提取。

- 上下文长度限制:年报往往超过模型最大上下文输入,需将文本拆分,可能影响信息整合能力。
  • 样本限制:仅分析72份ERR,覆盖23家公司,存在数据分布偏差风险,可能未涵盖所有问题类型。

- 格式和呈现多样性:表格、图形等格式未针对模型优化,可能影响提取准确率。
  • 潜在偏见:分析师倾向于乐观评价,机器学习模型基于训练数据也可能存在偏差。

- 人机结合仍必需:复杂判断领域留给人工,自动化不可能完全替代。
[pag::3][pag::4][pag::5]

---

6. 批判性视角与报告细微差别


  • 客观性与创新性:研究的无预设问题归纳法极大程度减少了先验偏见,增强了结果的客观性和实证力度。

- 数据规模与行业覆盖限制:仅分析72份报告,覆盖机构有限,可能未包含所有边缘和新兴问题。未来需扩大样本量以验证普适性。
  • 自动化潜力评估未衡量信息重要性:报告未对不同问题按重要性赋权,频率高未必等同于重要性高,可能低频关键分析判断被低估。

- 模型评价侧重提取能力,未涉及语言流畅度、分析深度和逻辑连贯性,后者是实际报告质量关键。
  • 跨模型联合潜力大,但实际在行业应用中如何融合两者结果仍需技术与操盘层面优化设计。

- 人工判断部分(分析类别)仍不可或缺,未来需关注如何利用AI辅助人为判断而非纯替代。
[pag::3][pag::5]

---

7. 结论性综合



本研究系统化解构了72份跨机构多年度的ERR,首次通过无预设、句子级手工注释,归纳出169个核心问题原型,涵盖财务、公司、产品、股票、市场及分析六大类。以公开企业报告作为信息来源,判断了各问题的自动化信息提取潜力。

主要发现包括:


  • 自动化潜力巨大:约75%的ERR内容可自动生成,包括51.9%的问题答案可从文本中提取,24.2%可通过数据库数据获得。此结果经过含200道题的语言模型测试验证,模型能正确回答约26-27%,结合数据库,整体自动化率达到80%以上。

- 模型协同效应明显:Llama 3和GPT-4在回答问题上错误不重叠,可组合提高自动化质量。
  • 财务类问题最频繁且最易自动化,尤其利润表相关信息最为核心。产品和公司信息自动化潜力也较高(分别约73.4%和54.6%自动化率)。

- 分析判断类问题难以自动化,这部分内容依赖多信息融合和主观判断,仅占所有声明的3.64%,但在投资决策中又尤为关键,现阶段仍需人工处理。
  • 数据呈现形式主要为文本与表格,图表较少,符合当前语言模型对多模态数据的处理能力。

- 表格中的财务数据无需专门格式调整,语言模型具有较强提取鲁棒性,提高了自动化的技术可行性。
  • 现有文本和数据库资源为自动化奠定基础,未来可基于此构建完整的自动化撰写管线,辅助分析师提升工作效率和报告质量。


局限与未来方向


  • 报告未覆盖所有市场参与者和所有最新研究报告,问题空间可能存在遗漏。

- 尚未解决长文本上下文处理瓶颈,年报数据量庞大。
  • 建议未来研究开发专用领域语言模型,设计更长文本输入架构,并纳入多模态信息处理。

- 鼓励构建ERR自动化生成的标准化评价指标与benchmark,推动行业实践及学界合作。

综上,该研究首次定量地揭示了ERR写作中具体问题的自动化潜力,结合最新大语言模型的表现,彰显金融研究文本自动化的现实可行,具有显著的学术价值与工业落地前景。
[pag::3][pag::4][pag::5]

---

参考图表总览



| 图表编号 | 内容简介 | 主要意义 |
|--------|----------------------------------------------------------|-------------------------------------|
| 图1 | 不同ERR文档句子数分布频率直方图 | ERR信息量大小及分布,支持样本代表性 |
| 图2 | 各问题类别信息呈现频率(文本、表格、图形)柱状图 | 财务类占主导,文本与表格为主,支持自动化方向 |
| 图3 | 信息呈现形式维恩图(文本、表格、图形交集分布) | 多数据展示类型共存,文本与表格兼容性验证 |
| 图4 | 各种数据展现形式占比饼图 | 强调文本/表格主要地位,图形占比少 |
| 图5 | GPT-4与Llama 3对问题回答正误占比对比饼图 | 模型性能及自动化覆盖情况,模型互补性体现 |
| 图6 | 组合模型答题表现柱状图和条形图 | 联合模型显著减少错误,构建高效自动化系统可能 |
| 图7 | 五大类别子问题占比柱状图 | 财务类问题的核心地位,分析类问题低频但重要 |

---

以上为本报告的详尽分析与解读,涵盖研究背景、方法论、实证发现、模型表现、风险限制及未来展望,确保对每一关键论点、表格和图像给予了充分解读与溯源。

报告