`

金融文本分析测评:Llama 3是最强开源模型吗?

创建于 更新于

摘要

本报告针对Meta发布的Llama 3开源大模型,构建基于金融研报的阅读问答评测体系,系统对比包括Llama 3、GPT4、ChatGLM 3及其他主流开源模型在文本解析和问答准确度的表现。结果显示,尽管Llama 3在多个基准测试中领先部分开源模型,但其回答存在中文表达不完整和逻辑推理偏差,且上下文窗口容量较小限制了长文本处理能力。GPT4整体表现最佳,准确率和逻辑推理接近人类标准,InternLM和Baichuan则存在较高错误率和回答拒绝情况。测评为投资者在选择金融文本分析模型时提供了有价值的参考。 [page::0][page::1][page::6]

速读内容

  • Llama 3模型架构及训练优势 [page::0][page::1]:

- 采用标准Decoder-Only Transformer架构,支持128K tokenizer。
- 预训练数据量超过15万亿token,是Llama 2的7倍。
- 支持8192 token长序列训练,含多语言数据超过5%。
- 当前版本包括8B和70B,未来计划推出400B+版本。
  • 模型上下文能力及局限性 [page::1]:

- Llama 3上下文窗口仅有8K,相较行业平均水平偏低,限制长文本问答表现。
  • 金融文本解析评测体系设计 [page::1][page::2]:

- 选取5篇覆盖5行业研报,设计3类问题:看好程度、技术优势、政策影响。
- 采用One-Shot/Few-Shot提示词提升模型回答准确度。
  • 开源大模型测评对比范围及意义 [page::5]:

- 对比Llama、ChatGLM 3、Qwen、Baichuan、InternLM及GPT4。
- 开源模型支持本地部署,保证数据安全和灵活使用。
  • 各模型回答质量及准确性比较 [page::6]:


- Llama 3对研报作者看好程度评分较为合理,但回答错误率较高。
- InternLM多次错误引用行业政策和技术壁垒,且存在拒绝回答现象。

- 技术水平判断上,InternLM倾向“是”,Qwen表现较保守。

- 政策影响问题,除InternLM和Llama 3外多数模型判断准确。
  • GPT4表现领先且稳定 [page::6]:

- 在所有判断类问题中均表现最优,推理准确、符合人类标准。
- 对未在文本中出现的信息不随意发挥,保持客观否定。
  • Llama 3主要缺陷及影响 [page::6]:

- 中文回答不完整,部分回答逻辑存在偏差,混淆技术运营概念。
- 对政策影响判断易出现漏判。
  • 风险提示及使用建议 [page::0][page::13]:

- 模型回答存在随机性,结果不可完全依赖单次输出。
- 不同领域模型表现可能有较大差异,需结合应用场景选择。

深度阅读

金融文本解析报告详尽分析——《Llama 3是最强开源模型吗?》



---

一、元数据与报告概览


  • 报告标题:《金融文本解析评测:Llama 3是最强开源模型吗?》

- 作者:高智威、王小康
  • 发布机构:国金证券股份有限公司

- 发布日期:2024年4月29日
  • 研究主题:本报告聚焦于开源大语言模型(LLM)特别是Meta最新推出的Llama 3模型,与市场主流开源模型及GPT系列模型在金融文本解析能力上的性能比较评测,旨在为投资者和企业部署选择适用的模型提供实用参考。


核心论点与目标
  • Llama 3发布后被广泛认为是当前最强的开源大模型之一,尤其在性能基准测试中领先同类7B至70B规模模型;

- 然而,经国金证券针对研报文本的问答测试发现,Llama 3在中文回答的完整性与准确性方面仍有不足,部分逻辑推理存在偏差,整体性能未能完全达到行业领先标准;
  • GPT4在金融研报问答中表现依然领先,逻辑严谨、回答准确,特别是对于推断和事实核查标准较为严格;

- 国产模型如ChatGLM3和Qwen表现亦较为稳健,回答条理清晰,引用全面,是投资研究应用的良好选择;
  • 本报告意在细化分析不同模型的适用场景、优势瓶颈及风险提示,为量化投研决策提供支撑[page::0,1,5,6,14]。


---

二、逐章深度解读



2.1 摘要与投资逻辑



报告首先介绍了Llama 3模型的技术架构和训练数据层面亮点。主要包括:
  • 模型架构:采用标准的Decoder-Only Transformer架构,配备128K的tokenizer,能有效编码语言;

- 训练数据规模:超过15T tokens预训练数据,是Llama 2的7倍;
  • 长序列训练:支持8192 token长序列输入,并使用掩码避免自注意力跨文档边界;

- 多语言覆盖:超过5%的训练数据为高质量非英语文本,涵盖30多种语言;
  • 未来版本展望:Meta承诺推出400B参数级别的大模型版本,期待其性能更接近GPT4水准。


基于上述技术特点,Llama 3被业界盛传为“最强开源大模型”。但报告指出其上下文窗口限制为8K tokens,在处理长文本和多轮复杂对话场景时有一定局限。针对当前已有的8B和70B版本,进行了多维度横向比较测评[page::0,1]。

2.2 测评背景及应用评估体系



在投资研究领域,海量文本分析和观点提炼是大语言模型的重要应用场景。国金证券设计了“金融文本解析应用评估体系”,通过从五篇不同行业个股研报中提取摘要文本,围绕三个核心问题:
  • 研报作者对股票的看好程度

- 公司技术优势分析
  • 政策对行业的影响


对比多款开源模型及GPT系列的回答表现,力求客观评判模型在实际投研问答场景下的能力。

具体的设计思路包括:
  • 采用One-Shot和Few-Shot提示词方式,提升模型回答准确度;

- 选取的5篇研报涵盖化工、生物医药、港口、煤炭、调味食品等行业,且均包含技术和政策相关内容,覆盖范围广泛,能够模拟真实投研的文本解析需求;
  • 测试问答任务严格基于文本内容,考察模型对研报观点的理解、信息抽取及判断能力[page::1,2,4]。


2.3 测评模型选取与对比



评测涵盖了主流开源大模型包括 Llama(Meta)、ChatGLM3、Qwen、Baichuan、InternLM 以及 ChatGPT3.5和GPT4等。重点说明:
  • 开源模型通过参数权重公开支持本地部署和二次开发,保障数据隐私和自定义能力;

- GPT系列虽非完全开源,但以其强大的推理和回答准确度作为对比基准;
  • 测评重点在于文本理解、推理准确性及中文语境下的回答完整性和准确性。


在测试中,特别整理了模型回答并标注明显错误答案,分析模型判断倾向和不足:
  • Llama 3错误率偏高,中文表达不完整,且部分回答逻辑推导薄弱混淆关键概念;

- InternLM表现波动较大,错误频出且多次拒绝回答,尤其在技术壁垒识别和政策关联方面存在误导风险;
  • ChatGLM3和Qwen表现较为稳定思想清晰;

- GPT4表现依然遥遥领先,能严格基于文本事实给出答案与否判定,对于文中未明确提及内容给出否定,避免“无中生有”[page::5,6].

---

三、图表深度解读



3.1 图表4(各模型回答总结)


  • 内容说明:归纳总结了不同模型在5个研报问答中的主要答案,配以红色标注突出回答错误,方便一目了然地掌握各模型回答质量分布。

- 数据趋势:多数模型难以精准区分研报的看好程度,体现了文本本身泛乐观的属性对模型判别的挑战。InternLM及Baichuan倾向给较低评分,显得较为保守。
  • 意义说明:该表格佐证了后续对模型表现的量化分析,明确识别出模型错误点与回答偏差的来源[page::5].


3.2 图表5(各模型对研报作者看好程度的打分对比)




  • 内容描述:该柱状图呈现了8款模型对5篇研报作者看好程度的评分结果(分值区间假定为0-10)。

- 数据解读
- Llama 3整体评分在7-9分左右,大致与ChatGLM3、Qwen 7B、GPT4持平,体现对研报整体偏乐观的理解。
- Baichuan和InternLM评分波动较大,且普遍偏低显得谨慎甚至悲观。
- GPT4对大多数研报评分集中在8-9分,显示其对研报态度判断较为准确且稳定。
  • 数据影响

- 评分高度接近,说明模型普遍难以捕捉研报用语中的细微情绪差异,挑战投资研报中情绪判别的复杂性[page::6].

3.3 图表6(各模型对技术水平问题的判断)




  • 内容描述:展示不同模型对技术壁垒问题的判断,其中蓝色代表“否”,深蓝代表“是”。

- 数据解读
- InternLM多次给出“是”,表现出过于乐观甚至错误识别技术优势的倾向;
- GPT4较为谨慎,且判断准确;
- Qwen较保守,较多回答“否”。
  • 文本对应分析

- InternLM误把运营能力混淆为技术壁垒,导致偏差;
- Llama 3在技术问题上表现含糊,存在逻辑混淆;
- GPT4严格依文本事实判断技术优势,体现推理逻辑强[page::6].

3.4 图表7(各模型对政策影响问题的判断)




  • 内容描述:反映模型针对政策影响问题的判断,深蓝为“是”,蓝色为“否”。

- 数据解读
- 绝大多数模型均未完全精准把握政策影响,InternLM拒答频发且较为保守;
- Llama 3及InternLM识别政策影响较弱,未能准确提炼政策相关信息;
- GPT4准确识别了报告中提及的关键政策,如版号发放政策;
- 一些模型倾向“自由发挥”,出现“无中生有”现象,在模拟政策影响时添加未被文本支持的内容。
  • 意义反映

- 政策影响问题对模型要求极高的信息辨识与事实核查能力;
- GPT4的优异表现体现其在复杂事实核实上的优势;
- 其余模型存在事实偏离风险,用户需谨慎对待[page::6].

---

四、估值分析



本报告侧重于金融文本大模型解析评测,未涉及具体公司估值方法、财务预测或多种估值模型(DCF、市盈率、EV/EBITDA等)的应用,因此无估值相关内容阐述。

---

五、风险因素评估



报告明确给出以下风险提示:
  1. 回答随机性风险:大模型回答具有一定的随机性,同一问题在不同时间点可能产生不同答案,不能单纯依赖模型回答进行自动化决策,需结合人工辅助和判断。

2. 领域适应性风险:所测评问题并未专门针对模型擅长领域调整,不同领域情境下模型表现相对优劣可能存在较大差异,结果不应被盲目泛化。

此外,结合正文分析还可归纳出以下风险点:
  • Llama 3模型在中文回答能力和逻辑推理方面的不足,可能影响实际应用效果;

- 部分模型存在无中生有、逻辑牵强、错误推导和错误引用的风险,可能误导投资者或研究人员;
  • 由于研报文本本身偏乐观,模型难以精准把握情绪差异,影响情感和立场判断的准确性;

- 大模型在政策和技术壁垒识别上的误差,可能造成错误的投资判断[page::1,6,13].

---

六、审慎视角与细节点评


  • 偏见与局限

- 虽然报告客观评估了不同模型的表现,但对GPT4明确赞许为“遥遥领先”,可能源自其更成熟的训练资源和技术积累,略显偏重商用模型;
- Llama 3尽管强调技术进步与大规模数据优势,却未能掩盖其应用中的中文表达和推理不足,提示技术领先并非等同于应用领先;
- 部分模型的错误表现可能与研报文本特有的乐观倾向、复杂表达及专业性相关,模型在处理专业金融文本的训练样本质量与多样性未被详细披露,影响评测平衡性。
  • 语言表达细节

- Llama 3回答无法完全使用中文,影响用户体验,尤其在中文金融场景中是较大弱点;
- 部分模型“自由发挥”现象显示出模型恰当拒绝回答能力不足,影响回答的可靠性和可信度。
  • 内部矛盾或关注点

- 报告虽指出Llama 3“最强开源模型”称号存在争议,但在介绍中仍大量宣传其技术性能,略微矛盾;
- 同时,Llama 3未来版本期待能达到GPT4水平,但目前测试版本表现与期待存在明显差距。

---

七、结论性综合



本报告完成了基于金融研报文本的开源及商用大语言模型系统性能评测。关键发现如下:
  • 技术层面:Llama 3在架构和训练规模上显著提升,尤其多语言支持和长文本处理增强,但其8K上下文窗口仍显限制;且中文回答准确性和逻辑推理存在明显不足。

- 模型表现:在投研问答场景中,GPT4持续领先,表现出强大的事实核查能力和严谨的推理逻辑,最大程度避免了无端推断和错误引用;
  • 国产模型:ChatGLM3和Qwen模型表现良好,回答条理清楚、引用全面,适合作为本地部署选项,值得投资者关注;

- 其他开源模型缺陷明显:InternLM错误率较高,存在拒答和错误判断风险,Llama 3和Baichuan表现波动,需谨慎评估;
  • 模型在判别研报乐观情绪和细微观点变化时普遍挑战较大,反映出语言模型在金融文本情感识别和立场判断上的局限性。

- 风险提示明确:模型回答随机性和领域适应性限制需被重视,模型输出不能直接替代人工研判。
  • 投入建议:投资者和业务部署者应根据应用需求权衡模型性能、语言支持及推理准确度,以GPT4为基准,国产模型是性价比较优的替代选择,而Llama 3尚需观察未来大型参数版本的表现。


综上,报告从多角度揭示了当前开源大模型在金融文本解析应用中的真实表现及其不足,展现了技术进步与应用差距的现实,强调了投资研报语境下进行深度文本理解和精准事实判断的重要性,避免对模型能力的盲目过度乐观,有助于塑造合理的市场预期和模型选用策略[page::0~7,13,14]。

---

备注


  • 所有引用页码均明示于句末,便于后续内容追溯;

- 图表均使用markdown嵌入格式置于文本相应段落,便于直观理解数据趋势;
- 本分析以报告内容为依据,遵循客观、中立原则,避免未经文本支持的主观臆断。

报告