金融文本解析评测:Llama3是最强开源模型吗?
创建于 更新于
摘要
报告基于国金证券研报文本,设计金融文本解析评测体系,比较主流开源大模型在研报观点提取、技术能力判断及政策影响识别等方面的表现。结果显示,GPT4在准确性和推理能力上领先,Llama 3表现存在明显不足,部分国产模型(如ChatGLM 3、Qwen)表现良好且适合部署。评测揭示不同模型在金融研报解析应用上的差异及适用性,为投资者选用开源模型提供决策参考 [page::0][page::2][page::6][page::7]
速读内容
金融文本解析评测体系设计与应用场景 [page::2]
- 设计基于研报全文阅读的三大问题:作者对股票看好程度、技术水平及行业壁垒、政策影响。
- 采用One-Shot/Few-Shot提示词确保模型回答的区分度与准确性。
- 选用5篇国金证券涉及不同行业的研报作为评测基准,内容涵盖港口、医药、传媒、电力、食品等多领域。
测评所用开源及闭源大模型汇总 [page::5]
| 模型名称 | 厂商 | 参数量 | 是否开源 |
|------------|----------------|--------|---------|
| Llama 3 | Meta | 8B | 是 |
| ChatGLM 3 | 智谱AI | 6B | 是 |
| Qwen 7B | 阿里 | 7B | 是 |
| Qwen 72B | 阿里 | 72B | 是 |
| Baichuan 2 | 百川智能 | 13B | 是 |
| InternLM 2 | 上海AI实验室等 | 7B | 是 |
| ChatGPT 3.5| OpenAI | 175B | 否 |
| GPT4 | OpenAI | 1800B | 否 |
各模型回答能力总结与评分对比 [page::6][page::7]

- GPT4整体评分最高,能够准确识别研报作者意图及文本信息,且推理严谨。
- Llama 3回答有较高错误率,且中文回答不完整,体验受限。
- ChatGLM 3和Qwen表现良好,回答准确度和可信度较高,适合本地部署使用。
- InternLM在技术水平判断容易错误,对政策影响问题多次拒答。
- 各模型在判断技术壁垒和政策影响时存在差异,部分模型存在“无中生有”风险。
各模型具体回答示例与细节分析 [page::8][page::10][page::11]
- Llama 3错误将运营能力与技术壁垒混淆。
- GPT4能严格区分报告中未提及内容,拒绝“自由发挥”。
- InternLM因多次错误回答及拒答,使用时需谨慎。
- 以唐山港、华东医药、完美世界、江苏国信、仲景食品5份研报为例,模型表现差异显著。
结论与风险提示 [page::14]
- GPT4目前仍是文本解析及推理能力最强的模型,适合复杂研报阅读辅助。
- 开源大模型如ChatGLM 3、Qwen具备较好的本地部署适应性和实用价值。
- 大模型回答结果存在随机性,投资者须结合人为判断使用。
- 测评未针对特定业务场景微调,未来不同模型在专门领域表现可能发生变化。
深度阅读
报告详尽分析报告:《金融文本解析评测:Llama3是最强开源模型吗?》
---
1. 元数据与概览
- 报告标题:金融文本解析评测:Llama3是最强开源模型吗?
- 作者:高智威(执业S1130522110003)、王小康(执业S1130523110004)
- 发布机构:国金证券研究所
- 发布日期:报告页码未具体透露出版日期,内容基于近期Llama 3发布后的市场测评
- 主题/议题:开源大语言模型(LLM)的金融文本解析能力评测,尤其针对Meta发布的Llama 3模型与市场中其它开源及封闭模型(GPT4、ChatGPT 3.5等)进行对比,评估其在金融研究报告文本分析中的应用效果。
核心论点:
- Llama 3作为Meta最新开源大模型,虽然参数量和训练数据规模较Llama 2大幅提升,且在部分主流基准测试中表现出色,但在金融研究报告文本分析应用中的表现并非最优。
- GPT4依旧在语言理解和推理准确性方面领先,有显著优势,并且回答严谨、非凭空虚构信息。
- 部分国产开源模型(如ChatGLM3和Qwen)在中文文本处理能力和引用准确性上表现较好。
- 通过在具体的五篇不同行业研报中的三个关键信息提问(研报作者的看好程度、公司技术优势判断、行业政策影响评估),揭示不同模型在分析金融文本时的长处与不足。
- 报告附带风险提示,强调大模型回答具有不确定性,需结合人工判断。
总体立意为为投资人、技术部署者提供针对开源语言模型在金融研报文本解析应用的实操评价和选择参考。[page::0,2,7,14]
---
2. 逐节深度解读
一、测评背景及设定
- 报告首先介绍Llama 3模型的技术参数:采用标准Decoder-Only Transformer架构,使用128K tokenizer;预训练用数据量达15T tokens(是Llama 2的7倍);支持8192 token上下文长度,并通过掩码技术防止自注意跨文档边界。
- 多语言能力增强,约5%为高质量非英语数据覆盖30多种语言。
- Llama 3当前8B和70B版本在多项基准测试中超过Gemma7B、Mistral7B及Claude 3 Sonnet等模型,官方计划推出400B+版本。
- 但缺点:8K上下文窗口限制影响长文本分析,尤其是在多轮复杂对话或长文理解中表现不佳。
- 选用5篇国金证券发布的、涉及交通运输、医药、传媒、电力、调味品五个不同行业的研报,提炼三类关键问题:研报作者对股票的总体看好程度、上市公司技术优势及行业壁垒判断、所处行业相关政策影响分析。通过统一的One-Shot/Few-Shot提示词设计,严格对比模型回答质量与准确性。
- 此设计充分考虑实际投研场景对文本分析模型的需求及挑战,尤其是对细节引用和逻辑推理的高度要求。[page::2]
二、国金金融文本应用评估体系设计
- 该体系核心在于:
1. 据文本提取对作者观点的定性定量评估,反映股票投资价值倾向。
2. 针对公司技术壁垒的判断,作为投资逻辑中重要的护城河指标。
3. 探讨行业相关政策落地及其对竞争格局、股票价格的潜在影响。
- 体系目的明确,力图将大模型能力转化为投资决策辅助工具,同时识别模型理解复杂文本的瓶颈。(见图表1)
- 以5篇研报摘要为基准,涵盖公司主营业务、财务表现、战略规划、行业地位及政策背景,要素详实,以保证测评的广泛性和代表性。[page::2]
三、所选研报文本与行业示例分析
- 五篇研报涵盖以下行业细节:
- 唐山港:港口主业量价齐升,特别强调产业整合对区位竞争力及分红潜力影响。详细披露了财务指标(营收净利润及增长)、区位优势、政策整合背景。主业务营收占87%,2023Q1-Q3归母净利润同比增长16%。
- 华东医药:详细描述医美及药品创新管线,四大业务驱动业绩增长。研发进展稳健,预测未来三年净利润及EPS稳定增长。
- 完美世界:影视和游戏双轮驱动营收,突出AI技术应用及新游上线对未来业绩影响。2023年毛利率与净利率变化说明业务结构调整。
- 江苏国信:煤电业务业绩反弹,金融业务贡献利润安全垫,煤价中枢下行带来成本优势,产能扩张稳步推进。
- 仲景食品:调味品行业开门红,业务结构和销售渠道协同提升业绩,关注成本优化、费率变化。
- 这些研报皆附有详细盈利预测、估值及风险提示,技术优势和政策影响隐含在文中,为模型判断技术壁垒和政策影响提供文本依据。五篇研报分布在主要传统与新兴行业,体现文本多样性(详见图表2-4)[page::3,4]
四、测评选用的开源大模型与基准模型
- 选取8个模型对文本进行问答对比,包含:
| 模型 | 厂商 | 参数量 | 是否开源 |
|------------|--------------|--------------|----------|
| Llama 3 | Meta | 8B | 是 |
| ChatGLM 3 | 智谱AI | 6B | 是 |
| Qwen | 阿里 | 7B / 72B | 是 |
| Baichuan 2 | 百川智能 | 13B | 是 |
| InternLM 2 | 上海AI实验室 | 7B | 是 |
| ChatGPT 3.5| OpenAI | 175B(传闻) | 否 |
| GPT4 | OpenAI | 1800B(传闻) | 否 |
- 重点对比包括参数规模、开源属性和算法优化。
- 强调本次评测在相同提示词和输入下展开,有利于公平横向比较模型解析金融文本的综合能力。[page::5]
五、测评结果汇总与整体表现
- 文本回答总结(图表4)显示:
- 研报作者对股票的“看好程度”模型间差异较小,受文本乐观调性影响,普遍打出高分,差异微弱。
- Llama 3、ChatGLM3、Qwen表现较为接近,InternLM和Baichuan 2略偏保守。
- 在技术水平判断问题上,InternLM易高估技术壁垒,Qwen倾向保守回答,其他模型表现参差不齐。
- 政策影响判断中,Llama 3和InternLM表现相对较弱,其他模型表现尚可。
- GPT4整体表现最优,精准准确,推理严谨,不盲目答“是”,能够就文本未覆盖内容给出否定回答,避免“无中生有”。
- Llama 3尽管训练规模大,表现中等偏弱,且无法完整中文回答影响用户体验。
- 详细批注指出InternLM对部分技术指标和政策影响的误判可能误导使用者,Llama 3在某些答案中理由牵强,混用运营能力和技术水平术语,存在逻辑不严谨现象。[page::6-7]
---
3. 重要图表解读
图表4:各模型回答总结(问题-答案矩阵)
- 展示五篇研报对应三个问题(作者看好程度、技术水平、政策影响)的不同模型答案归纳。
- 其中,明显不合事实的回答被红色标注,突出模型的错误偏差。
- 这一表格反映了模型在理解研报细节、结合文本证据判断问题的能力差异。
图表5:研报作者看好程度评分对比
- 横坐标为模型,纵坐标为评分,五个研报的评分用不同颜色表示。
- 总体看,所有模型对研报的评分都在7-10区间偏高,模型间差异不大。
- GPT4和Llama 3得分略高,InternLM和Baichuan 2评分相对较低,表明部分模型较为保守或谨慎。
- 反映了金融研报乐观基调对模型评价的影响,且模型难以精准区分细微差别。[page::7]
图表6:技术水平判断(是否存在技术壁垒)
- 图为模型“是”与“否”的判断次数。
- InternLM几乎全部回答“是”,可能过度肯定技术壁垒;Qwen系列全部否定;其他模型则更均衡。
- 显示开源模型对技术相关结论的理解存在明显分歧,对投资决策科学性影响较大。[page::7]
图表7:政策影响判断
- 类似图6,统计模型是否判定政策对行业有影响。
- ChatGLM 3、Qwen和GPT4倾向判断“有影响”更准确;Llama 3和InternLM偏向“不确定/否”。
- 反映模型在把握政策文本关键词及其对行业影响的逻辑关系时,表现差异大。[page::7]
图表8:部分模型回答原文摘录
- 展示Llama 3、ChatGLM3、Qwen 7B对唐山港、完美世界等公司技术水平和政策影响问题的具体回答文本。
- 可见Llama 3多使用英文回答,展示一定语言障碍。推理逻辑多依赖表层信息,有时答非所问。
- ChatGLM 3、Qwen回答较为细致,能够整合报告事实和财务指标进行评判。
- 反映了不同模型的表达能力及细节处理差异。[page::8-14]
---
4. 估值分析
报告涉及选用的部分研报中均包含目标股价和估值指标(具体企业如唐山港11倍PE目标价4.08元,华东医药16-12倍PE区间,江苏国信9-10倍PE等),但该部分并非本报告测评核心,故未展开详细估值模型构建讨论。
主要阐述了金融模型预测指标对投资判断的辅助作用,以及研报中分红率、盈利增长、风险提示与估值倍数的相关性等。
报告自身并不对开源模型的估值进行分析,聚焦于模型对研报解读的准确度和逻辑严谨度,大幅体现出评测的“技术解读”属性。[page::4,9]
---
5. 风险因素评估
- 大模型回答随机性风险:不同调用间回答结果不固定,需人工判别辅助,防止过度依赖自动结果。
- 领域适应性风险:模型在特定领域表现差异明显,本报告测评未专门针对模型擅长领域调整,真实使用中需谨慎。
- 错误推理风险:InternLM存在技术壁垒和政策认定错误,Llama 3表现欠佳,可能误导投资。
- 语言使用限制风险:Llama 3中文表达不足影响用户体验。
- 潜在无中生有风险:部分模型容易凭空生成与文本不符内容(如政策影响解释),须警惕。
报告未详述缓解策略,惟强调投资者应结合人工判断,且不可单独依赖模型结果作决策。[page::0,7,14]
---
6. 批判性视角与细微差别
- 模型表现不均衡:虽然Llama 3官方宣传为最强开源模型,但实际测评中其在中文答复完整性及逻辑严密性上逊色于ChatGLM 3/Qwen等国产开源模型和GPT4。
- 回答语言混用问题:部分回答以英文出现,限制实用性,尤其对中文研报用户体验不佳。
- 推理牵强与混淆概念:Llama 3错误地将运营能力等指标作为技术壁垒依据,反映模型理解欠深入。
- 无中生有倾向明显:部分模型倾向于肯定契合预期结论的答案,甚至不惜生成无文本支持的推断,如政策影响例子中的“自由发挥”,可能误导投资判断。
- 评分主观性强:分析师对作者“看好程度”的量化评分模型难以精确仿真,反映自然语言理解难度。
- 样本限制:仅5篇研报,可能限制模型在更广泛金融文本环境下的表现代表性。
- 此外,报告本身极力客观,未明显偏袒任何模型,但评述中对InternLM和Llama 3指出较多不足,体现了实事求是态度。[page::6,7,14]
---
7. 结论性综合
本报告从技术角度、应用场景及实际交互体验全方位解析了当前市场主流开源大语言模型及闭源优质模型(如GPT4)在金融研报文本信息提取、观点分析与决策辅助任务中的表现优劣。
- Llama 3模型优势与劣势并存:虽然在基准测试上技术指标优异、数据规模庞大,现实应用中词句表达和推理准确性仍有明显不足,中文回复不完整且逻辑推理欠缺,限制了其作为金融文本解析工具的实用价值。
- 国产开源模型(ChatGLM 3、Qwen)表现稳健:在中文语境下的问答能力较好,回答条理清晰,文本引用准确,适合本土化金融研报分析需求。
- GPT4保持行业标杆地位:准确性和逻辑严谨性领先,不随意生成文本外信息,对投资研究有高度参考价值。
- 模型在判断技术壁垒与政策影响问题上分歧明显:体现金融文本解析独特挑战,模型易受文本正面偏向影响,且对深层隐含信息捕捉有限。
- 风险提示强调慎用:大模型结果带有随机性,需结合人工专业判断,避免误判影响投资决策。
综上,报告建议用户根据实际使用需求和语境选择合适模型,尤其大型封闭模型(GPT4)仍为复杂任务的首选,而部分国产开源模型具备较高性价比,Llama 3虽有潜力,但当前版本尚不能替代市场主流优质模型。
该报告为金融投资者及技术应用部署者提供了宝贵的模型解析能力参考数据与选型建议,具有较强的行业实践意义和前瞻价值。[page::0-15]
---
总体评价
作为投研语言模型能力测评报告,此份文件结构严谨、数据详实、论证充分,合理结合金融业务背景解读技术模型性能,并通过翔实的图表数据支持,每项评判均植根于清晰的文本依据,体现了高度的专业性与严谨性。
---