`

人工智能助力量化投资——ChatGLM 介绍

创建于 更新于

摘要

本报告系统介绍了开源大语言模型ChatGLM-6B的基本原理及其在量化投资中文本处理中的应用潜力。通过对比ChatGLM与ChatGPT在推理能力及文本总结任务上的性能表现,指出其在高阶逻辑推理方面存在不足,但在简单文本总结方面展现了较好性价比。此外,报告强调ChatGLM可在本地消费级显卡部署,支持微调定制,有望在金融领域实现针对性优化,提升量化研究效率与效果,为量化投资开辟新的辅助路径[page::0][page::4][page::9][page::13]。

速读内容


大语言模型在量化投资中的机遇与挑战 [page::0][page::1]

  • ChatGLM为一个62亿参数的中英双语开源大语言模型,适合本地消费级显卡部署,解决了API调用中响应延迟高、成本贵、数据隐私等问题。

- 其表现虽不及ChatGPT在高阶推理任务,但在文本分类、摘要等简单任务中性能接近CHATGPT,适合辅助量化文本处理。
  • 开源社区持续活跃,为定制化和本地部署提供了可能性。


大语言模型原理及ChatGLM架构特点 [page::4][page::5][page::6][page::7]

  • LLM基于Transformer架构,主要训练方法包括自回归、自编码和编码器-解码器三种,ChatGLM采用GLM框架结合自回归和自编码方法,实现了上下文信息完整利用。

- ChatGLM-6B拥有62亿参数,采用中英双语1:1比例训练,支持长度达2048的序列,部署门槛低,配合量化技术显存需求最低6GB。
  • 模型训练引入监督微调、反馈自助及人类反馈强化学习(RLHF),使模型具备较强的人类意图理解能力。


ChatGLM与ChatGPT模型能力对比测试 [page::9][page::10][page::11][page::12][page::13]

  • 推理逻辑测试中,ChatGLM表现出基本的知识储备能力,能完成简单推理任务,但复杂逻辑推理存在明显不足,与ChatGPT存在差距。

- 文本总结测试显示,ChatGLM在抽取关键信息、重组表达方面表现尚好,结果较ChatGPT略逊但差异不大。
  • 该差异表明ChatGLM更适用于传统的文本处理场景而非高阶推理。


应用展望与风险提示 [page::0][page::13]

  • ChatGLM具备本地微调与部署优势,可通过特定领域数据进行定制优化,未来有望在金融量化文本分析、数据提炼等环节提升效率。

- 本报告中的所有模型回答均基于公开数据,本文不构成投资建议,提示使用者注意相关风险。

深度阅读

金融工程专题报告解析 ——《人工智能助力量化投资——ChatGLM 介绍》



---

一、元数据与概览


  • 报告标题: 人工智能助力量化投资——ChatGLM 介绍

- 发布机构: 华创证券研究所
  • 作者及联系方式: 秦玄晋、王小川

- 发布日期: 2023年(具体日期未详)
  • 主题: 探讨基于开源大语言模型ChatGLM在量化投资领域的应用价值、能力边界及前景。

- 核心论点:
- 大语言模型(LLM)尤其是ChatGPT展现了强大的文本处理和推理能力,但基于API的服务成本高昂且存在响应延迟与数据隐私问题。
- ChatGLM作为开源的中英双语大语言模型(62亿参数,远小于ChatGPT),可以部署于本地消费级设备,成本更低,且便于针对特定领域进行微调。
- 虽然ChatGLM推理能力有限,但在文本总结、分类、信息抽取等基础文本任务能够达到较好的性价比,是量化文本数据处理的可行工具。
- 未来随着开源模型社区发展,辅助量化研究的路径将更加多样和广阔。
  • 风险提示: 本文测试基于公开数据,问答结果不保证完全准确,不构成投资建议。[page::0,1]


---

二、逐节深度解读



1. 投资主题及逻辑(第1页)


  • 报告指出当前市场风格快速轮动,传统基于基本面因子及简单量价因子的量化模型效果下降,急需引入人工智能提升量化模型的表现。

- 大语言模型,尤其开源模型正为量化文本数据处理带来新机遇。该报告立足于开源ChatGLM对量化领域文本处理的辅助价值进行探讨和测试验证。[page::1]

2. 大语言模型简介(第4-7页)


  • 概念: LLM基于深度学习,采用Transformer结构,在大规模语料上训练,拥有大量参数,实现从简单语言建模到复杂语境理解的“能力涌现”。

- 代表模型: GPT系列,GLM框架等。ChatGLM基于GLM,结合了自回归(GPT)与自编码器(BERT)训练思想。
  • 开源LLM项目对比(图表1): 介绍了多个中文开源项目如ChatGLM(62亿参数)、MOSS(160亿参数)、Chinese-LLaMA-Alpaca、BELLE等,展现目前中文开源模型的多样性和发展态势。

- 开源模型优势: 可本地部署,响应速度快,低成本,支持私有数据微调以增强领域适应能力,避免API隐私和费用问题。
  • 训练方法详解(图表2、图表3):

- 自回归:按顺序预测后续词汇,文本生成连贯但速度受限。
- 编码器:依据上下文理解能力强,但生成能力弱。
- 编码器-解码器:适合翻译、摘要。
- GLM框架融合自回归和自编码优势,能多任务训练,预测时利用上下文完整信息,支持双语训练。
  • 进一步技能提升: 通过引入监督微调和强化学习(RLHF技术),如OpenAI的InstructGPT,改进模型对指令的理解和回答质量,实现更符合人类意图的对话生成(图表4)。

- ChatGLM特点(图表5):
- 62亿参数,1:1中英双语,训练内容丰富。
- 部署门槛低,支持INT4量化,消费级显卡即可运行。
- 序列长度2048,支持较长对话。
- 采用监督微调、反馈自助及人类反馈强化学习对齐人类意图,输出格式友好(Markdown)。
  • 示范应用(图表6、7): 包括信息抽取(如会议人物时间地点实体识别)、文章提纲写作等,展现ChatGLM的多样文本处理能力。

[page::4,5,6,7,8]

3. 模型能力测试(第9-13页)


  • 针对量化投资实际需求,重点考察ChatGLM的知识储备、推理能力及文本总结表现。

- 推理能力测试:
- 简单逻辑推理(图表8-9):ChatGLM能够正确回答基础的事实及逻辑推理问题。
- 复杂逻辑推理(图表10-12):GPT-4虽偶有误答但整体表现优异。ChatGLM在复杂任务中的表现较弱,如对复杂科学论证题目判断错误,推理逻辑不足。
- 案例对比显示ChatGLM尚难胜任复杂推断任务,远低于具备百亿参数以上模型表现。
  • 总结能力测试(图表14-15):

- ChatGLM在文本摘要任务中较为合格,能够抓住关键信息,输出较为连贯的中文总结,而ChatGPT表现较为精炼和条理清晰。
- 总体而言,在非推理型、信息提取与文本总结等基础任务上,ChatGLM和ChatGPT的回答差距显著缩小。
  • 结论:

- ChatGLM适合完成基础文本处理类任务,推理和复杂知识应用能力有待提升。
- 由于参数规模较小,门槛低,易于对模型进行金融领域特定任务的微调,未来可针对性扩充知识储备和功能。
- ChatGLM作为辅助工具,适合在量化投资文本分析体系中与更强模型形成互补。
[page::9,10,11,12,13]

4. 风险提示(第14页)


  • 模型测试依赖公开数据,结果不可保证准确,且问答不构成任何投资建议。使用时需结合具体情境谨慎评估。[page::0,14]


---

三、图表深度解读



图表1:中文开源LLM项目简介


  • 汇总了当前GitHub星标超过3K的主要中文开源大语言模型,包括ChatGLM、MOSS、Chinese-LLaMA-Alpaca等,介绍项目背景、参数规模和主要特色。

- 体现目前开源项目多样化及参数规模不及OpenAI大模型,但在特定领域和本地部署方面具备独特优势。[page::4]

图表2:三大类训练方法对比


  • 自回归、编码器、自编码器-解码器三种训练方法在文本生成及理解能力上的优劣。

- ChatGLM采用结合两者优点的GLM框架,理论上能更好利用上下文信息,提升文本生成灵活性和准确性。[page::5]

图表3:GLM框架示意图


  • 利用遮罩标记的自回归空白填充方法,通过遮盖文本块,模型接收上下文信息,逐步恢复原始文本。

- 优势在于可以利用上下文双向信息,强化模型多任务学习能力。
  • 该框架对应于GLM-130B优于GPT-3的表现示例,虽ChatGLM规模较小,但继承其训练思路。[page::6]


图表4:GPT-3与InstructGPT对比示例


  • GPT-3回答偏离题意,无法理解“向6岁儿童解释登月”问题,而InstructGPT基于人类反馈强化学习后,答案准确且符合预期。

- 说明模型微调和人类反馈的重要性,是后续ChatGLM训练路径参考对象。[page::6]

图表5:ChatGLM-6B模型特点


  • 充分中英双语数据,约1T tokens,62亿参数,兼顾性能和部署便捷性。

- 低显存需求(6GB),便利边缘计算与本地部署。
  • 增强对话交互能力,支持长文本对话序列。

- 结合多重微调方法对标人类意图,输出友好[page::7]

图表6:ChatGLM信息抽取示例


  • 针对会议内容提问,模型能够准确识别人名、职位、时间、事件及地点,且结构化输出JSON格式。

- 展现ChatGLM在典型信息抽取及结构化任务上的应用潜力。[page::8]

图表8-15:模型推理与总结测试对比


  • 推理简单问题(图8-9): ChatGPT与ChatGLM均准确回答。

- 推理复杂问题(图10-13): GPT-4表现更优,ChatGLM出现明显错误和逻辑不当。
  • 文本总结(图14-15): 两者均能抓取关键信息,ChatGPT总结更为精炼,ChatGLM稍显冗长和断裂。

- 数据表明ChatGLM具备基本文本处理能力,但在核心推理能力上仍显不足,限制了其在复杂量化投资场景中的单独应用。[page::9-13]

---

四、估值分析


  • 本报告主要聚焦技术介绍及应用测试,未涉及对ChatGLM或关联企业的财务估值或投资评级,故无估值部分。[page::全文]


---

五、风险因素评估


  • 主要风险为模型性能限制,即ChatGLM受参数规模及训练数据限制,推理和复杂逻辑能力不足。

- 测试问答基于公开数据,不能保证准确性,存在模型“幻觉”或错误理解风险。
  • 文中明确声明问答不构成投资建议,使用者需保持审慎态度。

- 开源模型虽然便利但技术成熟度尚不足,实际应用中可能遭遇部署难题、微调成本及隐私安全风险。
  • 报告未给出详细缓解方案,建议持续跟踪社区最新进展和技术迭代。 [page::0,14]


---

六、批判性视角与细微差别


  • 模型局限: 报告客观呈现ChatGLM性能不足,尤其在复杂推理任务和知识运用方面的弱点,避免过度夸大开源模型能力。

- 偏重文本处理: 重点测试文本总结和信息抽取,量化实战中涉及的时序数据处理、因子模型集成等方面未讨论。
  • 对比有限: 与ChatGPT性能差异通过片段对比呈现,但缺少量化性能指标、准确率、召回率等具体评测数据,不利于深度性能评价。

- 未来展望带乐观色彩: 报告较积极地认为未来开源社区发展会显著提升辅助研究的可能性,实际丰厚成果仍需时间观察。
  • 使用情景多限于量化文本分析,复杂金融决策辅助则需更强模型或结合其他技术手段。[page::全文]


---

七、结论性综合



本报告系统介绍了大语言模型在量化投资文本处理的应用潜力,核心聚焦ChatGLM-6B开源模型。报告认定:
  • ChatGLM凭借62亿参数及中英文双语预训练,实现了在本地消费级硬件上的部署可能,降低了使用门槛和运营成本。

- 在基础文本处理任务(文本总结、信息抽取)中,ChatGLM表现较好,能够胜任日常文本分析需求,与ChatGPT差距不大。
  • 在复杂推理、逻辑判断和较高级别知识应用方面,ChatGLM能力有限,远逊于OpenAI的GPT-4和ChatGPT,推理错误时有发生。

- 开源模型微调灵活,研究及投资者可针对金融领域任务,利用私有数据微调模型,从而有效扩张模型知识边界和适用场景。
  • 由开源社区活跃度和技术不断进步驱动,开源LLM有望成为量化投资领域辅助研究的重要补充工具。

- 报告多处通过详尽图表展示对比实验及示例输出,为量化投资从业者提供了清晰的技术理解和应用导向。
  • 风险方面,明确提示了问答准确性不可保证,劝诫投资者理性使用。


综上,该报告立足于技术层面,科学评估了ChatGLM的能力和限制,确认其在量化投资文本分析中的辅助价值和发展前景,同时提醒风险和实际应用中存在的挑战,是对开源LLM在金融领域应用探索的重要参考文献。[page::0-14]

---

总结图示



-

-

-

以上为本报告详尽分析及解读,供投资者和研究人员参考。

报告