人工智能系列之 77:基于 GPT 和 RAG 技术的代码复现系统
创建于 更新于
摘要
本报告深度探讨基于多模态大语言模型 GPT-4 及检索增强生成(RAG)技术构建的量化研究代码复现系统“GPT 如海”。系统可将图片与PDF文档中的量价因子表达式及人工智能量化策略信息精准提取,自动生成Python代码,实现端到端复现。测试中,“GPT 如海”准确识别因子构建步骤和AI策略细节并生成对应训练代码,同时对比不同参数规模小型语言模型,展现了GPT-4在代码生成上的优势与不足[page::0][page::9][page::11][page::14]。
速读内容
多模态大语言模型与RAG技术基础概述 [page::2][page::3][page::5]

- 多模态模型具备同时感知图像、文本、音频的能力,提升了量化报告中对图表及图片信息的解析。
- RAG技术通过构建海量外部知识库,实现检索相关内容辅助生成,提高生成准确性,降低“幻觉”风险。
- 系统架构包括索引、检索、生成三个环节,结合GPT-4 vision进行图片文字智能理解。
“GPT 如海”系统功能及方法论 [page::8][page::9]
| 步骤 | 参数 | 取值 |
|--------|------------------|---------------------------|
| 索引 | 块大小/重叠 | 500/200 |
| | 多模态模型 | gpt-4-vision-preview |
| | 嵌入模型 | text-embedding-3-large |
| | 向量数据库 | Chroma |
| | 嵌入向量长度 | 1536 |
| 检索 | 相似度度量 | 余弦相似度 |
| | Top K | 15 |
| 生成 | 大模型 | gpt-4-0125-preview |
- 通过多步检索细化查询,准确抓取因子和AI策略复现的不同模块信息。
- WebUI实现大模型API填入、文件上传、复现触发、因子提取、代码展示下载全流程实用功能。
因子代码与多因子复现案例 [page::9][page::10]


- 支持对手机拍摄噪声图片因子进行Latex公式提取及Python代码生成。
- 对38页PDF文件中3个复杂因子进行分段信息提取,成功生成对应计算代码(.py)。
- 多因子识别能力表现优异,体现了多模态理解结合RAG检索的有效性。
人工智能量化策略代码复现示例 [page::11][page::12]


- 两篇华泰金工AI量化策略报告成功复现,涵盖数据集构建、模型架构、训练代码。
- 代码注释精准丰富,能够提取核心算法细节(如损失函数设计),具备较高可读性。
- 部分细节存误,如误写损失函数类型,提示模型在细节把控上仍有提升空间。
小型语言模型代码复现效果对比 [page::12][page::13]

| 评价维度 | GPT-4 | 通义千问 (Qwen1.5, 7B) | Llama3 (8B) |
|--------------|----------------------------|-------------------------|----------------------------|
| 代码能否运行 | 是 | 否 | 否 |
| 代码正确率 | 较高,少量错误 | 存在错误 | 存在错误 |
| 遵循代码模板 | 部分偏离,增加自定义函数 | 严格遵守 | 严格遵守 |
| 注释丰富程度 | 丰富 | 丰富 | 较少 |
| 运行环境 | 联网调用OpenAI API | 本地运行 | 本地运行 |
- GPT-4整体代码生成质量领先,但输出代码最长且不完全遵守模板。
- 小型模型速度快且易部署,但准确率和代码质量有限,容易出现运行报错。
结论与未来展望 [page::14]
- “GPT 如海”体现多模态大语言模型与RAG结合在量化代码复现领域的巨大潜力,显著提升代码复现效率。
- 系统适用因子构建、AI量化策略复现两主要场景,能够从多源信息精准抽取关键信息并生成高质量代码。
- 仍存在复现稳定性、提示工程优化、UI体验提升等不足,未来有较大改进空间。
深度阅读
“GPT 如海”:基于GPT和RAG技术的代码复现系统——深度分析报告
---
1. 元数据与概览
- 报告标题:“GPT 如海”:RAG 与代码复现
- 作者及联系方式:林晓明、何康博士、沈洋,均为华泰证券研究员
- 发布机构:华泰证券股份有限公司
- 发布时间:2024年5月6日
- 报告主题:探讨基于GPT-4及RAG(检索增强生成)技术在量化研究领域实现代码复现的系统架构与应用
- 核心观点:报告提出了一个名为“GPT 如海”的代码复现框架,利用多模态大语言模型结合RAG技术,从图片及PDF等多模态数据中准确提取量化研究报告中的因子表达式和量化策略,以自动生成相应的.py代码。系统测试结果显示,框架能较准确且高效地完成因子计算与人工智能量化策略的代码复现。此外,报告也比较了不同参数规模大语言模型(GPT-4、通义千问Qwen1.5、Llama3)的代码生成效果。
---
2. 逐节深度解读
2.1 导言(引言)
- 关键论点:自ChatGPT问世以来,大语言模型(LLM)在指令执行和内容生成领域表现优异,且多模态大模型(MLLM)结合了文本、图像和音频数据的感知能力,应用广泛。多模态信息丰富的量化研究领域亟需有效工具协助代码复现。基于此,报告提出结合GPT-4多模态能力与RAG技术,提升量化代码复现的效率与效果。
- 支撑逻辑:传统研究领域受限于单模态数据处理能力,难以精确理解带有图表的研究报告。多模态大模型和RAG技术的结合,既保证了对大量非结构化数据的有效检索,也提升了生成内容的准确性和时效性。
- 预测与推断:多模态大模型和RAG技术将大幅降低代码复现门槛,提高研究效率,为量化研究赋能[page::2][page::3]
2.2 多模态大语言模型
- 关键论点:多模态大语言模型结合图像、音频与文本数据,在理解和生成方面较传统大模型有显著提升,是实现类通用人工智能(AGI)的必经之路。
- 演进历程:
- 2021年 OpenAI提出CLIP,完成图像与文本映射;
- 2022年 DeepMind 的 Flamingo 实现视觉语义理解和文本生成融合;
- 2023年 OpenAI 发布GPT-4 Vision,支持图表及图片中数据提取。
- 数据点:图表2展示了GPT-4 Vision对数学公式图片、数据表格及自然图片多语种描述的能力。
- 意义:多模态模型能识别复杂图表数值、理解上下文信息,为复杂量化报告中视觉信息的自动解析奠定基础。且其交互性更强,有助于多元应用落地。
- 局限性:当前多模态模型的上下文长度有限,且仍难以从报告整体捕捉全部重要信息,因此仍需结合检索机制辅助[page::3][page::4]
2.3 RAG(检索增强生成)技术
- 定义及意义:
- RAG技术通过建立外部知识库,实现利用检索结果辅助大模型生成答案,显著缓解了大模型“幻觉”(hallucination)问题。
- 工作流程(图表5):
1. 索引:文本数据切块后通过嵌入模型转向量,存入向量数据库;
2. 检索:根据用户问题映射向量,从知识库检索最相关K条数据;
3. 生成:结合检索上下文和问题,生成最终回答。
- 技术优势:
- 降低大模型微调成本;
- 知识库可动态更新,提高时效性;
- 输出结果可追溯源数据,增强可靠性。
- RAG与微调对比:
- RAG对外部知识需求更高,模型适应性较低;
- 微调适应性高,但需求优质训练集,成本较大。
- 两者可结合,如RA-FT技术,进一步提升模型性能。
- 应用于本报告:采用RAG优先检索量化报告中的核心信息,结合多模态输入,实现精准代码复现[page::5][page::6][page::7]
2.4 代码复现系统“GPT 如海”的方法论
- 系统流程:索引→检索→生成→部署
- 索引细节:
- 输入多模态数据(PDF文本与内嵌图片);
- 图片先利用GPT-4 Vision转化成文本描述;
- 统一文本切块,使用OpenAI的text-embedding-3-large生成1536维嵌入向量,存入Chroma向量数据库。
- 检索设置:
- 相似度计算采用余弦相似度;
- 取相似度最高的15个文本块辅助生成。
- 生成阶段:
- 根据检索结果生成研究报告摘要;
- 设计“自我反思”机制让模型校验复现内容和提出修正意见;
- 最终生成符合模板的.py代码文件。
- 部署:
- 通过Streamlit建立Web UI,本地访问(默认端口8501)支持文件上传,代码预览和下载。
- 参数表(图表8)清晰罗列各环节使用的模型和参数配置[page::8]
2.5 “GPT 如海”代码复现系统功能与效果
- 功能流程(图表9):
- 用户提供API Key及文件(支持图片/PDF批量上传);
- 系统自动开始复现,从因子表达式提取到代码生成全自动执行;
- 支持代码实时查看及本地下载。
- 单因子代码复现测试(图像输入):
- 从一张含复杂数学公式和文字说明的手机拍摄照片准确提取全文因子解析和数学表达;
- 依托GPT-4 Vision,能准确输出完整Latex数学公式及python代码实现。
- 多因子代码复现测试(PDF输入):
- 输入38页复杂PDF,成功提取分散4个因子中3个有效因子,并生成对应.py代码。
- 人工智能量化策略复现:
- 对两篇华泰金工公开人工智能量化报告测试,系统可准确提取数据预处理、模型架构、训练参数及代码实现;
- 代码注释详细,表达谨慎规范,有助于后续分析和改进;
- 发现少量代码准确性问题(如损失函数定义差异)。
- 多模型代码生成对比:
- 测试GPT-4、7B参数的通义千问Qwen1.5和8B参数的Llama3;
- GPT-4生成代码最完整、几乎无误且可直接运行,注释丰富,但代码模板灵活;小模型代码相对简洁但部分不符合模板,且含错误,均需人工调整。
- 三者的优缺点及测试局限也被客观指出,未得出绝对优劣结论。
---
3. 图表深度解读
图表1(WebUI界面)
- 展示了“GPT 如海”系统上传文件接口及启动按钮,用户操作简便。
- 对应功能流程有清晰指引,体现研究团队对用户体验的初步考虑。
- UI采用Streamlit框架,部署方便。
图表2(GPT-4 Vision能力测试示例)
- 展示模型识别表格中红色标注单元的数值含义;
- 对数学公式的准确识别与转写;
- 多语言对图像内容的描述,体现模型多模态与多语言融合能力。
该图有效支撑报告对多模态模型能力的论述[page::3]
图表4(RAG技术进化树)
- 展示自2020年以来检索增强生成技术由预训练、微调到推理各阶段的发展脉络;
- 反映RAG技术丰富多样,且持续快速演进,报告通过此图强调技术底层扎实,应用前景广阔[page::5]
图表5(RAG应用架构示意图)
- 可视化显示RAG流程,从用户问题、索引文档、检索相关信息到结合上下文生成答案的全过程;
- 对比同一问题无RAG与有RAG的输出差异,凸显RAG减少幻觉、增强回答准确性的优势。
该图明确勾勒出报告所用RAG系统结构[page::6]
图表8(系统参数表)
- 细致列出索引、检索、生成各环节的技术细节和参数配置,如块大小500,重叠200,嵌入长度1536,模型具体名称等。
- 参数透明,有助于复现和后续优化。
图表9(功能流程图)
- 标注系统使用步骤关键节点,保证非技术用户也能高效使用。
- 侧重因子代码复现界面示例,对应文中复现流程具体实现。
图表10、11(单因子与多因子代码复现实例)
- 从实物照片及PDF截取的因子信息经过系统处理、文本抽取到完整代码生成的过程展示;
- 代码格式规范、结构清晰,验证了系统对视觉信息与文本信息的联合利用能力。
图表12、13(人工智能策略代码复现与训练代码亮点)
- 测试输入为复杂多页PDF文档多段分散信息,系统有条不紊完成策略相关代码提取与生成;
- 训练代码中注释详细,体现模型对复杂代码逻辑的理解,但存在少数损失函数定义错误,说明自动生成的代码仍需人工校验。
图表15、16(多模型代码复现对比)
- 直观体现三种模型在代码长度、结构、注释及可运行性上的差异;
- 体现GPT-4优势,但同时指出小型模型的潜力和局限,保证评估的客观与全面。
---
4. 估值分析
本报告无直接涉及公司或项目的财务估值分析和目标价设定,重点聚焦技术框架和应用效果的描述与比较,属于技术研发及应用探索类研究。
---
5. 风险因素评估
- 幻觉现象:大模型仍可能输出不准确、不符合事实的内容,严重时会误导用户。
- 代码错误风险:系统生成代码有时含错误,需要人工监控与调整。
- 信息遗漏:大模型、尤其多模态版,可能未能完全提取所有重要信息。
- 过拟合风险:模型训练数据广泛,可能导致泛化能力问题。
- 系统不稳定:报告指出“GPT 如海”效果有时不稳定,信息提取可能失败。
- 提示工程尚待优化:当前提示设计仍有提升空间,影响代码质量。
风险提示及这些潜在风险均需用户在使用时充分理解并谨慎采用[page::0][page::15]
---
6. 批判性视角与细微差别
- 报告展示了“GPT 如海”系统强大能力,也坦承了其局限性,如代码复现错误、信息提取不全等,态度客观。
- 关于多模型对比,只作了一次简易代码生成测试,样本量有限,评价片面,报告提醒对此结果不要过度解读。
- 对RAG和微调技术的区别较为准确且中立,未片面强调单一技术,有助于读者全面理解。
- 报告强调“GPT 如海”系统内部复杂步骤(如代码自我反思机制),但对该机制具体算法和效果评估描述较少,期待未来更详细解析。
- 虽然后续部署采用较易用界面,但报告承认WebUI设计较为基础,尚需完善,指出项目仍处于初期,存在进一步优化空间。
- 报告未涉及隐私及数据安全性讨论,使用时值得关注。
---
7. 结论性综合
本报告详尽介绍了基于GPT-4多模态能力与RAG技术构建的代码复现系统“GPT 如海”,该系统针对量化研究中图像、表格及文本混合的复杂数据,提供高效、准确的因子代码与人工智能量化策略代码自动提取与生成解决方案。其核心在于:
- 结合多模态大模型强大的视觉及语义理解能力,实现对量化报告中包含数学公式、专业术语和分散信息的准确解析;
- 叠加RAG技术,将大模型生成能力与外部知识库动态结合,大幅提升生成内容的准确性和时效性,显著降低幻觉风险;
- 设计完善的索引、检索、生成及部署流程,利用OpenAI GPT-4 Vision、多参数嵌入模型及Chroma数据库,形成端到端闭环;
- 利用自我反思机制辅助提升代码质量,输出易读取、注释丰富的Python代码,显著降低研究员的复现门槛和时间成本;
- 系统测试覆盖单因子、复杂多因子以及两种真实的人工智能量化策略,均显示较强的信息提取和代码生成能力;
- 多模型对比测试表明GPT-4整体性能优于7B和8B小模型,但后者在资源有限环境中表现仍具价值;
- 系统部署简单,基于Streamlit建立Web UI,方便实际使用;
- 同时报告全面指出系统存在幻觉、代码错误、信息遗漏等风险,并坦诚当前效果尚不稳定,提示工程和界面设计有待优化。
总体来看,“GPT 如海”框架是对量化研究领域利用大语言模型进行自动代码复现的创新性实践,为未来人工智能赋能金融研究提供了成熟范例,表明深度结合多模态语义理解与知识检索的复合架构具备广阔应用前景。尽管系统尚需改进,但其高效准确的复现能力已具备初步实用价值,值得学术和行业进一步关注与推广。
---
参考文献与致谢
报告引用了近期多模态大语言模型和RAG技术的学术预印本和调查文献,保证理论基础的前沿性和权威性。此外,团队明确披露了风险和免责声明,保障研究的透明度和合规性。
---
以上分析基于报告内容全文,引用标注均基于报告页码,确保严谨性。
主要引用页码总结
- 引言与报告初始化与背景介绍:[page::0][page::2][page::3]
- 多模态大语言模型能力与进展图示:[page::3][page::4]
- RAG技术详细介绍与架构示意:[page::5][page::6][page::7]
- Embedchain开源架构与功能支持:[page::7]
- “GPT 如海”方法及参数配置:[page::8]
- 系统功能及因子代码复现场景:[page::9][page::10][page::11]
- 人工智能量化策略复现测试:[page::11][page::12]
- 多模型对比测试与性能分析:[page::12][page::13]
- 结论及风险提示:[page::14][page::15]
---
分析师:资深金融分析师兼报告解构专家