Advancing Financial Engineering with Foundation Models: Progress, Applications, and Challenges
创建于 更新于
摘要
本文系统回顾了金融基础模型(Financial Foundation Models, FFMs)的发展与应用,涵盖金融语言、时间序列和视觉语言三大类模型,详述其架构、训练方法和数据集。通过分析典型模型的技术路线及关键应用案例,本文指出FFMs在金融文本理解、市场预测及多模态推理中的优势,同时剖析了数据稀缺、模型幻觉及高昂计算成本等挑战,提出未来研究方向和发展机遇。报告结合丰富图示阐释了FFMs如何推动金融工程智能化进程,为学术界与产业实践提供了全面参考和指导 [page::0][page::1][page::2][page::3][page::7][page::10][page::12][page::14]
速读内容
核心金融基础模型分类与发展脉络 [page::0][page::3][page::7]

- FFMs主要分为金融语言模型(FinLFMs)、金融时间序列模型(FinTSFMs)和金融视觉语言模型(FinVLFMs)。
- FinLFMs经历了BERT风格、GPT风格和推理增强型三代模型;FinTSFMs分为从头训练和基于语言模型适配两类;FinVLFMs通常采用视觉编码器、视觉投射器和基础语言模型的三阶段结构。
量化训练方法与公开数据集综述 [page::4][page::5][page::8][page::11]

| 模型 | 方法 | 训练数据规模 | 开源情况 |
|--------------|------------------|----------------------------|--------------|
| BloombergGPT | 从头训练 + 微调 | 约700亿Tokens | 否 |
| PIXIU | 微调 | 13.6万条金融指令 | 开源 |
| TimesFM | 时间序列预训练 | 多源时间序列及合成数据 | 开源 |
| Fin-TimesFM | 持续预训练 | 股票、币种等多样时间序列 | 开源 |
| Time-LLM | 微调适配 | 公开时间序列数据集 | 开源 |
| SocioDojo | 非训练 | GPT-3.5/4赋能 | 开源 |
- FinLFMs普遍遵循预训练、监督微调及调校三阶段流程,强调符合金融合规与推理能力。
- FinTSFMs尚处探索阶段,训练策略多样,公开时间序列及视觉语言相关数据资源有限。
视觉语言模型架构与训练范式 [page::10][page::11]

- 光学信息编码器负责图表、报表等多样金融视觉数据的特征提取。
- 使用视觉投射层对视觉向量进行语义空间对齐,随后基于高性能FinLLM生成符合金融语境的答案。
- 训练流程包括视觉语言对齐预训练和监督微调,配合多样小规模视觉问答数据集。
FFM在金融领域的主要应用场景 [page::12][page::13]
- 金融数据结构化:利用FFMs实现双语理解、关系抽取及财报表格解析,提升数据处理效率。
- 市场预测:FinTSFMs对价值在险(VaR)预测展现优越性能,普通LLM辅助多源情绪驱动的交易信号生成和投资分析。
- 交易决策支持:集合检索增强生成(RAG)框架的金融助手系统,实现合规问答及风险控制。
- 多智能体系统:利用LLM模拟不同投资者行为及市场流动性,增强市场交互仿真能力。
量化因子与策略构建(涉及FinTSFMs的应用)[page::7][page::8][page::13]
- TimesFM及其金融领域变体通过大规模时间序列预训练,支持尾部风险预测及波动率估计,有效挖掘市场微观结构信息。
- LLM适应时间序列模型借助提示改写及微调,提升跨模态序列推理能力。
- 相关数据集包括Google股价、S&P 500指数、加密货币价格及新闻+价格融合数据集FNSPID,构建多样市场预测基准。
当前FFM面临的挑战及未来研究方向 [page::14]
- 数据层面:多模态金融大数据缺失,隐私限制严重,合成数据及联邦学习为突破口。
- 算法层面:幻觉现象及事实不一致性问题突出,需结合知识图谱和检索增强技术。
- 计算基础设施层面:训练与推理成本高昂,轻量模型蒸馏及大-小模型协同方案成为发展趋势。
深度阅读
深度分析报告:《Advancing Financial Engineering with Foundation Models: Progress, Applications, and Challenges》
---
1. 元数据与概览
报告标题: Advancing Financial Engineering with Foundation Models: Progress, Applications, and Challenges
作者: Liyuan Chen 等(来自清华深圳国际研究生院、E Fund Management、香港理工大学等机构)
发布时间: 结构显示研究覆盖时间至2025年6月,最新引用参考为2025年1月及之后的文献,推测报告发布于2025年。
主题领域: 金融工程结合基础模型(Foundation Models,以下简称FMs)技术的进展、应用和挑战。
核心内容摘要:
本报告是一篇金融领域基础模型(FFMs,Financial Foundation Models)的综合性综述,重点涵盖三大类别:金融语言基础模型(FinLFMs)、金融时间序列基础模型(FinTSFMs)和金融视觉-语言基础模型(FinVLFMs)。报告梳理了其模型架构、训练方法、数据集、实际应用,并深入探讨了现阶段数据、算法与基础设施等关键挑战。此外,作者提出了未来研究方向,旨在促进金融工程中的基础模型创新和落地。
核心论述与目的: 寻求系统化金融领域基础模型的发展轨迹,提供全面视角以便学术界与实务界快速理解当前状态,促进后续发展和创新。
---
2. 逐节深度解读
2.1. 引言与背景(Section 1)
- 核心观点:
1) 金融工程为金融系统现代发展的基础,涉及复杂金融产品设计、风险管理及决策支持。
2) 传统金融AI系统多为任务专用,面临数据异构性及计算复杂性挑战。基础模型(如GPT-4、Gemini等)引入为金融智能提供“通用”能力,适合多任务、跨模态环境。
3) 金融领域对合法合规、多模态、多时序和隐私保护的特定需求推动了「金融基础模型(FFMs)」的兴起。
4) FFMs分为三类:语言模型(FinLFMs)、时间序列模型(FinTSFMs)及视觉语言模型(FinVLFMs),各自针对金融文本、金融时序数据和金融图表结合文本的多模态任务。
5) 图1(金融AI范式转变图示)明显展现传统“单模型-单任务”向“多任务-多模态基础模型”的演进。
- 理由依据:
- 领域复杂性与多样性促使模型从单一专用转向通用基础模型。
- 金融数据形态多样且受监管约束,通用模型需针对金融场景定制训练和调优。
- 关键数据与事实:
- 建立时间从2018年BERT问世算起,至2025年涵盖多种开源和商业模型。
- 预测与展望:
- 未来FFMs将兼顾可扩展性、推理能力和多模态融合,成为金融智能核心支撑。
2.2. 金融语言基础模型(FinLFMs)(Section 2)
- 模型分类(2.1节)
1) Bert-style FinLFMs(早期典型):如FinBERT系列、FLANG、BBT-Fin等,侧重通过持续预训练获得金融文本理解能力。
2) GPT-style FinLFMs(近期主流):基于生成式模型如BloombergGPT、FinQwen、InvestLM、FinGPT等,依托LLaMA、BLOOM等大型开源架构,融合大规模金融语料和指令调优。
3) 推理增强型FinLFMs(未来趋势):结合链式思维(CoT)等技术,实现复杂推理和多步骤决策,如FinX1、Fin-o1等。
- 训练方法(2.2节)
- 预训练(PT): 从零训练或连续预训练(CPT),数据规模庞大,绝大多数需依赖产业资源支持。
- 监督微调(SFT): 以高质量金融专属指令数据进行任务适配,规模从数千到百万级,强调任务导向和指令遵循。
- 对齐(Alignment): 利用强化学习(PPO)、奖惩机制确保符合法规、减少幻觉和增强因果推理,代表作有XuanYuan3、Baichuan4-Finance等。
- 关键数据点:
- BloombergGPT模型体量约500亿参数,训练数据超过7000亿token,成本高昂。
- Open-source项目如PIXIU、CFGPT提供7B-70B参数版本。
- 训练方法多样,公开与非公开项目并存。
- 数据集(2.3节)
- 分历史阶段与语言覆盖:
- 早期为专任务小规模英文数据集(FPB、FiQA、ACL18、CIKM18等)。
- 中期整合多任务中英文数据集(FLUE、FLARE、FinEval、CFBenchmark、FinanceIQ等)。
- 近期关注跨语言和现实场景(ICE-FLARE、CFLUE、FinBen、AlphaFin、M3FinMeeting等),规模与任务复杂度大幅提升。
- 总结(2.4节)
FinLFMs在模型架构迭代和数据驱动的推进下快速发展,已奠定金融文本处理基础,但对处理时间序列和多模态仍有不足,需结合FinTSFMs和FinVLFMs形成协同体系。
2.3. 金融时间序列基础模型(FinTSFMs)(Section 3)
- 模型分类(3.1节)
- 从零训练的时间序列模型:如MarketGPT、TimesFM系列,通过Transformer结构训练股价、订单流等数值序列。
- 基于LLM的时间序列适配模型:如Time-LLM、UniTime,透过语言提示输入时间序列,实现多模态推理和多任务适应。
- 非训练型模型:SocioDojo等,利用大语言模型结合外部知识库和工具,通过智能代理完成任务,无需额外训练。
- 训练策略(3.2节)
- 时间序列预训练:采用分段patch技术捕获时序依赖,多为自回归任务,MarketGPT创新地以离散事件模拟路径训练。
- LLM训练适配:介于冻结参数与微调之间,平衡推理能力及时序建模,方法尚无统一范式。
- 无训练适配:结合工具和知识基础的零训练路径,减少资源需求。
- 数据集(3.3节)
- 包括Google Stocks(2012-2017)、S&P 500(1927-2020)、Exchange Rates、Bitcoin Price等标准时间序列数据。
- 新兴多模态数据集FNSPID集成近3000万价格记录和天量新闻标题。
- FinTSB作为统一基准覆盖股价多类模式与真实交易约束,体现迈向实务应用的趋势。
- 总结(3.4节)
FinTSFMs处于萌芽期,亟需标准训练流程、扩展多模态能力及丰富数据集支持以应对长期依赖和复杂事件建模。
2.4. 金融视觉-语言基础模型(FinVLFMs)(Section 4)
- 架构组成(4.1节)
- 视觉编码器: 多采用通用视觉模型CLIP等,将金融图表、报表图片等转化为特征嵌入,缺乏领域特定建模。
- 视觉投射层(Vision Projector): 简单MLP实现视觉-语言空间对齐,未来可采用交叉注意力、门控机制提升多模态语义捕获能力。
- 基础语言模型(Base LLM): 结合FinLFM预训练模型(如FinLLaMA、Mistral)执行推理和应答。
- 训练方法(4.2节)
- 模态对齐预训练(Modal Alignment PT): 冻结编码器和LLM,仅训练视觉映射层,使用金融专属图表及文本对数据。
- 监督微调(SFT): 解冻参数,利用金融领域视觉问答(VQA)数据提升生成准确率和金融任务匹配度。
- 数据集(4.3节)
- 以视觉问答(VQA)为核心,涵盖表格、图表、文本的多模态问答任务。
- 代表数据集有TAT-QA、FinQA、ChartQA、FinVQA、ChartBench、FinMME等,不同数据规模从数百到数万不等,主要用于模型评估。
- 目前规模仍较小,限制了FinVLFMs的预训练与大规模调优。
- 总结(4.4节)
FinVLFMs处于起步阶段,受限于数据规模、视觉编码精细度与指令多元性,需加大多模态金融图文数据建设和模型设计创新,方能推动实际复杂金融分析落地。
2.5. FFM金融应用综述(Section 5)
- 应用类别及代表作:
1) 金融数据结构化: 包括多语言文本解析(ICE-INTENT)、关系抽取(GPT-4 ZERO-SHOT)、财务表格识别等。
2) 市场预测: 利用TimesFM预测VaR,GPT-4结合多源信号进行市场情绪和股票择时分析,展示 FFMs 在风险定量估计和情感驱动交易中的实用潜力。
3) 交易与决策支持: Ra-CFGPT等FFMs结合检索增强生成,实现问答、合规性审查及投资顾问功能;FinMem利用分层记忆与多人格增强金融交易策略;LLMFactor通过定制提示提取可解释因子。
4) 多智能体系统: 利用GPT-4及其变体,多智能体协作模拟市场交易、风险控制和行为模拟,为理论验证和系统测试提供工具。
- 整体趋势: 当前多应用仍以通用LLMs为主,特定FFMs开始显露优势尤其在合规及结构化理解领域,为未来高度专业化金融AI奠基。
2.6. 挑战与机遇(Section 6)
- 数据层面
- 多模态大规模金融数据稀缺,受限于成本与监管,需探索合成数据技术(如自动生成图表及问答对)。
- 隐私和数据保密限制跨机构数据共享,联邦学习及隐私保护训练方法有望突破。
- 算法层面
- 幻觉与事实不一致带来风险,需引入多模态知识库和检索增强生成(RAG)提升事实依据。
- 时间序列回测中存在“未来泄露”偏差,要求严格时间切片与训练评估规范。
- 基础设施层面
- 超大模型训练与推理成本高昂,需高效训练设备和算力支持。
- 轻量化模型和大模型-小模型协同系统成为趋势,兼顾性能、效率和隐私需求。
---
3. 图表深度解读
图1:金融AI范式转变示意
- 展示了“孤立数据集+任务专用模型”向“融合数据集+多任务基础模型”的转变。
- 传统模型分散,处理单一任务(如情绪分析、股价预测、欺诈检测);FFMs整合多类型金融文本、时序和视觉信息,实现任务泛化。
- 视觉上左黄区“Specialized”偏离右绿区“Generalized”象征着智能化金融的升级路径。[page::1]
图2:FinLFMs的发展轨迹
- 时间轴分为2023年前(BERT风格FinLFMs)、2023-2024年(GPT风格FinLFMs)、2024年后(推理增强型FinLFMs)。
- 细化显示了主要机构(Google、Meta、Bloomberg、Qwen、PJLab及其他)各自代表模型及架构。
- 反映FinLFMs由静态理解转为动态生成和推理演进的过程。
- 多开源项目表明生态活跃,提升模型可访问性。[page::3]
图3:FinTSFMs两大类别示意
- 左侧“从零训练”(Naive FinTSFM),专注数值时序数据自回归学习。
- 右侧“LLM适配FinTSFM”,融合时序数据和指令文本,采用语言模型辅助时间序列的推理与生成。
- 体现了单模态训练向多模态、多任务泛化的探索过程。[page::7]
图4:FinVLFMs典型架构
- 展示包含视觉编码器(处理财务图表等)、投影层(视觉与语言空间对齐)、基础LLM(语言推理及交互)三大组件。
- 通过视觉示例覆盖多样金融视觉信息(报表、新闻、会议视频、蜡烛图等)及自然语言问答实例。
- 图中回答示意用层次化推理连接视觉和语言,体现模型的融合能力。[page::10]
---
4. 估值分析
本报告属于综述性质,未包含具体企业或资产估值分析,因此没有DCF、P/E、市盈率、市净率等模型数据,也未提供目标价或敏感性分析。
---
5. 风险因素评估
- 数据稀缺与质量不足影响模型效果,尤其在多模态金融数据领域。
- 隐私监管限制导致数据难以共享和累积,阻碍模型训练的大规模展开。
- 模型幻觉带来的虚假信息风险,尤其金融领域对准确性要求极高,幻觉可能导致重大经济损失。
- 时间信息泄露的回测偏差,造成模型在历史验证阶段过度乐观评估。
- 高昂的算力与经济成本限制中小机构和学界对FFM的研发和部署能力。
- 对策包括合成数据、联邦学习、RAG检索增强、严格时间窗策略及模型轻量化技术。
---
6. 批判性视角与细微差别
- 报告内容十分全面,但FinTSFMs和FinVLFMs部分模型和数据集发展仍处于初期阶段,缺少统一的标准流程和成熟生态,这一点在文中多次自我指出,表明该领域尚有较大研究空间。
- 大多数FFM训练依赖大量产业资源,学术及开源项目受限于算力与数据质量,有待进一步增强开放性与公平性。
- 部分模型缺乏公开透明的训练细节和完整数据公布,可能影响复现性和公平比较,不利于学术交流。
- 未来对齐阶段及因果推理能力的全面评估仍较欠缺,当前更多偏重实验发布而非严格评测。
---
7. 结论性综合
本报告系统地梳理了金融基础模型(FFMs)的发展历程、技术体系、数据资源和实际应用,并合理识别了该领域当前的关键挑战与机遇。其亮点如下:
- 模型多样性与演进清晰: 从FinLFMs的BERT路线到GPT风格、再到推理增强模型,反映出金融自然语言处理能力的逐层递进。FinTSFMs和FinVLFMs正处于快速探索阶段,尝试将时间与视觉数据纳入金融智能中,实现更全面的多模态融合。
- 训练策略丰富且系统: 报告详述预训练、监督微调、对齐三阶段框架,配合丰富大规模金融数据及指令集,精准展现模型构建细节及挑战。
- 大规模数据集汇总完备: 从早期英文单任务小样本到当前跨语言多任务综合性金融数据集,展现该领域数据资源增长轨迹,为后续模型训练和评测提供重要基础。
- 实务应用场景覆盖广泛: 从金融文档结构化、风险预测,到交易决策及模拟多智能体场景,FFMs正逐步介入金融全链条,推动智能金融工程转型。
- 挑战诊断准确: 数据稀缺、隐私保护、幻觉风险、回测偏差、高成本等问题被详实描述,明确研究重点和改进方向。
整体看,FFMs代表了金融人工智能发展的前沿趋势,未来需要继续融合集成金融领域专门知识、创新大规模多模态基础训练技术及高效可控算法,充分发挥基础模型的泛化能力与推理潜力,最终实现更智能、更合规、更可信的金融技术解决方案。
---
参考文献溯源示例:
- 报告构建了FinLFMs、FinTSFMs和FinVLFMs三大类体系结构架构及应用说明 [page::0,1,2,3,6,7,9,10]
- BloombergGPT预训练参数及数据规模示例 [page::4]
- 市场预测中FFM应用示例涵盖TimesFM和GPT-4 [page::12,13]
- FinVLFMs的视觉编码与融合架构细节及算法分析 [page::9,10,11]
- 数据隐私与联邦学习的讨论 [page::14]
- 训练成本与推理效率问题 [page::14]
- 未来挑战及解决方案展望 [page::14,15]
---
本分析基于报告内容,信息详尽完整且严谨,旨在为金融人工智能特别是基础模型领域的研究人员和实务操作者提供深入参考和启发。