`

FinCast: A Foundation Model for Financial Time-Series Forecasting

创建于 更新于

摘要

本论文提出FinCast,一种针对金融时间序列预测的基础模型。该模型基于1亿参数的decoder-only Transformer架构,通过令牌级稀疏专家混合(MoE)、可学习的频率嵌入及点分位数联合损失等创新设计,实现对多领域、多时间分辨率金融数据的泛化能力。实验证明,FinCast在零样本和有监督金融预测基准上均优于当前最先进方法,减小误差约20%以上,并具备高效推理速度和强鲁棒性,显著缓解了金融时间序列预测中非平稳性和多样性带来的挑战 [page::0][page::1][page::4][page::6][page::7].

速读内容


FinCast模型创新设计及架构 [page::1][page::2][page::3]


  • 采用decoder-only Transformer,整合令牌级稀疏专家混合机制(MoE)以实现专家在不同金融领域及时间分辨率上的动态专精。

- 引入可学习频率嵌入编码不同时序数据采样率,提升模型跨时间尺度泛化能力。
  • 设计点分位数联合损失(Point-Quantile Loss),联合优化点预测与概率分布形态,缓解预测均值回归问题并增强分布鲁棒性。


预训练数据集规模与多样性 [page::4]


| 域 | Crypto | Forex | Future | Stock | Econ | Others |
|---------|---------|---------|---------|---------|--------|----------|
| 时间序列数量 | 91,280 | 64,720 | 47,304 | 565,548 | 37,730 | 1,510,863|
| 时间点数量 | 1.78B | 3.27B | 1.71B | 9.1B | 4.1M | 4.61B |
| 占比(%) | 8.69% | 15.96% | 8.36% | 44.49% | 0.02% | 22.48% |
  • 利用超过20亿时间点涵盖加密货币、外汇、期货、股票及宏观经济等多种金融市场,确保模型训练数据的全面覆盖和多样性。


零样本与有监督金融预测效果领先 [page::5][page::6]

  • 在零样本金融时间序列基准测试中,FinCast较现有主流模型MSE误差降低20%,MAE降低10%,在36个子集上分别获得23和25次最佳表现。

- 在两组美国股票的有监督预测任务上,FinCast零样本模型即超越所有前沿监督模型,MSE与MAE平均降低23%和16%,微调后分别降至26%和19%。
  • 该结果显示FinCast强大的泛化能力以及在金融时间序列预测中优异的表现。


关键技术贡献的消融验证 [page::7]




| 模型变体 | MSE | MAE | 性能下降(%) |
|-----------------|--------|--------|------------|
| FinCast | 0.1644 | 0.2397 | — |
| 无稀疏MoE | 0.1802 | 0.2617 | -9.32% |
| 无PQ-loss | 0.1767 | 0.2582 | -7.62% |
| 无频率嵌入 | 0.1713 | 0.2505 | -4.38% |
  • 令牌级稀疏MoE机制对提升模型专业化和泛化能力至关重要。

- 点分位数联合损失提升预测的分布感知能力,有效缓解均值回归。
  • 频率嵌入作为重要的结构性偏置使模型适应多时间分辨率表现更优。


推理速度与效率优势 [page::8]


  • FinCast在消费级GPU(RTX 4060 8GB)上推理速度显著领先同类模型,单秒可处理更多时间点;

- 归功于稀疏MoE网络激活仅部分专家及token分块编码,推理成本低,适用高频及实时金融应用。

定性图示展示模型预测能力 [page::8]



  • 零样本条件下,FinCast准确反映金融数据非平稳性及趋势变化,避免因模式漂移导致的扁平预测现象;

- 有监督微调提升稳定性,强化对高流动性美股的价格走势跟踪表现。[page::8]

深度阅读

金融时间序列预测基础模型FinCast详尽分析报告



---

1. 元数据与概览


  • 报告标题:《FinCast: A Foundation Model for Financial Time-Series Forecasting》

- 作者及机构:Zhuohang Zhu, Haodong Chen, Qiang Qu, Vera Chung,悉尼大学计算机科学学院
  • 发布渠道及时间:提交至第34届ACM国际信息与知识管理会议(CIKM’25),2025年11月

- 研究主题:构建首个面向金融时间序列预测的基础模型——FinCast,目标解决金融时间序列中存在的多源异构非平稳性问题,实现跨领域、跨时间尺度的高效泛化和高精度预测。

报告核心论点及贡献概要


  • 金融时间序列面临显著的非平稳性多域差异性多时间分辨率挑战,传统及现有深度学习模型因过拟合及领域/任务局限性,在实际应用中泛化能力受到严重制约。

- FinCast作为第一个专门针对金融时序的百亿参数级解码器Transformer基础模型,通过在多样化大规模金融数据上训练,实现零样本(zero-shot)环境下的卓越预测性能,无需领域专门微调。
  • 引入了三大核心技术创新:

1. Point-Quantile Loss(PQ-loss):联合点估计与分位数概率估计,提高对不确定性的建模能力,增强非平稳环境下的鲁棒性。
2. Token级稀疏专家混合模型(Sparse Mixture-of-Experts, MoE):动态路由输入Token至领域专精专家,显著扩大模型能力且保持计算效率。
3. 可学习频率嵌入(Learnable Frequency Embedding):显式编码时间序列的采样频率,用以捕捉不同的周期和季节性模式。
  • 在零样本及有监督金融时间序列预测基准上,FinCast均取得领先,平均降低预测误差MSE约20%-23%。


该报告不仅阐明了基于大规模预训练的基础模型设计理念,也充分展示了面向金融时序领域建模的技术创新和优异实验表现,具有较强的理论与实践价值。[page::0,1,5]

---

2. 逐节深度解读



2.1 引言(Introduction)


  • 关键论点

- 金融时间序列预测对于经济稳定、投资决策、风险管控极为关键。
- 主要难点为:
- 非平稳性:时间推移中价格分布显著变化(如经济结构变化、投资者行为变动)。
- 金融域差异:股票、商品、外汇等领域内在模式不同。
- 多时间分辨率差异:秒级、日级、周级序列波动特性不同,模型难以跨分辨率泛化。
  • 传统模型多为有监督、固定策略设计,很难适应市场快速变化,且受限于训练数据及任务,使得泛化性差,过拟合风险大。
  • 逻辑基础

- 本章节通过详述金融时序数据所面临的挑战,为后续提出的基于大规模金融多域时序数据预训练的基础模型方法提供问题背景和动机。

2.2 相关工作(Related Work)


  • 传统统计模型(ARIMA、GARCH)难以捕获非线性动态及急剧的结构变换。

- RNN及LSTM虽解决短中期依赖问题,长程信息学习和梯度消失依然是瓶颈。
  • 图神经网络关注变量间关联,但对金融噪声和非平稳带来的挑战尚无彻底解决。

- Transformer基架逐渐被引入时序预测领域,但标准Transformer存在计算复杂度高和金融数据特性不匹配等问题。
  • 最新扩展包括扩散模型、贝叶斯和RL方法,适用于特定任务但难大规模泛化。

- 大规模语言模型(GPT-4等)启发了时序基础模型研发,如TimesFM、Chronos-T5等,但他们未针对金融时序非平稳、波动性大的特征,因而有限。
  • FinCast则是首个专为金融时序打造的千万/B级参数规模基础模型。


综上,FinCast填补了现有基础模型在金融时序领域的空隙。[page::2]

2.3 方法(Methods)



2.3.1 问题定义(Problem Formulation)


  • 金融时间序列被定义为标量序列 $X{1:L}$,模型旨在学习映射 $f{\theta}$ ,从历史长度L预测未来H步值。

- FinCast支持任意历史上下文长度L和预测长度H,无需架构变动。
  • 采用“通道独立”机制处理多变量时序(多股价、多指标分别映射)。


2.3.2 模型架构概览(Model Architecture Overview)



模型由三大组件构成:
  1. 输入Token化模块(Input Tokenization Block)

- 输入序列片段化为多个patch,实例归一化(instance normalization)去尺度差异,经过残差多层感知机(residual MLP)映射到嵌入空间。
- 加入可学习频率嵌入编码时间分辨率信息,提高模型对不同采样率的适应能力。
  1. 解码器MoE骨干网络(Decoder MoE Backbone)

- 多层Transformer解码器,带有因果自注意力确保未来信息不泄露。
- Token级别的稀疏专家混合层(Sparse MoE),根据输入动态路由到若干专家,专家间实现领域特化。
  1. 输出模块(Output Block)

- 经过残差MLP映射回预测空间,结合反归一化还原原始尺度输出。

技术细节说明:


  • 实例归一化保留序列形态且消除不同序列幅度带来的影响,促进跨资产泛化。

- RMSNorm替代LayerNorm优化训练稳定性。
  • 因果自注意力保证预测只用历史信息防止未来数据泄露,符合时间序列自回归原则。

- 稀疏MoE提升容量同时控制计算复杂度,通过top-k路由实现专家动态选择,促进专家多样化和特化。
  • 频率嵌入作为模型的归纳偏置,明确区分秒级、日级、周级等不同时间尺度特征。


损失函数设计—Point-Quantile Loss(PQ-loss)


  • 损失融合了:

- Huber点估计损失(点预测精度)
- 分位数损失(对预测不确定性的建模)
- 趋势一致性损失(预测序列与真实序列的局部变化趋势匹配)
- MoE正则化损失(平衡专家使用防止专家塌缩)
  • PQ-loss防止传统MSE损失导致预测均值回归和崩塌问题,提升面对非平稳模式跳变时的鲁棒性。


训练与推理细节


  • 利用20亿级金融和非金融多领域时序数据训练,涵盖加密货币、外汇、期货、股票和宏观经济指标(见下文表1)。

- 训练上下文长度灵活,针对高低频采用不同窗口。
  • 自动回归分片推理,保证效率。

- 训练采用AdamW优化器,TF32高精度混合训练保障稳定性。

[page::3,4,5]

2.4 数据集统计(表1)


  • 数据总规模达到20亿时间点,涵盖:


| 域名 | 时间序列条数 | 时间点数量 | 占比 |
|-----------|--------------|------------|------------|
| Crypto | 91,280 | 1.78B | 8.69% |
| Forex | 64,720 | 3.27B | 15.96% |
| Future | 47,304 | 1.71B | 8.36% |
| Stock | 565,548 | 9.1B | 44.49% |
| Econ | 37,730 | 4.1M | 0.02% |
| Others | 1,510,863 | 4.61B | 22.48% |
  • 数据清洗严格,去除异常点和非连续数据,保证训练稳定性。


[page::4]

2.5 实验设计与结果



2.5.1 零样本预测对比(Table 2)


  • 零样本测试集包含3,632个金融时间序列,覆盖密码货币、外汇、股票、期货,时间分辨率从分钟到周级。

- FinCast与领先模型TimesFM、Chronos-T5、TimesMoe进行对比,输入固定长度128。
  • 结果:FinCast在MSE指标上平均降低20%,MAE降低10%,在36个子领域中分别排名第一达23和25次,占主导地位。

- 说明FinCast能在未见数据和任务上,凭借大规模基础模型能力有效捕获复杂动态和模式变换。

2.5.2 有监督预测对比(Table 3)


  • 使用PCIE金融时间序列基准数据集US71和US14L,覆盖主流大盘股的日线数据。

- FinCast零样本和轻微微调模型均领先于PCIE、PatchTST、D-Va、Autoformer和Informer等多种先进监督模型。
  • 零样本相对MSE降低23%,MAE降低16%,微调后进一步提升至26%和19%。

- 强调正是预训练的大规模多元知识令模型具备强泛化与迁移能力。

2.5.3 消融实验(Table 4)


  • 移除关键信息导致性能明显下降:

- 无稀疏MoE,性能降9.32%
- 无PQ-loss,性能降7.62%
- 无频率嵌入,性能降4.38%
  • 图2说明稀疏MoE有助专家间分化专精于特定领域与时间尺度,有效防止模型能力均质化。

- 图3显示PQ-loss激励模型学习分布尾部,提高不确定性捕获能力。

2.5.4 推理速度分析(图6)


  • FinCast在NVIDIA RTX 4060 8GB显卡上推理速度显著优于TimesFM、Chronos、TimesMoe。

- 兼具较快速度和领先准确率,适合高频交易及实时风险管理场景。

2.5.5 定性结果(图4、图5)


  • 零样本任务(图4):其它模型多出现均值回归甚至平滑输出,FinCast则准确适应价格波动和趋势变化。

- 有监督任务(图5):基线模型面对预测分布变动时普遍出现平线或保守预测,而FinCast表现出对突然波动的敏感跟踪和趋势捕捉。
  • 说明FinCast能切实解决金融时序非平稳及多元耦合问题,不陷入简单均值解。


[page::6,7,8]

---

3. 图表深度解读



3.1 图1:FinCast模型架构


  • 描述:左图为整体模型流程,输入为实数时间序列,经实例归一化、残差MLP、频率嵌入映射后输入Decoder,Decoder由多层带稀疏MoE的Transformer组成,输出预测通过残差MLP和逆归一化得到。

- 解读
- 各模块协同设计保证模型既能捕捉局部复杂动态(Attention机制),又能实现领域专家分化。
- 频率嵌入被均匀加至输入嵌入,帮助模型显式感知时间分辨率。

3.2 表1:预训练数据集统计


  • 详细枚举涵盖多个金融领域与非金融领域时序数据条目数、时间点数及比例,体现数据驱动基石的广度和深度。


3.3 表2和表3:性能对比数据


  • 多个领域、分辨率与预测长度上的误差指标清晰展示FinCast领先优势。

- 对比的方法涵盖结构不同的大型时间序列模型和典型金融预测模型,验证FinCast的广泛有效性。

3.4 表4:消融实验结果


  • 定量阐明各核心设计对最终性能的贡献,突出稀疏MoE与PQ-loss对强泛化与稳健预测的关键作用。


3.5 图2:专家激活模式热力图


  • 展示不同领域(如crypto1min, stock1day, future_1week)中不同时层专家的激活概率。

- 说明专家根据时间序列属性形成不同侧重,支持专家分化假设。

3.6 图3:训练期间点估计与分位预测示例


  • 蓝色曲线为真实价格,红色实体线为点预测,虚线为不同分位数预测,表现预测分布的非对称性和不确定性。

- 验证PQ-loss成功让模型理解数据分布的多样性。

3.7 图4、图5:零样本和监督预测的定性序列展示


  • 对比FinCast与多个SOTA模型的预测轨迹,FinCast明显能追踪价格趋势和剧烈波动,基线模型多数趋于平滑或落后。

- 突显FinCast的趋势一致性和异常响应能力。

3.8 图6:推理速度与性能折中


  • 图示FinCast在维持高准确率的同时,获得远优于竞争模型的推理速度,侧重实际金融场景的落地应用潜力。


[page::3,4,6,7,8]

---

4. 估值分析



本报告为学术技术研究报告,未涉及公司财务估值或资产价格评估,不存在传统“估值”内容。报告核心在方法论、模型能力和实验表现,无财务预测统计估值模型。

---

5. 风险因素评估



报告未专门设置“风险”章节,但从内容中可洞察潜在风险点:
  • 数据风险:尽管使用大规模多源数据,存在数据质量不均、异常值和历史偏差风险,可能影响泛化。

- 模型过拟合风险:尽管引入多项机制提升泛化,基础模型仍可能对某些模式过度拟合,尤其金融市场异常事件未被充分覆盖。
  • 领域适应风险:跨金融域及时间尺度能力强,但新兴资产(如新型加密资产)或极端宏观事件可能超出训练经验范围。

- 推理效率与硬件依赖:1B参数模型虽已高效,但部署在资源受限环境仍可能受限。
  • 解释性与监管风险:黑盒性质的基础模型在金融监管合规方面存在解释困难。


报告针对部分风险(如专家均衡损失防止专家塌缩等)提供技术缓解策略,但未详细讨论金融产品实际应用中的监管和战略风险。

[page::4,7]

---

6. 批判性视角与细微差别


  • 数据与任务多样性

- 报告虽构建了丰富多域数据集,但对宏观经济异常、大规模黑天鹅事件覆盖的信息尚不明确,后续扩展仍需关注极端环境下的表现。
  • 模型规模与实际适用性

- 1B参数模型在研究层面成功,但实际金融机构部署可能受限,报告提到可在8GB消费级GPU上推理,表明有效优化,但真实生产环境的稳定性和延迟需求有待观察。
  • 训练细节透明度

- 部分训练参数如dropout率、正则化细节、训练样本具体构成等未详述,为模型复现实验带来一定难度。
  • 损失函数设计依赖多超参数

- PQ-loss中各$\lambda$权重的设置及敏感性未具体公开,超参数调试复杂度可能较高。
  • 比较方法版本及供应链新旧

- 对比基线包括多个前沿模型,但各自训练数据重合度、训练策略差异及调参情况未详细披露,可能对结果产生影响。
  • 缺少风险交易损失或投资收益指标评估

- 纯粹预测准确率优异,但实际金融运用更依赖于策略回撤、夏普率等指标,后续研究应扩展评估维度。
  • 监管及道德影响无论及

- 面向金融关键领域的模型应关注对市场操纵、异常交易的潜在影响,报告未涉及。

报告整体科学严谨,但对这些因素的补充会帮助业界全面评估模型价值。

---

7. 结论性综合



本报告提出了首个专门针对金融时间序列预测的基础模型——FinCast,通过引入稀疏专家混合架构、点-分位数联合损失和频率嵌入,成功解决了金融市场数据的多源非平稳性、领域异构性及时间尺度差异性三大核心难题,兼顾了模型表达能力和推理效率。

基于逾20亿时间点、涵盖股票、期货、外汇、加密货币等六大域的巨大训练数据,FinCast实现了卓越的零样本泛化能力,零样本预测任务上MSE误差比最新通用时间序列基础模型低约20%,甚至优于部分基于针对性训练的有监督模型,表现出强大的跨域迁移能力和趋势敏感性。

消融实验验证了稀疏MoE、PQ-loss和频率嵌入三项设计的关键贡献,进一步通过定性可视化展示了FinCast卓越的趋势捕捉能力和拒绝均值回归的稳定预测能力。推理速度上,模型兼顾了高准确率与消费级GPU可用性,为实际金融现场部署提供可能。

本质上,FinCast开创了金融时间序列预测领域中结合大规模预训练与领域专用设计的先河,并为后续利用更大、更丰富、更高质量数据的基础模型研发奠定了坚实基础,未来潜力广阔。

---

附件图片索引


  • 图1:FinCast模型总体架构示意

- 图2:不同金融域专家激活热力图
  • 图3:训练期间的点估计与分位数输出示例

- 图4:零样本任务预测示例对比
  • 图5:有监督任务预测示例对比

- 图6:推理速度与性能对比散点图

---

(全文完)

报告