Financial Fine-tuning a Large Time Series Model
创建于 更新于
摘要
本报告针对时间序列基础模型TimesFM在金融价格预测上的表现,提出在包含亿级时间点的金融数据上进行持续预训练的微调方法。微调后的模型在价格预测准确率、宏观F1分数及模拟交易收益方面显著优于原始模型及多种基准,展现出在股票、指数、外汇及加密货币市场的优异表现,尤其在长周期市场中取得了较高夏普比率和正向收益[page::0][page::1][page::4][page::5][page::6][page::7]。
速读内容
- 原始TimesFM在财务价格预测任务中表现欠佳,精调后模型准确率显著提升,超过随机基准和原模型,在所有预测期长度均表现出统计显著的正向预测能力[page::0][page::4]。


- 精调TimesFM在宏观F1指标上表现同样优于原模型,验证了其在不平衡类别分布下的稳健性[page::4]。

- 训练策略包括对原模型权重持续预训练,改进了损失函数(基于对数变换的均方误差)及随机采样掩码策略,显著稳定训练过程,避免因极端价格变动导致的收敛失败[page::1][page::2]。
- 训练数据涵盖股票(日内与日度)、指数、外汇、加密货币等共计超过九千万时间点,训练耗时约1小时,训练曲线显示损失趋于稳定,训练过程未出现nan损失[page::2][page::4]。
| 数据集 | 频率 | 时间序列数量 | 时间点总数 |
|--------------------|-------|-------------|---------------|
| Topix500股票 | 日 | 3513 | 2,248,320 |
| S&P500股票 | 日 | 3173 | 2,030,720 |
| 货币 | 日 | 1092 | 698,880 |
| 日本投资信托 | 日 | 6698 | 4,286,720 |
| 商品 | 日 | 29 | 18,560 |
| 股票指数 | 日 | 216 | 138,240 |
| 股票指数 | 时 | 847 | 542,080 |
| 股票价格 | 时 | 31,756 | 20,323,840 |
| 加密货币 | 日 | 1680 | 1,075,200 |
| 加密货币 | 时 | 79,153 | 50,657,920 |
- 微调TimesFM在不同市场上的模拟交易表现优异,其中S&P500股票市场表现最佳,在市场中性策略下,最大年化夏普比达到1.68,最大回撤仅约0.1%,年化收益达到3.6%[page::5][page::6]。


- 不同预测周期的绩效指标(以年化夏普、最大回撤、年化收益率、年波动率及中性成本衡量)显示,长周期(如128天)策略收益和风险表现最优,交易成本随周期增长上升,但仍具合理范围。
| 预测周期(天) | 年化夏普比 | 最大回撤 | 年化收益率 | 年化波动率 | 中性成本 (%) |
|----------------|------------|----------|------------|------------|--------------|
| 2 | 0.516 | -0.015 | 0.013 | 0.024 | 0.003 |
| 4 | -0.483 | -0.028 | -0.009 | 0.019 | -0.006 |
| 8 | 0.227 | -0.017 | 0.005 | 0.022 | 0.007 |
| 16 | 0.003 | -0.019 | 0.000 | 0.024 | 0.000 |
| 32 | 0.420 | -0.015 | 0.014 | 0.034 | 0.080 |
| 64 | 1.285 | -0.002 | 0.033 | 0.026 | 0.347 |
| 128 | 1.679 | -0.001 | 0.036 | 0.021 | 0.600 |
- 精调模型在S&P500、TOPIX500等股票市场明显优于随机模型和AR1模型,表现更稳定且收益更高,但在外汇和加密货币市场表现略逊于AR1模型,仍保持正收益[page::6]。
| 市场 | 精调模型 | 原始TimesFM | 随机模型 | AR1模型 |
|------------|----------|-------------|----------|----------|
| S&P500 | 1.68 | 0.42 | 0.03 | 1.58 |
| TOPIX500 | 1.06 | -1.75 | 0.11 | -0.82 |
| 货币 | 0.25 | -0.04 | -0.03 | 0.88 |
| 加密货币(每日) | 0.26 | -0.03 | 0.01 | 0.17 |
- 未来工作聚焦:数据集平衡、多样性增强,损失函数改进(如分位数损失),更高效微调方法(如LoRA),以及探究微调后模型的特征学习和泛化能力可能遭遇的下降问题[page::6]。
深度阅读
金融领域大型时间序列模型微调研究报告详尽分析
---
1. 元数据与报告概览
- 标题:Financial Fine-tuning a Large Time Series Model
- 作者及机构:
- Xinghong Fu,麻省理工学院
- Masanori Hirano、Kentaro Imajo,Preferred Networks, Inc.(日本东京)
- 日期:2024年(具体日期未列出)
- 主题:针对金融市场价格预测任务,研究大型时间序列基础模型TimesFM的微调方法及效果。
- 核心论点:
- TimesFM模型在未经微调时,面对金融价格数据表现不佳。
- 通过在大规模金融价格数据上进行持续预训练(微调),TimesFM的预测精度显著提升。
- 微调后的模型在各种金融市场的仿真交易中表现优于基准模型(包括标准TimesFM、随机模型、AR(1)模型),实现了更高的收益率和更好的风险指标。
- 目标:验证并展示大型时间序列基础模型在金融市场预测中的有效性,探索模型训练和评估方法,以及实盘应用的可行性。
---
2. 逐节深度解读
2.1 引言
- 关键论点:
- 时间序列预测作为市场价格预测的基础,已有大量方法包括传统统计模型(移动平均、AR模型)和深度学习模型。
- 大型语言模型(LLMs)近年被尝试用于时间序列预测,且因其强大的编码/解码能力,使得对时间序列的预测具备潜力,但其有效性存在争议。
- TimesFM作为专门用于时间序列预测的200M参数的基础模型,训练于1000亿时间点的多域数据,已实现多项基准测试的领先表现。
- 金融市场价格数据的特点(不规则性、非季节性)与基础模型预训练数据差异大,导致未微调的TimesFM表现差强人意。
- 本文核心研究问题为:TimesFM能否通过金融数据微调后有效预测金融市场价格。
- 支撑逻辑:
- 传统时间序列模型及神经网络的局限性引入Transformer架构。
- LLMs虽然强,但未必直接适用时间序列预测,特别是金融市场数据。
- 提出解决方案:对TimesFM进行“持续预训练”式的微调,使用涵盖多种金融工具的大规模价格数据。
- 贡献点:
- 构建高质量金融时序数据集。
- 在TimesFM上做特定任务微调。
- 训练方法(损失函数、掩码策略)创新。
- 交易仿真验证微调效果。
- 开源代码与模型,推动后续研究。
2.2 相关工作
- 市场价格预测的数学基础:
- 经典模型:AR、移动平均、卡尔曼滤波、隐马尔可夫模型等。
- 近年深度模型如RNN、LSTM被广泛使用。
- Transformer与LLMs在时间序列预测中的兴起:
- Transformer分别在NLP、计算机视觉取得突破。
- 逐渐被应用于金融序列预测。
- 对LLM在时间序列预测中的必要性存在质疑。
- TimesFM概述:
- 可理解为Decoder-only架构,参数规模200M。
- 训练数据多样:Google趋势、wiki浏览量、合成数据。
- 已在Darts、Monash、Informer等标准基准表现突出。
- 本工作关联:
- 使用与TimesFM同类的连续预训练方法,适配金融价格数据。
2.3 微调方法
2.3.1 TimesFM模型基础
- 将输入时间序列切分为长度为 \(li\) 的“patch”(片段),经过Transformer层堆叠,预测一个长度为 \(lo\) 的输出序列。
- 使用均方误差(MSE)损失计算预测序列和真实序列之间的误差。
- 输入输出长度常设为 \(li=32\)、\(lo=128\),设计目的是减少推断阶段所需的自回归步骤。
- 训练时采用随机遮蔽(masking)策略,使模型能处理不同长度的上下文,提高模型泛化。
2.3.2 针对金融时间序列的特殊改进
- 损失函数调整:
- 原始MSE损失对大规模数据偏重,导致低价资产权重不足。
- 大幅价格波动时,模型训练易出现NaN并导致训练失败。
- 采用对数变换 \((z = \log y)\) 后计算MSE,等效于对百分比变化建模,减缓价格跳跃带来的影响,确保训练稳定。
- 遮蔽机制调整:
- 将时间序列分割为长度 \( \text{max context length} + \text{output length} \)。
- 随机选取子序列开始和结束点,使模型对不同位置和长度的子序列进行预测训练。
- 保证训练样本长度足够(至少128),增强预训练多样性和稳定性。
- 训练策略:
- 从TimesFM预训练权重初始化,采用线性预热学习率与余弦退火调度。
- 微调完成后,80M时间点数据训练时间仅1小时,无NaN损失发生。
2.4 实验设计
2.4.1 数据集
- 多市场多资产涵盖股票(S&P 500、TOPIX 500)、货币、加密货币,时间粒度涵盖日线及小时线,整体逾9千万时间点覆盖10多万系列。
- 数据主要来源Yahoo Finance和Binance API。
- 训练集使用截止2022年底数据,2023年及以后数据作测试集,确保无未来数据的“回头看”偏差。
- 没有使用合成数据,且没有按粒度平衡采样,指出未来数据重采样调整的可能改进方向。
2.4.2 超参数设置
- 优化器:SGD,带动量(0.9)与梯度裁剪(1.0)。
- 训练周期:100 epochs,线性预热25 epochs,峰值学习率5e-4。
- 批量大小1024,模型20层,隐藏层维度1280。
- 输入输出长度32/128,最小/最大上下文长度128/512。
- 训练使用8个V100 GPU,1小时完成。
2.4.3 测试方法
- 准确率(Accuracy):
- 每次预测未来h步(从2到128不等),按预测的最后一步方向(二分类:涨/跌)计算准确率。
- Macro F1-score:
- 解决类别不平衡问题,通过计算各类别分别为正类时的F1分数的平均,衡量模型识别少数类能力的指标。
- 模拟交易:
- 采用两种交易策略:
- 基本策略:依据模型对未来价格的涨跌预测构建买入或卖出仓位。
- 市场中性策略:在基本策略基础上进行均值中心化,减小整体市场走势对收益的影响,更专注捕捉相对收益。
- 交易量按持仓周期与资产数目进行规范,实现资金约束。
2.5 结果解读
2.5.1 训练过程(图2)

- 训练及验证损失曲线均呈现稳定下降,最终达原始损失的约70%。
- 随机遮蔽策略引入一定噪声。
- 延长训练周期或提升学习率可能导致过拟合。
- 采用对数变换的损失有效降低波动,保证训练稳定。
- 需注意对数损失与原始MSE损失非等价,但均呈现下降趋势。
2.5.2 准确率对比(图3)

- 原始TimesFM在大多数预测长度上表现不及随机基准。
- 微调后TimesFM在所有预测长度上均显著优于原始模型,且均高于随机模型(55%左右,随机猜测为基线)。
- 精度随预测时间长度增长(远期预测)整体上升。
- 证明原始模型不适用于金融价格预测,微调必要且有效。
2.5.3 Macro F1-score对比(图4)

- 结果趋势与准确率一致,微调模型显著优于基础模型。
- 体现微调模型在不平衡类别情况下也能较好识别多类别。
- 强化对原始研究问题“金融价格预测适用性”的肯定回答。
2.5.4 模拟交易及绩效评估
基本策略模拟交易收益走势(图5)

- 在S&P500股票日线数据上运行,截止2024年7月的累计收益均为正。
- 短期持有(预测长度2)波动较大,最大收益约10%。
- 说明模型预测信号可驱动正收益。
市场中性策略收益走势(图6)

- 减少整体市场方向性的影响,收益较稳定。
- 多个预测长度均实现正收益。
关键绩效指标(表III)
| Horizon | Ann Sharpe | MaxDrawdown | Ann Returns | AnnVolatility | Neutral Cost (%) |
|---------|-------------|--------------|-------------|--------------|------------------|
| 2 | 0.516 | -0.015 | 0.013 | 0.024 | 0.003 |
| 4 | -0.483 | -0.028 | -0.009 | 0.019 | -0.006 |
| 8 | 0.227 | -0.017 | 0.005 | 0.022 | 0.007 |
| 16 | 0.003 | -0.019 | 0.000 | 0.024 | 0.000 |
| 32 | 0.420 | -0.015 | 0.014 | 0.034 | 0.080 |
| 64 | 1.285 | -0.002 | 0.033 | 0.026 | 0.347 |
| 128 | 1.679 | -0.001 | 0.036 | 0.021 | 0.600 |
- 时间长度越长,夏普率和年化回报表现越优,最大回撤降至最低。
- 说明长期预测的交易策略更稳定、盈利更好。
- 中性成本随预测长度增加,表明长周期交易可承受较高成本。
不同模型比较(图7)

- 微调TimesFM(黑线)明显优于原始TimesFM(红线)、随机基准(绿线)和AR(1)模型(橙线)。
- AR(1)模型表现尚好,但仍低于微调模型,体现其简单线性模型特征。
- 原始TimesFM性能不佳,可能因数据复杂度不匹配。
不同市场夏普率及中性成本对比(表IV和V)
| 市场 | 微调TimesFM | 原始TimesFM | 随机模型 | AR1 |
|---------|--------------|-------------|----------|----------|
| 夏普率 | | | | |
| S&P500 | 1.68 | 0.42 | 0.03 | 1.58 |
| TOPIX500| 1.06 | -1.75 | 0.11 | -0.82 |
| 外汇 | 0.25 | -0.04 | -0.03 | 0.88 |
| Crypto | 0.26 | -0.03 | 0.01 | 0.17 |
| 市场 | 微调TimesFM | 原始TimesFM | 随机模型 | AR1 |
|---------|--------------|-------------|-----------|-----------|
| 中性成本 | | | | |
| S&P500 | 0.60% | 0.11% | -0.008% | 0.34% |
| TOPIX500| 0.14% | -0.24% | 0.02% | -0.18% |
| 外汇 | 0.08% | -0.017% | -0.008% | 0.27% |
| Crypto | 0.44% | -0.07% | 0.010% | 0.88% |
- 微调模型在所有市场夏普率优于原始TimesFM,且均为正值,随机模型缺乏有效预测能力。
- 对外汇和加密货币市场,微调模型仍低于AR1模型表现,表明模型对这类市场的捕捉能力较弱。
- 中性成本随市场和模型不同有差异,微调模型成本偏高但收益也明显。
---
3. 估值分析及模型训练方法说明
- 报告中并非传统意义上的“估值”分析,但模型训练采用均方误差损失(MSE),基础损失计算为:
\[
\text{Loss} = \frac{1}{N} \sum{j=1}^N \text{MSE}(\hat{y}{li j + 1: li j + lo}, y{li j + 1: li j + lo})
\]
- 微调中创新采用对数变换后计算MSE:
\[
z = \log y, \quad \text{Loss} = \frac{1}{N} \sum{j=1}^N \text{MSE}(\hat{z}{\cdot}, z{\cdot})
\]
该方法有助于处理价格变动幅度悬殊、极端事件导致的训练不稳定。
- 模型架构为Transformer Decoder-only,时间序列数据被切分成patch,减少自回归步骤,加速推理。
- 微调使用了含余弦退火的学习率调度和随机遮蔽策略,保证模型泛化以及对不同时间尺度的适应。
---
4. 风险因素评估
- 训练数据分布偏差:
- 微调数据主要为小时粒度的加密和股票数据,较少包括其它市场和粒度,可能导致训练偏向特定市场和时间尺度。
- 训练方法选型风险:
- 采用持续预训练方式微调,虽然技术简单但收敛慢、参数调整灵活性低。
- 模型性能限制:
- 尽管相比原始模型有所提升,但仍未显著超越最简单的AR(1)模型,特别在外汇和加密货币领域表现一般。
- 过拟合与泛化风险:
- 训练和验证数据同源,存在模型通过记忆市场整体趋势而非理解市场动态的可能。
- 微调后对原始通用时间序列预测任务的影响未知,可能存在过拟合金融特定数据而破坏预训练泛化能力。
- 未来应用局限:
- 目前仅验证无交易成本的情况,加权成本随着持仓周期增加,真实场景成本可能更高。
- 模型对极端市场事件的稳定性尚未充分验证。
---
5. 批判性视角与细微差别
- 报告客观展示了微调所带来的提升,但也坦诚其余存在不及经典自回归简单模型的问题,显示该领域技术尚处发展阶段。
- 针对训练数据不均衡中心说提及合理,但并未尝试对策,表明进一步改进空间大。
- 关于损失函数的对数变换选择,虽然验证了稳定性,但未深入探讨是否存在更适合金融时间序列的损失函数,如分位数损失(quantile loss)。
- 在模拟交易策略设计上,论文采用基础和市场中性两种策略,方法理清但相对简单,缺乏复杂风险控制或多因子策略,后续可拓展。
- 微调前后模型权重的变化及内部机制未获得深入分析,未来探究模型学习的具体模式与市场行为对应关系,仍属开放问题。
- 论文未给出微调后模型在标准时间序列非金融任务上的表现,考虑到通用性能与专用性能权衡,这是一个潜在缺口。
---
6. 结论性综合
本文针对金融市场价格预测任务,系统探究了基于大型时间序列基础模型TimesFM的微调方案。通过引入专门收集的超过9千万时间点、涵盖多市场多粒度的金融数据集,设计并采用对数变换的MSE损失与随机时间序列遮蔽策略,对模型进行持续预训练式微调,显著提升了模型的预测性能和实际交易表现。
- 核心发现:
- 原始TimesFM难以直接胜任金融价格预测,多数预测长度上的准确率甚至低于随机基线。
- 微调后的TimesFM在所有预测长度与指标上均胜出原始模型和随机基线,表现出统计显著的提升,Macro F1-score验证了其对涨跌类别识别的均衡能力。
- 仿真交易结果显示,微调模型结合基本及市场中性策略,在S&P500等主要市场实现正向收益,夏普率最高达到1.68。
- 在不同市场比较中,微调模型始终优于原始模型和随机模型,在股票市场表现优异,但在外汇和加密市场仍受限于传统简单模型。
- 图表深度洞见:
- 图1直观展示微调前后价格预测的明显改善。
- 图2至图4系统展示训练稳定性和预测评价指标的进步。
- 图5-7通过不同策略及对比模型的交易盈亏曲线及绩效指标,证明了微调的实际价值。
- 表III至V提供多维度绩效量化,强调长周期交易策略的收益和风险平衡优势。
- 未来展望:
- 优化训练数据分布,平衡不同市场和粒度数据。
- 探索更适应金融时序数据的损失函数和训练策略,例如分位数损失与LoRA微调技术。
- 揭示模型内部机制,理解其学习到的金融市场动态。
- 分析微调后的通用时间序列性能,权衡泛化与专用性。
- 设计更复杂、风险管控严格的交易策略,提升实盘应用潜力。
总体上,本文系统阐述了通过金融数据微调使大型时间序列基础模型在金融市场价格预测任务中获得现实且显著的性能提升。这为后续结合深度学习与金融数据展开更深入的研究提供了方法论与实证基础。
---
[page::0,1,2,3,4,5,6,7]