`

LLMs for Time Series: an Application for Single Stocks and Statistical Arbitrage

创建于 更新于

摘要

本报告通过应用基于11百万参数的Chronos大语言模型(LLM)对美国最大的单只股票残差收益率时间序列进行预测,构建多空投资组合并进行回测实证,发现LLM能够捕获市场中的微弱非随机性,实现显著的阿尔法生成,表现优于部分传统模型,但因高交易成本导致净收益显著下降。研究还对比了预训练和微调模型的表现,确认微调步骤对提升短期预测效果有帮助,且与经典短期反转策略对比中展现了不同捕获的市场机会,指出了LLM未来在金融领域的潜力及改进空间 [page::0][page::2][page::8][page::9]

速读内容

  • 研究背景与动机 [page::0][page::1][page::2]:

- 传统观点认为LLMs不适合预测金融市场回报,因其随机性强,本研究挑战此认知。
- 采用Ansari等人(2024)提出的Chronos模型,对美国最大单只股票残差日收益率时间序列做零-shot预训练和微调预测。
  • 数据与模型方法 [page::3][page::4][page::5][page::6]:

- 使用Guijarro-Ordonnez等人(2022)提供的三个不同因子模型残差数据集(IPCA, PCA, FF),涵盖1978-2016期间样本。
- Chronos模型采用11百万参数,使用100天上下文窗口,仅预测次日收益。
- 实现零-shot预测与每日微调两种策略,微调最大训练步数τ分别测试5、15、40。
- 对比基准包括短期反转策略(STR)、CNNTransformer模型及autoARIMA。
  • 预训练模型零-shot表现与参数影响 [page::8]:

- α=0.3的EMA输入最高可达PCA数据集年化Sharpe约3.17,表明模型可有效识别市场中的短期模式。
- 但含交易成本(3基点)后净收益为负,显示实际交易障碍仍大。
- α参数调节可缓解训练集趋势偏差,但性能无显著超越传统STR策略。
  • 微调策略效果 [page::9][page::10]:

- 微调版本中,最优τ=15步,超过40步反而导致性能下降,可能因遗忘预训练权重。
- 细粒度微调提升Sharpe,最佳PCA集达到4.21(带波动率调整)。
- 微调模型捕获市场机会更复杂,非简单均值回归,比autoARIMA表现优异但仍逊于某些传统策略。
- 微调模型收益随时间下降,反映市场效率提升或结构变化。
  • 量化策略构建总结 [page::4][page::5][page::6][page::9]:

- 投资组合权重通过Chronos预测排序确定,采用中位数排名法确保50%多头/空头仓位,权重大小与排名距离正相关。
- 测试不同EMA平滑参数α调整收益输入,结合同步更新权重,形成动态交易策略。
- 权重调整中引入波动率加权提升整体风险调整表现。
- 与经典短期反转STR策略比较,发现Chronos模型偏重复杂非线性模式,STR策略仍有竞争优势。
  • 主要结论与展望 [page::8][page::11][page::14]:

- LLMs展示了对高噪声金融时间序列的预测潜力,可捕获传统模型难以识别的市场机会。
- 当前交易成本与过拟合风险限制其实际应用,未来优化微调及预训练保持机制有望提升应用价值。
- 结构化领域专用模型与AI结合,将优化趋势捕获与复杂模式识别。

深度阅读

金融研究报告详尽分析报告


报告元数据与概览


  • 报告标题:LLMs for Time Series: an Application for Single Stocks and Statistical Arbitrage

- 作者:Sebastien Valeyre,Sofiane Aboura
  • 发布机构/形式:未指定具体机构,以arXiv学术工作稿形式发布,时间为2024年12月13日

- 研究主题:探讨大型语言模型(Large Language Models,LLMs)在金融时间序列预测中的应用,特别针对美国单一股票的残差日收益率,通过构建统计套利策略验证模型的有效性与潜力。
  • 核心论点

本报告挑战了“LLMs不适于金融市场回报预测”的传统观点,通过使用Chronos模型(Ansari et al. 2024)以及单股票时间序列数据,展示了LLMs能够捕捉接近随机的金融时间序列中的非随机信号,进而实现alpha的产生。报告还比较了LLMs与专用模型和较小深度学习模型的表现,强调LLMs仍有巨大发展空间。

逐节深度解读



1. 引言与背景综述(第0-2页)


  • 内容总结:报告首先介绍了LLMs及其transformer架构对自然语言处理的推动,并引入了时间序列基础模型TimeGPT、Chronos和TimesFM等新兴时间序列预测模型。回顾了LLMs应用于金融时间序列的现状及限制,指出多数早期研究因参数规模和训练数据的限制未能真正应用大规模深度学习模型。
  • 推理依据:作者列举了领域内关键先行研究,如Ansari等人的Chronos模型(基于T5架构,用词汇量化金融数字数据),以及Guijarro-Ordonnez等人的残差收益率数据集。强调将预训练的时间序列基础模型应用于金融残差收益率,尤其是零样本(zero-shot)测试,有助避免过拟合,验证模型真实泛化能力。
  • 关键数据及其意义

- 介绍Chronos模型参数规模从11M至数十亿不等,报告聚焦于“amazon/chronos-t5-tiny”(11M参数)版本。
- 使用残差收益率,去除多因素模型影响,确保数据相关性降低,方便深度学习捕获非线性信号。
- 零样本测试设计旨在检验模型对未见过金融时间序列的实际泛化能力。

2. 数据与方法论(第3-7页)


  • 2.1 Chronos模型及预测设置

- 模型选用预训练的Chronos-t5-tiny,参数约1100万。
- 使用过去100日作为上下文窗口预测次日收益,聚焦短期预测便于捕捉高频随机模式。
- 通过每日微调(fine-tuning)权重,测试不同训练步数(τ=5,15,40)和不同指数加权移动平均(EMA)参数α调整输入,允许模型自我调整对短期动量或均值回复的响应。
  • 2.2 数据说明

- 使用Guijarro-Ordonnez等人基于CRSP数据库1978年至2016年的三套残差收益率数据(IPCA、PCA、Fama-French扩展三因子模型)。
- 股票池为市场资本化占比前0.01%,约550只美国活跃股票。
- 各数据集对应因子数量K=5,长期滚动窗口分别240个月、252天及60天。
- 采用残差收益率减少数据间的相关性,便于深度学习模型挖掘个股特有异象。
  • 2.3 模拟策略设计

- 零样本(zero-shot)策略:直接用预训练权重对每只股票依据过去100天数据预测下一日收益,构建多空组合(50%多头,50%空头),权重由预测排名决定,权重结构基于Valeyre (2019) 的最优排序方法。
- 微调策略:每天基于最新数据对Chronos进行再训练,更新权重,增强适应市场变化能力,再基于此预测构建组合。
- 对照策略:包括Guijarro-Ordonnez CNN-Transformer模型(模型参数仅169),AutoARIMA(统计基准),以及经典的短期均值回复策略(Short Term Reversal,STR)。
- 策略统一采用排序法构建50%多头50%空头组合,并测试加权规模调整(权重与波动率成反比)对夏普比率的影响。

3. 实证结果(第8-11页)


  • 主要发现

- 预训练的Chronos模型在无任何金融数据预训练(zero-shot)的条件下,基于PCA数据集且α=0.3参数,获得了15年累计夏普比率约3.17的出色表现,t统计量达到12.27,显示出强显著性。
- 随着考虑交易成本(3个基点滑点),净夏普比率转负,表明目前策略盈利受限于实际成本。
- 时间序列表现显示2010年金融危机后市场效率提高,策略效果减弱,意味着市场机会减少或结构变化。
- α参数的调整相当于弥补模型在非金融训练数据中对趋势的过度期待,与实际金融市场中负自相关现象不符;α=0.3时性能较优,但策略高度相关于STR方法,且并未显著超越STR。
- 微调模型中最佳训练步数τ为15,更多训练步骤反而削弱性能,可能导致预训练权重遗忘。微调提升了部分性能指标。
- CNN-Transformer表现优于Chronos,夏普比率在PCA数据集上达到5.01,表明更专一的深度学习模型在金融领域仍有优势。
- AutoARIMA表现最弱,表明传统统计模型难捕捉金融市场复杂动态。
- 加入基于波动率反比的权重调整显著提升各模型夏普比率。
  • 图表分析

- 表1展示了不同数据集及α参数下预训练Chronos模型的粗夏普比率,PCA数据集和α=0.3时峰值最大(3.17),FF和IPCA表现相对较弱。
- 表2详细比较了预训练、微调Chronos和其他基准的夏普比率,突出微调策略的提升和CNN-Transformer优越性。
- 图1(a-d)
- (a) 预训练Chronos,α=0.3条件下,累计收益持续稳健增长,PCA数据效果最佳。
- (b) 预训练Chronos,α=0时累计收益下滑,尤其IPCA明显亏损。
- (c) STR策略(β=0.8)表现平稳,表明均值回复策略较为稳健。
- (d) 微调Chronos(α=0,τ=15)累计收益相对平缓,表现优于无微调版本。
- 数据说明该时间序列仿佛噪声,模型难以超越简单均值回复策略,且精细调参显得必要。

4. 估值分析



本文为研究性实证分析,未涉及传统意义的企业估值模型或财务指标估值。估值环节主要体现为策略效果即投资组合预期收益与风险的量化表现(夏普比率)及风险调整后的投资价值评估。

5. 风险因素评估


  • 交易成本风险:交易成本大幅吞噬策略收益,净收益表现不佳,限制实盘可行性。

- 过拟合风险:尤其在微调流程中,权重可能遗忘预训练内容,模型可能陷入局部过拟合,降低泛化能力。
  • 市场结构变化风险:结果指出2008年后市场更有效,模型识别机会减少,策略表现随时间波动。

- 输入数据限制:模型未在股票数据集预训练,利用残差收益率消噪可能遗漏重要市场信息。
  • 模型复杂度与解释性风险:LLMs强大但缺乏金融专业知识嵌入,实际应用中风险控制和透明性较低。


6. 批判性视角与细微差别


  • 本报告的零样本评估避免了过拟合,提升实验的客观性,但微调方法相对简单且可能存在灾难性遗忘风险,未引入更复杂的方法如正则化或周期性强化预训练权重。

- 报告强调LLMs虽显示出预测潜力,但其性能不及更专门设计的深度学习模型(CNN-Transformer),提示LLMs目前在金融领域依然有待增强。
  • 对交易成本的考虑有限,现实中粗暴成本计入显示策略难以盈利,缺乏交易滑点或流动性风险的深入分析。

- 关于收益序列表现缺乏更细致的统计特征分析,未深入剖析模型能否识别因子结构或波动时变性。
  • 文中指出与STR策略高度相关,暗示LLMs的收益来源可能更多是市场已知效应的“再发现”,而非发掘完全新颖的套利机会。


结论性综合



本报告从理论和实证双重角度,展示了基于LLMs的时间序列预测在金融股票回报中的有效性。利用Ansari等人开发的Chronos模型,作者针对去除多因素影响后的美国大盘股票残差日收益率进行了深入研究。核心贡献在于用零样本测试证明,未经金融市场预训练的LLMs仍能捕捉短期收益的非随机结构,特别是在将指数加权移动平均参数α设为0.3时,预训练模型实现了长期稳定的正向夏普比率(最高达3.17),显著优于传统AutoARIMA模型。

通过微调与波动率加权调整进一步提升收益质量,尽管微调步数不宜过多,否则可能丢失预训练中学到的广泛非金融时序模式。对比显示,专门调参的CNN-Transformer展现更优表现(PCA夏普达5+),而经典短期反转策略仍表现坚挺,表明LLMs尚未完全超越业界传统金融机器学习策略。

表格与图表数据显示LLMs在无金融数据预训练时对趋势的捕捉存在偏差,通过调整EMA参数可较好弥补,且策略在2008年前更为有效,反映金融市场效率对机器学习模型预测能力有重要影响。交易成本仍旧是实现净收益的重要障碍。

总结而言,LLMs具备高潜力成为金融市场复杂套利策略的工具,尤其在发掘多层次及高维非线性时序特征方面,但当前实际应用仍需克服交易成本及过拟合风险。未来结合专门设计的深度学习结构及持续训练,LLMs有望实现在金融市场稳健盈利。

---

图表解读



表1 — 零样本预训练Chronos模型夏普比率



| 参数 α | 0.0 | 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.8 |
|---------|-----|-----|-----|-----|-----|-----|-----|
| FF |0.07 |1.27 |1.80 |1.84 |1.39 |1.39 |-0.24|
| PCA |0.04 |2.08 |2.75 |3.17 |3.25 |2.71 |0.07 |
| IPCA |-0.47|0.68 |1.19 |1.34 |1.42 |1.18 |-0.81|
  • 说明:显示在三种不同残差收益模型及不同EMA平滑参数α下,基于预训练Chronos预测构建的无交易成本组合粗夏普比率。

- 解读趋势
- PCA因子残差收益与Chronos模型配合最佳,峰值夏普(3.17)在α=0.3或0.4区间出现。
- IPCA残差数据相对挑战更大,预训练模型表现较弱。
- α过大(0.8)导致夏普严重下滑,表明过度平滑无助捕捉收益信号。
  • 联系文本:支持作者关于α参数调整影响模型偏差的解释,及PCA残差收益较为适合机器学习捕获。


表2 — 细化微调策略及对照策略夏普比率



| 策略 | FF | PCA | IPCA |
|----------------------------------------|------|------|------|
| 预训练 Chronos α=0.2 |1.80 |2.75 |1.19 |
| 微调 Chronos Q=0 τ=15 | - |0.24 | - |
| 微调 Chronos Q=0.3 τ=5 |2.12 |3.90 |2.29 |
| 微调 Chronos Q=0.3 τ=15 | - |3.97 | - |
| 微调加权 Chronos Q=0.3 τ=15 | - |4.21 | - |
| 微调 Chronos α=0.3 τ=40 | - |3.80 | - |
| CNN Transformer |3.15 |5.01 |4.29 |
| STR β=0.2 |2.23 |4.16 |2.31 |
| STR β=0.3 |2.16 |4.03 |2.31 |
| Resized STR β=0.3 |2.31 |4.27 |2.32 |
| STR β=0.8 |1.24 |2.42 |1.76 |
| STR β=0.95 |0.98 |1.38 |1.20 |
| autoARIMA |1.43 |2.10 |1.22 |
  • 说明:全面比较以不同训练步数、α参数微调后的Chronos模型、CNN Transformer、STR及AutoARIMA策略夏普比率。

- 趋势观察
- 微调提升显著,特别是在PCA数据集,4.21夏普是目前最佳LLMs策略表现。
- CNN Transformer明显优于所有策略,证明专门金融模型优势。
- STR策略表现稳健,尤其加权版本也表现不错,表明传统均值回归有效。
- AutoARIMA整体表现最弱,不适合复杂金融噪声环境。
  • 联系文本:验证作者观点,即LLMs改进空间巨大,但目前尚未全面超越专门设计深度学习模型,STR作为经典基线依然重要。


图1 四张收益累计曲线图详解


  • (a) 预训练Chronos α=0.3,三种数据集表现均稳健,PCA(橙色)表现最佳,收益持续增长至约+70%。

- (b) 预训练Chronos α=0,表现明显恶化,尤其IPCA(蓝色)大幅亏损,表明EMA调节必要性。
  • (c) STR β=0.8,收益平稳无大波动,传统套利策略表现稳定。

- (d) 微调Chronos α=0 τ=15,仅PCA表现图示,收益保持轻微增长态势,预训练效果有所回落,微调带来波动性变化。
  • 意义解读:图形直观展现策略在含噪声的金融时间序列中的表现差别,强调EMA平滑参数和微调步数对模型表现影响明显,预训练模型具备一定的信号捕捉能力,特别适合PCA残差数据,而未调节参数或无微调时效果显著下降。


---

总体评价



本报告系统探讨了基于大型预训练语言模型应用于金融时间序列的可行性,尤其通过残差收益率数据集对模型的零样本与微调能力进行了严格评估。结果显示,LLMs能够超越传统统计方法(如AutoARIMA),成功挖掘含有高噪声的金融数据中的结构性信息,达到较高的夏普比率。然而,现有LLMs尚难以超越专门设计的金融深度学习架构,且交易成本大幅折损潜在收益,说明实盘应用仍有不小门槛。

该研究通过丰富的数据集、严格的实证方法和系统的对照试验,提供了宝贵的金融时间序列预测视角,促进对LLMs金融潜力的深入理解,并为未来模型设计优化提供了方向。

报告