Kronos: A Foundation Model for the Language of Financial Markets
创建于 更新于
摘要
本文提出Kronos,一种针对金融K线序列的基础模型框架。通过设计基于Transformer的层次化量化器,将连续多变量K线数据离散编码为粗细粒度双子码,并利用自回归Transformer模型进行预训练。基于超过120亿条覆盖全球45个交易所、多频率的K线数据,Kronos在价格序列预测、波动率预测、合成K线生成及投资回测等多项金融任务中均取得显著性能提升,最高达传统模型的93% RankIC提升,展现了强泛化性和多任务适应能力,为金融时序分析提供了统一且高效的表示学习方案[page::0][page::1][page::4].
速读内容
Kronos模型架构及创新设计 [page::1][page::2][page::3]

- 采用两阶段解决方案:(1)基于Transformer的K线数据编码器实现二元球面量化(BSQ)离散化;(2)利用基于层次子码的自回归Transformer进行序列建模。
- 粗细子码连续预测的层次化设计降低了模型计算复杂度同时提高预测质量。
- 训练使用超过12亿条多资产多频率K线数据,保证模型覆盖市场多样性和泛化能力。
优异的多任务金融应用表现 [page::4][page::5]

- 价格序列预测中,Kronos大模型较最优TSFM基线提高了93% RankIC。
- 波动率预测MAE较最优模型减少约9%,表明对风险状态的捕捉更准确。
- 合成K线生成在判别分数和TSTR实验中分别提升22%,反映出高质量合成能力。
- 基于预测信号的投资模拟中,Kronos显著提升超额收益(AER)与信息比率(IR),验证实际可用性。
离散编码与层次自回归建模优势验证 [page::6]

- 离散化结合顺序子码预测显著优于连续空间直接回归及并行预测,验证模型设计合理性。
- 随词汇表大小增加,重构损失与预报性能显著改善,支持采用大词表量化。
- 多样本推理采样增强策略在推理时平均多条轨迹提升了IC和RankIC的稳定性。
量化因子构建及策略总结 [page::1][page::4][page::6]
- 输入6维OHLCVA指标,采用独特的BSQ离散编码为20-bit层次子码,有效捕捉价格与交易量的复杂互动。
- 预训练使用超过120亿条历史多市场数据,实现横跨全球资产的时间序列表示学习。
- 推理时采用温度调节和top-p采样变量控制生成多样性与精度,根据任务不同可调优参数。
- 结合多任务评估,从短期价格预测到长周期波动预测及合成生成,模型表现持续领先行业基线。
大规模金融K线数据集和清洗流程 [page::3][page::9][page::10]
- 数据来自全球45个交易所涵盖股票、加密货币、外汇和期货,时段覆盖1分钟至周线。
- 系统性处理缺失值及异常数据,包括结构性断点剔除、流动性与停滞期过滤,确保训练数据质量。
- 分频频率自适应阈值过滤低质数据,构建12亿条高质量K线观察序列。
深度阅读
Kronos: A Foundation Model for the Language of Financial Markets — 深度分析报告
---
1. 元数据与概览
- 报告标题:《Kronos: A Foundation Model for the Language of Financial Markets》
- 作者及机构:Yu Shi 等,清华大学信息科学院、自动化系
- 时间:报告未注明具体发布时间,数据最新至2024年中
- 主题方向:基于大规模预训练的金融市场时间序列基础模型,专注于K线数据(OHLCVA)
核心论点及目标:
报告提出了Kronos,一个专门针对金融市场K线数据设计的统一可扩展预训练框架。该模型利用一种专门的分词器(tokenizer),通过离散化连续市场数据为具有层次结构的令牌,并在超过120亿条来自45个全球交易所的多市场多频率数据上完成自回归预训练,达到精准捕捉时序和跨资产关系的目的。与现有通用时间序列基础模型(TSFMs)相比,Kronos在价格预测、波动率预测及合成K线生成任务上均显著提升,最高提升幅度达87%-93%不等,且可实现零样本任务快速泛化。报告还提供了完整开源代码。
总体上,报告强调:
- 针对金融K线数据的特殊性设计tokenizer和预训练框架的必要性;
- 规模化多市场数据和层次化建模对提升金融时间序列分析性能的关键作用;
- Kronos可作为金融时间序列领域通用基础模型,为下游任务提供强有力支撑。
---
2. 逐节深度解读
2.1 摘要与引言
- 背景:大规模预训练的基础模型(FMs)在NLP和CV领域引发范式变革,时间序列基础模型(TSFMs)试图复制此成功,但在金融K线数据上表现有限。
- 挑战:
- K线数据的低信噪比、强非平稳性和OHLCVA属性间的复杂高阶依赖与通用TSFM的归纳偏差不匹配。
- 金融领域在现有TSFM预训练语料中数据占比极低,且关键任务(波动率预测及合成生成)常被忽略。
- 贡献总结:
- 设计具有层次结构的tokenizer,分为粗粒度和细粒度子令牌,实现多尺度市场动态建模。
- 预训练规模超120亿K线记录,覆盖45个交易所及7个时间尺度。
- 在价格预测、波动预测、合成K线生成及投资模拟等多任务显著优于现有基线。
- 提供包括三个模型规模的Kronos家族,支持灵活部署。
2.2 预备知识和建模目标(第2页)
- 输入为6维向量:开盘价、最高价、最低价、收盘价、成交量、成交额(OHLCVA)。
- 目标为预测未来H期的多维K线序列。
- 输入连续时间序列经过学习型量化映射到离散token序列,转换为自回归token序列建模任务。
- 离散化表示支持生成模型应用,包括后文介绍的波动率预测和合成数据生成。
2.3 方法论核心架构(第2-3页)
- 两阶段框架:
- Tokenization阶段:采用Transformer基编码器与带BSQ(二进制球面量化)机制的量化器,编码连续序列为具有双层子令牌结构的二进制token,分别模拟粗粒度和细粒度信息。
- 自回归解码阶段:利用解码器Transformer自回归预测粗子令牌后再预测细子令牌,形成递进的层次化生成过程。
- 量化损失设计:
- 粗粒度子令牌优化粗糙重构误差,
- 细粒度子令牌优化完整重构误差,
- 量化约束确保训练稳定。
- 技术优势:
- 由20比特构成token,划分为两个长度相等的子token,令词汇表大小由$2^{20}$降至两个$2^{10}$,有效平衡参数规模和推理效率。
- Transformer细节:
- 使用RoPE位置编码,Pre-LN层归一化与RMSNorm,提升训练稳定性。
- 训练细节:
- 训练数据涵盖7个采样频率、45个交易所,多资产类别。
- 数据经过专门的质量清洗管线保证纯净。
- 最大上下文长度512,方便各频率不同时间尺度的灵活预测。
---
3. 图表与数据深度解读
3.1 图1(第0页)——Kronos性能雷达图
- 描述:横轴覆盖5个关键量化金融任务:收益预测(Return Forecasting)、价格预测(Price Forecasting)、波动率预测(Volatility Forecasting)、K线生成(Kline Generation)、投资模拟(Investment Simulation), 每个细分指标用不同量化指标衡量(RankIC、IC、MAE、R²、AER等)。
- 解读:
- Kronos各个型号(small/base/large)在所有任务指标上均远优于包括零样本TSFM、全样本TSFM、经济计量波动模型和其他生成模型类别的现有最佳结果。
- 以价格预测RankIC为例,KronosLarge超越最佳TSFM约93%,超最佳非预训练模型约87%。
- 意义:
- 充分体现了专门化大规模金融K线预训练的重要性。
- 验证了Kronos多任务泛化能力及模型体量对性能提升的正相关。
3.2 图2(第2页)——Kronos两阶段框架示意图
- 描述:左侧显示K线Tokenization流程,Transformer编码器产生待量化隐变量,经BSQ映射为粗细两级子令牌,并带有重构损失反馈;右侧为自回归预训练,输入编码序列,经Transformer预测下一时刻粗子令牌,再用交叉注意力机制预测细子令牌。
- 解读:
- 显示token分层设计的架构细节及输入输出流程。
- 交叉注意模型设计强化粗细粒度子令牌间的条件依赖与信息递进。
- 该图支撑了文本对两阶段设计及层次化预测理论的阐述。
3.3 图3(第3页)——K-line Tokenizer架构详细结构示意图
- 描述:展示该模块的Transformer编码器与解码器流程,以及BSQ如何将连续隐特征映射到二进制组合码。
- 解读:
- 图示中,6维OHLCVA数据被独立处理,映射到高维嵌入,再进行二进制投影分割。
- 该方法用以实现精细且可控的离散表达,符合金融时序数据对编码质量和泛化性的双重需求。
3.4 图4(第4页)——五大金融下游任务的主实验结果
- (a) 价格序列预测:Kronos小/中/大均表现领先,指标均显著优于其他模型,条形长度明显至顶部表现。
- (b) 收益预测:类似趋势,指标IC和RankIC持续上升。
- (c) 实际波动率预测:Kronos表现MAE更低、R²更高,状态优于典型经济计量模型如ARCH与GARCH。
- (d) 合成K线生成:利用判别得分和TSTR测试,Kronos生成数据更真实且更具预训练价值。
- (e) 投资模拟回测:Kronos获得最高年化超额收益和信息比率,显示预测能力可转化为实际投资价值。
3.5 图5(第5页)——合成数据空间分布与核密度估计
- 描述:t-SNE降维显示真实数据(红)与多种模型生成数据(蓝)分布对比,及对应核密度估计对抽样数量的影响。
- 解读:
- Kronos家族模型生成数据空间与真实数据高度重合,反映较高的样本多样性与真实感。
- DiffusionTS, TimeVAE, TimeGAN等其他主流模型均出现可视分布偏差和密度失配,表明拟合不足。
- 价值:
- 支撑对报告中“生成质量提升22%”的定性解释。
3.6 图6(第6页)——词汇大小对性能的影响
- 描述:展示词汇大小(2^14至2^20)对重构性能(MAE、MSE)及三个预测任务关键指标(IC、RankIC、MAE、R²)的影响。
- 观察:
- 词汇越大,重构误差越低,预测指标越好。
- 效果随词汇量增加趋缓,体现“代表性细粒度”提升带来的预测精度增长。
- 含义:
- 量词表达的精细划分是捕获复杂市场结构的关键。
3.7 图7(第6页)——采样数量对推理性能提升的影响
- 描述:绘制下游两个预测任务IC和RankIC指标随采样预测路径数量增加的走势。
- 观察:
- 随着采样路径数量从1增至20,性能显著提升且稳定。
- 解释:
- 多样本蒙特卡洛集成减少生成过程的方差,有效解决单路径采样的随机性风险。
3.8 图8(第15页)——Inference采样超参数敏感度分析
- 描述:分别测试温度(T)和截断概率(top-p)对四项不同下游任务性能的影响。
- 结论:
- 预测任务在较低温度(约0.6)和较小top-p时性能最佳,偏好稳定确定性输出。
- 生成任务(波动率、合成K线)更适合高温度(接近1.0)和更大top-p,提高多样性。
附加图表亮点
- 图9(第16页):投资回测累计收益曲线,Kronos版本领先明显,且更稳定。
- 图10(第22页):K-line Tokenizer生成数据在收盘价和成交量上的重构表现,形态曲线吻合较好。
- 图11(第23页):5分钟K线于特朗普贸易战期间,展示Kronos对极端跳空和高波动序列的高精度重构能力。
- 图12(第24页):不同类别(高频、低频、未用)token替换造成的K线形态差异,显示词表建立了市场行为的语义分层。
- 图13、14(第25、26页):多个资产与频率上的合成数据视图对比,Kronos生成数据的分布和密度更贴近真实。
---
4. 估值与模型规模分析
(报告无直接企业估值部分,故此部分聚焦模型规模与设计权衡)
- Kronos系列模型分为small、base和large,参数规模分别约2500万、1亿和近5亿,层数、模型维度、注意力头数逐步扩大(表1)。
- 大模型性能持续提升,体现出金融时序领域的规模效应(图4、6)。
- 码字拆分策略将20-bit token拆分为2个10-bit子token,极大降低词汇表大小及模型对应参数,避免巨额词汇嵌入参数(表12)。
- 拆分数超过2带来的参数下降极其有限,且推理步数与架构复杂度成线性增加,带来不可忽视的性能开销,因此选择$n=2$实现良好折中。
---
5. 风险因素评估
报告中主要隐含风险因素包括:
- 数据质量与清洗:金融数据存在缺失、异常跳变情况。尽管报告设计了严格的缺失值处理(拆分与零填充)和低质量区间过滤(结构断点、流动性与价格停滞检测,基于多频率参数阈值,算法详见附录),仍难完全排除噪声对模型的潜在影响。
- 模型规模与推理效率:大型模型训练与推理成本高昂,部分模型版本推理延迟较长,需根据实际使用场景权衡。
- 泛化能力:虽然在多市场多资产数据上表现出色,仍存在跨市场、规避历史极端事件外推能力有限的潜在风险。
- 采样策略风险:自回归生成过程内在随机性带来的预测不确定性,需依赖多样本集成降低波动。
缓解策略:
- 采用分层离散tokenizer抑制噪声,编码潜在向量于球面二值空间,优化稳定性;
- 多路径采样与集成提升推断鲁棒性;
- 数据平衡重采样保障资产类别多样性覆盖;
- 采用截断采样调节,提高模型对不同任务的适配性。
---
6. 批判性视角与细微差别
- 模型设计合理创新,但tokenizer层次结构所带来的重构与生成提升是否完全发挥,报告中未详细对比“非层次式”性能差异(仅简单骨架,微差异很小,表9);
- BSQ量化虽有误差上界但难以保证所有异常市场事件准确编码,模型面对极端罕见事件表现未知;
- 多路径采样提升性能但带来推理延迟,真实落地时需权衡;
- 评测指标倾向排名相关指标,可能过于关注排序性能,忽视绝对预测值的偏差与异常;
- 数据清洗策略风控阈值经验性设计,可能局限新兴市场或特殊市场;
- 目前所用6维OHLCVA输入虽便捷但无包含宏观经济、新闻等多维信息,未来结合更广泛特征可有提升空间;
- 报告代码开源,增强验证与再现,但未涵盖风险模拟及实时实盘验证。
---
7. 结论性综合
总结来看,Kronos在金融市场K线数据上开创了大规模基础模型预训练范式,提出了创新的层次化tokenizer与自回归Transformer架构,实现了史上规模最大、覆盖最广的金融多市场K线语料库的训练。模型三种尺寸版本满足不同部署需求,大幅领先现有同类TSFM和经济计量模型,验证了金融专属预训练与精细离散编码的重要性。
从定量结果分析:
- 价格序列预测:Kronos最高版本RankIC提升超过93%,验证模型对价格走势捕捉能力卓越;
- 收益预测和波动率预测:均优于传统经济计量模型(ARCH、GARCH),准确性稳步提升;
- 投资模拟:Kronos预测信号显著提高模拟收益率及信息比,桥接了预测研究与实际应用。
图文结合,报告完整阐释了模型架构、训练、推断细节,并通过详实数据和结果展示了方法创新和实践价值,具有较高参考价值和应用潜力。
---
重要部分附图示范
- 图1:

- 图2:

- 图4:

- 图5:

- 图6:

- 图7:

- 图8:

- 图9:

- 图10:

- 图11:

- 图12:

- 图13:

- 图14:

---
结语
Kronos作为金融市场时间序列基础模型的开创作,为金融AI领域展现了一条专业化数据驱动、大规模预训练与层次离散建模结合的新路径。其设计思想和实验结论值得投资策略师、量化研究者及金融AI工程师深度研读以期在金融模型和实证研究中获得启示。[page::0,page::1,page::2,page::3,page::4,page::5,page::6,page::15,page::16,page::22,page::23,page::24,page::25,page::26]