Tokenizing Stock Prices for Enhanced Multi-Step Forecast and Prediction
创建于 更新于
摘要
本报告提出了Patched Channel Integration Encoder (PCIE)模型,通过创新的股票价格数据“分块令牌化”方法,融合绝对价格与价格变动通道,实现多步股票价格的预测与预测。该方法有效缓解了多步预测中的累计误差问题,并显著提升了模型在两个真实股票数据集上的均方误差和平均绝对误差表现,实现了当前最先进的多步股票价格预测与预测性能[page::0][page::4][page::9][page::12]。
速读内容
- 研究背景与挑战:
- 股票价格预测与预测在金融投资和风险管理中极为重要,但受价格数据的非平稳性及统计特性差异影响,准确预测难度大[page::0][page::1]。
- 多步预测相比单步预测信息更丰富,但面临累计误差和长期时序波动带来的挑战,传统多步方法多采用迭代方式,易放大误差[page::1][page::4]。
- PCIE模型核心创新与结构:
- 提出“分块令牌化”(tokenization)方法,包括单变量局部分块、适应性时序学习模块(ATL)和通道混合机制,有效捕捉时间依赖和多通道价格关联[page::4][page::5][page::6]。
- 通过实例归一化处理,解决了股票价格均值和方差随时间变化的问题,实现稳定的时序分布适应[page::7]。
- 采用基于批归一化的多头自注意力机制和直接多步线性预测输出,避免基于迭代预测的累计误差,提升预测稳定性[page::6][page::7].

- 数据与基线对比:
- 实验在两个U.S.股票实盘数据集(US71和US14L)上进行,分别涵盖71只和14只高交易量股票,时间跨度6至18年,保证了数据的代表性与多样性[page::7][page::8]。
- PCIE在多步(10、20、40、60天)预测/预测任务上整体均方误差(MSE)和平均绝对误差(MAE)均优于PatchTST、Informer、Autoformer和D-Va等先进模型,尤其在保留通道间相关性方面优势明显[page::9][page::10]。
| 任务/步长 | PCIE MSE (US_71 Forecast) | PatchTST MSE | D-Va MSE | Autoformer MSE | Informer MSE |
|----------|--------------------------|-------------|---------|---------------|--------------|
| 10 | 0.0690 | 0.0851 | 0.2229 | 0.1292 | 0.1527 |
| 20 | 0.1352 | 0.1650 | 0.2047 | 0.2112 | 0.3483 |
| 40 | 0.2635 | 0.2986 | 0.3269 | 0.3134 | 0.3802 |
| 60 | 0.3337 | 0.3787 | 0.4190 | 0.3897 | 0.4351 |
- 数据预处理创新:
- 融合绝对价格与价格变动两个通道的输入预处理方法,进一步提升模型预测效果,增幅最高达3.985%[page::9][page::10]。
- Tokenization与消融实验:
- Tokenization过程提升模型表达能力,显著改善预测准确性。消融实验显示,去除该过程后性能大幅下降,验证了构建多维高阶通道交互表示的重要性[page::11]。
- 未来展望:
- 提出扩展模型以融合宏观经济数据和新闻情绪分析,采用更复杂注意机制及在线自适应学习,以提升模型的灵活性及适应市场动态能力[page::12]。
深度阅读
报告分析与解构:Tokenizing Stock Prices for Enhanced Multi-Step Forecast and Prediction
---
1. 元数据与概览
报告标题:Tokenizing Stock Prices for Enhanced Multi-Step Forecast and Prediction
作者:Zhuohang Zhu, Haodong Chen, Qiang Qu, Xiaoming Chen, Vera Chung
发布机构:悉尼大学(University of Sydney)与北京工商大学(Beijing Technology and Business University)联合研究
时间:基于文中数据最晚至2023年及部分参考文献最新至2024年
主题:股票价格的多步时间序列预测与变化预测,尤其是引入“Token化”方法及新型编码器模型 (PCIE) 来提升多步股票价格预测和变化预测的精度。
核心论点:
- 股票价格预测和价格变化预测虽基于相同数据,但统计特性差异显著,预测目标分布不同(价格为对数正态分布,价格变化为正态分布)。
- 当前主流方法大多只做单步预测,导致多步预测存在累积误差难题。
- 本报告提出了一种名为Patched Channel Integration Encoder(PCIE)的新型模型,通过对多通道(价位及其变化率)数据做“Token化”处理并结合自适应时间学习机制,有效缓解了累积误差,提升了多步预测与预测的准确性。
- 文章系统性对比了PCIE与其他先进模型,证实其在多数据集与不同预测长度下的优越性。
- 提出了配套的数据预处理方法,将价格与变动率融合输入,进一步提升整体预测能力。
---
2. 逐节深度解读
2.1 引言(Introduction)
报告开篇从全球股票市场规模和交易量切入,强调准确的股价预测对于投资、风险管理等领域的重要性。提出股票价格时间序列的非平稳性(均值与方差随时间变化)和噪声性(随机性)是预测难点,当前研究多聚焦于单步预测,少有覆盖多步预测的综合模型,尤其是同时解决价格预测和变化预测的模型较少[page::0,1]。
2.2 相关研究(Related Works)
- 技术分析与基本面分析分支
- 预测任务分为分类(涨跌方向)与回归(数值预测),其中本报告聚焦回归任务,同时兼顾预测(价格变化率)和预测(价格)两者。
- 公开研究多聚焦单步多步预测少且多步预测因累积误差难度较大而被忽略[page::2,3]。
2.3 方法论(Methodology)
2.3.1 任务概述(Task Overview)
输入为多通道股票数据序列:开盘价、最高价、最低价、收盘价、成交量及他们的百分比变化。预测任务区分为:
- 价格预测:直接预测未来L天的收盘价序列
- 变化预测:预测未来L天收盘价的百分比变化序列
强调数据时间频率可调,比如日线或毫秒高频数据[page::3]。
2.3.2 模型结构(Model Overview)
- 首先通过实例归一化处理和“univariate patching”将时间序列切成局部patch,降低噪声影响,并减少计算成本。
- 采用自适应时间学习模块(ATL)对patch学习特征,动态选择最佳学习方法(线性共享、独立线性或MLP)以适配不同数据模式。
- 执行通道混合,将各通道patch特征合并,捕获跨通道依赖关系(即不同价格指标间的关系)。
- 最终通过自注意力机制提取长期依赖,并且采用直接多步预测策略,避免迭代预测的累积误差[page::4,5,6,7]。
2.3.3 Tokenization过程
- 详解“univariate patching”概念,即用长度为P的滑动窗口从时间序列中抽取patch,步长为S,允许重叠。
- 机理:减小噪声影响,压缩输入长度,节省计算资源。
- 自适应时间学习模块通过训练决定采用哪种时间序列编码方式,提升表达能力。
- 加入位置编码辅助模型理解时间顺序。
- 最后通过自注意力实现通道混合获得多通道联合特征,为后续预测阶段做准备[page::5,6].
2.3.4 损失函数与归一化
- 采用均方误差(MSE)衡量预测值与真实值间偏差。
- 采用实例归一化来缓解当时间序列统计特性(均值、方差)随时间漂移时对模型造成的影响[page::7].
---
3. 图表深度解读
3.1 图1:Tokenization Process
该图展示了输入的多通道时间序列(如开盘价、高价、低价、收盘价)经过“实例归一化”后切成多个局部patch块(univariate patching),每个patch为一个小段时间序列。经过自适应时间学习块后各patch独立编码,随后拼接成矩阵执行通道混合处理(channel mixing),生成适合自注意力模型的token序列,显著减少了序列长度但保留了关键局部动态和多通道依赖。
解读:此流程通过“分片编码”捕获了时间序列中微观且复杂的局部动态模式,结合跨通道融合增强了对不同价格属性关联性的建模。避免了直接使用长序列带来的噪声影响和计算瓶颈,有助于提高预测稳定性及效率[page::4]。

3.2 图2:PCIE模型概览
图示PCIE整体架构流程:
- 输入为多通道长序列,定义长度T和通道M。
- 首先tokenization模块将输入切分成多维patch,形成token序列。
- 将token输入多层Transformer编码器(多头自注意力 + 前馈网络),构建深层时序依赖表达。
- 通过解码层摊平输出得到长度L的多步预测值序列。
解读:该图细致展示了token生成、编码和最后预测的流程,强调多头注意力对多通道混合信息的处理能力,模型结构设计兼顾横向多变量信息及纵向时序依赖,是传统单通道或迭代预测模型的提升[page::4]。

3.3 表1:数据集统计
| 数据集 | 时间范围 | 股票数量 | 交易日数 |
|----------|------------------------|----------|----------|
| US71 | 2016/01/04 - 2023/12/29| 71 | 2011 |
| US14L | 2005/01/04 - 2023/12/29| 14 | 4780 |
说明两个数据集覆盖范围长,且包含高交易量和市值代表性股票。US14L时间跨度明显更长,测试模型在数据分布显著漂移情况下的稳定性及泛化能力[page::8]。
3.4 表2:模型对比性能(MSE和MAE指标)
- 评测指标为均方误差(MSE,值越低越好)和平均绝对误差(MAE,值越低越好)
- 多步长度(10,20,40,60)均测评
- 数据集为US
主要结果:
- PCIE在所有任务均显著优于PatchTST、D-Va、Autoformer及Informer。
- PatchTST忽视跨通道信息,导致表现次级。
- D-Va和Autoformer对稳定分布假设依赖强,故预测任务表现好于预测任务。
- Informer整体表现最差,归因于压缩自注意力的卷积操作信息丢失严重。
【示例数据】
US71 Forecast 10步时,PCIE MSE为0.0690,最接近的PatchTST为0.0851,D-Va高至0.2229。
US14L Prediction 60步,PCIE MSE为1.4611,PatchTST为1.5116,Informer为1.5362等[page::9,10]。
3.5 表3:预处理效果提升
将价格和价格变化混合输入后,所有模型性能均获提升,其中PCIE提升最明显(接近3-4%),而Informer提升较小不到1%。这验证了本文提出的新型数据预处理策略对模型泛化及准确性的贡献[page::10]。
3.6 表4:消融实验
去除tokenization模块后,PCIE性能在所有任务中均下降,集中体现为MSE和MAE均有显著恶化,尤其是多步预测任务。表明tokenization通过捕获跨通道与局部时间信息,是模型性能瓶颈提升的关键途径。
示例:
US71 Forecast 10步,带tokenization时MSE 0.0690,去除tokenization后增至0.0838,体现性能提升明显。
预测任务变化类似[page::11]。
---
4. 估值分析
本研究并非直接针对财务估值领域,而是聚焦时间序列预测模型性能提升。关于估值层面,文中未涉及具体的估值方法(比如PE、DCF等),也无相关敏感性分析。主要着眼于模型预测准确度提升带来的实用意义。
---
5. 风险因素评估
报告未专门列出风险评估章节,但从文中及方法可间接识别潜在风险:
- 股票序列高度噪声和非平稳性带来的预测不确定性。
- 多步预测累积误差带来的误判风险。
- 模型假设(如时间局部稳定性、通道关联性)失效时性能下降。
- 数据预处理(价格与变化合并)可能对异常事件表现的鲁棒性影响。
作者通过结合实例归一化、tokenization和自适应时间学习模块缓解了大部分分布漂移和噪声风险,但未来仍需关注模型对极端行情及新型数据特征的适应性。文末也提及未来探索宏观经济指标与新闻情绪等,旨在降低单一价格数据局限导致的风险[page::7,12]。
---
6. 批判性视角与细微差别
- 模型设计合理且针对股票时间序列的非平稳性与噪声特点做了专门优化,体现较强针对性。
- 采用直接多步预测避免累积误差的设计显著优于过往迭代预测方法,具有理论和实验支持。
- Tokenization方法是关键创新,丰富输入表达,增强模型学习能力。
- 然而,报告未详述模型在极端市场波动期间或突发事件下表现,或对异常值影响的稳健性。
- 一定程度上,模型对时间局部稳定的假设仍未完全打破,未来可能需要结合更多宏观因素提升鲁棒性。
- 文中部分对比模型(Informer等)采用的技术基准来自其它领域,股票领域特殊性对其影响未详细分析。
- 受限于文中数据规模和覆盖股票种类,泛化到更大规模或不同市场的适用性需后续验证。
- 本文研究聚焦技术分析数据,未结合基本面或舆情信息,这可能限制模型在特定情境下的表现。
---
7. 结论性综合
本文提出的Patched Channel Integration Encoder(PCIE)模型,通过将多通道股票价格及价格变化序列token化、采用自适应时间学习块和跨通道混合自注意力机制,有效捕获时间序列内局部与全局复杂模式,并显著缓解了传统多步预测累积误差不足。
实证上,在两个高质量股票历史数据集(71只高流动性股票与14只高市值长时间序列)上,PCIE在多步股票价格预测和价格变化预测任务中均达到领先现有SOTA水平,MSE与MAE指标均优越于PatchTST、D-Va、Autoformer及Informer模型。此外,创新的数据预处理(将价格与价格变动合并输入)进一步提升了多模型性能,显示出优良的泛化潜力。
图表分析中,Tokenization流程精细化了复杂股价时序的局部特征学习,通道混合有效增强不同价格指标间的依赖建模。消融实验明确表明此tokenization对达成性能提升不可或缺。
综上,作者通过理论分析、创新模型设计与严谨实验验证,展示了PCIE在股价多步预测领域的显著优势与应用潜力。后续导入更多宏观及非结构化信息、探索更复杂的注意力结构以及在线自适应学习将进一步推动该方向发展。[page::0-12]
---
总结
本研究准确定位了股价多步预测中的关键技术瓶颈——输入数据的噪声与非平稳性、累积误差及稳健性问题,通过tokenization分片编码和跨通道整合注意力机制创新设计,实现了高性能且高效的多步预测。实验证明PCIE模型稳健有效,在多任务多数据集上均优于当下主要基线,验证了其方法论的科学性和实用价值。相关技术对于金融机构的风险管理、交易策略制定和衍生品定价均具有良好的现实意义和推广潜力。
---
(本文所有结论均基于原文内容,引用页码如标注)