`

Transformer Encoder and Multi–features Time2Vec for Financial Prediction

创建于 更新于

摘要

本研究提出了一种结合Time2Vec与Transformer编码器的新型神经网络架构,支持多股票价格协同预测。通过相关性特征筛选和多特征聚合,提升了模型对金融时间序列的捕捉能力,实证显示该方法优于传统位置编码及LSTM、RNN等模型,且参数更少,具备较强泛化性与预测准确性 [page::0][page::1][page::2][page::3][page::4]。

速读内容


多特征相关性分析与特征聚合方法 [page::1][page::2]


  • 通过对Exxon Mobil及相关股票的自相关和互相关分析,发现相关股票在价格变动上具有较强同步性。

- 利用Geometric Mean Not NaN (GMNN)方法聚合多时间序列特征,处理缺失数据,提高输入特征质量。
  • 设计了填充缺失数据、14天移动平均、百分比变化归一化、GMNN聚合的预处理流水线。


创新模型架构设计及细节 [page::2]


  • 结合Time2Vec时间编码与Transformer Encoder的自注意力机制捕捉线性与周期性时间依赖。

- 利用多层Encoder模块、残差连接、池化层和Dropout,增强模型稳定性和泛化能力。

多特征模型性能评估对比 [page::3]


| Target | Model | RMSE | MSE | MAPE | MAE | R2 |
|--------|-------------|--------|----------|---------|---------|--------|
| NASDAQ | NAS | 0.0291 | 0.0008 | 3.1392 | 0.0187 | 0.8264 |
| NASDAQ | NAS SP | 0.0248 | 0.0006 | 2.6785 | 0.0161 | 0.8743 |
| XOM | EM | 0.0350 | 0.0012 | 4.3509 | 0.0204 | 0.8163 |
| XOM | EM C | 0.0333 | 0.0011 | 4.0724 | 0.0200 | 0.8330 |
| MS | MS | 0.0148 | 0.0002 | 1.7162 | 0.0105 | - |
| GS | MS GS | 0.0221 | 0.0005 | 2.8797 | 0.0156 | 0.8545 |
  • 多特征模型在2/3样本组中表现优于单特征模型,且相关性越强,提升效果越明显。


与传统深度学习模型对比 [page::3]


| Target | Model | RMSE | MSE | MAPE | MAE | R2 |
|--------|------------|-------|---------|--------|--------|--------|
| NASDAQ | TT2VFin | 0.0248| 0.0006 | 2.6785 | 0.0161 | 0.8743 |
| NASDAQ | LSTM | 0.0272| 0.0007 | 2.9289 | 0.0176 | 0.8490 |
| NASDAQ | RNN | 0.0316| 0.0010 | 3.6215 | 0.0224 | 0.7959 |
  • TT2VFin模型优于LSTM和RNN,且参数量仅为其1/3左右。

- 添加位置编码层反而降低性能,掩码机制影响不大。
  • 其它目标股票及分组结果趋势一致,验证了模型的鲁棒性。


预测结果可视化及泛化能力 [page::4]


  • 预测的收盘价与实际价格高度吻合,展示模型在市场波动剧烈期间依然保持良好预测能力。

- 结果表明结合多源相关特征和Transformer Encoder的Time2Vec编码是未来金融时间序列预测的有效方法。

深度阅读

深度剖析报告:《Transformer Encoder and Multi–features Time2Vec for Financial Prediction》



---

一、元数据与报告概览



报告标题:《Transformer Encoder and Multi–features Time2Vec for Financial Prediction》
作者:Nguyen Kim Hai Bui、Nguyen Duy Chien、Péter Kovács、Gergő Bognár
所属机构:匈牙利ELTE Eötvös Loránd大学数值分析系
发布日期:不明确,但文中数据使用截至2024年9月30日,且引用文献大多2023年及之前,推断为2024年年中左右
主题:面向金融时间序列预测的深度学习模型,特别是结合Transformer Encoder和Time2Vec编码的多特征股票价格预测模型

核心论点及主要贡献
报告针对金融时间序列预测中模型对多个相关股票特征联合学习的需求,提出了结合Time2Vec时间编码的Transformer Encoder架构,创新性地引入基于相关性的特征选择策略,从而提升多股票价格预测准确性。该方法相较传统位置编码和单特征模型有明显优势,更优于现有的RNN及LSTM模型。作者强调:
  • Transformer的自注意力机制适合捕捉短期与长期依赖,有助于理解市场价格模式

- 多特征相关性选择能够突破个别特征局限,强化对行业相关股票动态的整体理解
  • Time2Vec编码替代传统位置编码,能捕捉时间的周期性和线性特征,提高序列模型表现

- 系统性调参和多模型对比验证了提出方案的有效性和优越性

本报告的重要信息包括:多条关键股票组合的相关性分析,数据预处理框架,模型结构设计,性能比较与预测效果图示,最终达到提升金融时间序列预测准确性的目标。[page::0] [page::1] [page::2] [page::3]

---

二、报告内容逐节深入解读



1. 引言(Introduction)



股票价格预测是一项复杂且安全关键的时间序列任务,需平衡短期交易与长期投资。不同行业相关股票间价格存在显著联动,传统单一特征预测难以充分利用这种信息。技术分析虽广泛应用,但要捕获多变且非线性的股价走势,方法依赖时序深度模型。

报告回顾传统统计模型(ARIMA、指数平滑等)的局限,指出RNN/LSTM及其对长依赖的不足。Transformer凭借自注意力机制实现长距离依赖建模,无需顺序计算,因而非常适合时间序列金融预测。此外,深度学习能降维提取关键特征,有效支撑市场趋势预测。

本工作重点突出两点创新:(1)基于相关性的多特征选择,捕获股票间共动性;(2)新颖地融合Time2Vec编码的Transformer Encoder,弥补传统位置编码缺陷。[page::0]

2. 背景知识(Background)



a. Transformer模型



Transformer的自注意力机制使得能够并行处理整个序列,避免RNN的顺序限制,擅长捕捉数据中远距离依赖。结构以多层Encoder为核心,每层包含多头注意力和前馈网络,加深对时序内关系的理解。报告聚焦Transformer Encoder部分,适合提取输入特征间的关系特征。[page::1]

b. Time2Vec编码



Time2Vec为通用时间向量编码,将时间点映射为包含线性和周期成分的向量:第一个成分为线性函数,其他成分为带权周期函数(如正弦)。这一设计使模型能捕获周期性变化,且比传统Transformer位置编码更灵活及可解释。报告将Time2Vec集成于Transformer Encoder输入端,增强时间动态建模能力。[page::1]

c. 相关性分析



通过自相关和互相关函数,度量不同股票时间序列之间的线性相关度,数值介于-1至1。报告采用归一化的交叉相关函数以量化股价间的依赖关系,为后续多特征选取提供数据基础。[page::1]

d. 特征聚合



为解决多股票数据中缺失值及采样不一致问题,报告采用几何平均忽略NaN(GMNN)的方法,将多股票时间序列合并为单一特征向量,既保留多维信息又简化输入。此方法为预处理核心环节,保证模型训练数据的完整性和一致性。[page::1]

3. 方法论(Methodology)



a. 研究动机



通过对如Exxon Mobil相关股票的相关性分析(见图1),报告发现:目标股自身自相关在非零滞后处趋近零,表明其单独历史数据对未来预测的局限;但与其他相关股票的交叉相关较高(如Chevron与Exxon交叉相关达0.84),说明联合考虑多个高度相关股票的特征模型有较强预测能力。

因此,设计整合多股票相关特征的输入,又精简成单个聚合特征的方法,有望提升模型的识别多股票共同行为的能力,实现更精准预测。[page::1]

b. 数据获取与预处理



以Yahoo Finance获取多组股票日线数据(截至2024年9月30日),选取三组高度相关股票:
  • 组A:NASDAQ(ˆIXIC)与S&P500(ˆGSPC)

- 组B:Exxon Mobil(XOM)与Chevron(CVX)
  • 组C:Morgan Stanley(MS)与Goldman Sachs(GS)


预处理流程详见图2:包括缺失值填充与14天移动平均平滑,计算次日百分比变化,再归一化(0~1),最终以GMNN进行特征聚合。预测后通过逆归一化及逆移动平均还原价格趋势(图3),保证最终预测结果的实用性。[page::2]

c. 模型结构



图4展示了模型详细架构,核心包括:
  • 输入先由Time2Vec编码层处理,采用线性、正弦、余弦等函数捕获时间动态

- 随后通过多层Transformer Encoder(6层),每层包含多头自注意力、位置式前馈、层归一化及残差连接,提升信息表达与模型稳定性
  • 池化层减少特征空间,保留关键信息

- Dropout层用于防止过拟合

相比传统复杂模型,结构轻量,重视时间周期及长短期依赖的灵活捕捉。[page::2]

4. 结果与评估(Results and Evaluation)



a. 多特征模型vs单特征模型(表I)



通过RMSE、MSE、MAPE、MAE、R2五大指标对比单特征模型与多特征模型,发现:
  • 多特征融合模型在两组数据(A组和B组)表现优于单特征模型,验证了基于相关性特征选择的有效性

- 唯一例外是C组,因股票数据历史较短,相关性不够紧密
  • 明确数据间关联强度(如91%的NASDAQ与S&P500, 84%Exxon与Chevron)决定了多特征模型优势的显著程度


这说明构造多股票相关特征,能够增强预测精度,尤其当涉及高度相关资产组合时。[page::3]

b. 与现有主流模型对比(表II)



模型TT2VFin(即本文提出的多特征Time2Vec + Transformer Encoder模型)与:
  • 变体(加入掩码+M,位置编码+p等)相比,基础TT2VFin表现最佳,尤其位置编码反而削弱了模型表现

- RNN和LSTM经典深度模型相比,TT2VFin在误差指标及R2上均取得约14%左右的优势,且参数量仅为前者1/3左右,展示了更高性价比和泛化能力
  • 表示即使在波动较大的市场环境下,模型依然能保持较好预测稳定性和准确度


图5展示了模型在实际股票收盘价上的预测趋势,预测线(黑色)与真实价格(蓝色)高度吻合,充分证明模型优良的泛化和适应能力。[page::3][page::4]

---

三、图表深度解析



1. 图1 - 股票价格相关性分析(第1页)



这张图描绘了以Exxon Mobil为基准股票,多个相关股票(日常股价序列)的自相关(lag=0峰值为1)及交叉相关性随着时间滞后(-4到+4天)变化曲线。
  • Exxon Mobil自身自相关在lag非零点几乎回落至0,显示自身历史价格对于未来预测作用有限,呈“马尔可夫性”

- Coinbase和Chevron与Exxon的交叉相关明显高于其他,且在lag=0邻近值达0.8-0.9,显示它们股价高度联动

此图支持了作者提出利用相关股票的多特征聚合策略的理论基础,强调跨股票信息整合的重要性。



2. 图2 - 预处理流程(第2页)



流程图清晰呈现了:
  • 股票数据原始取自Yahoo Finance

- 缺失值填补 + 14天移动平均以平滑波动
  • 计算日收益率百分比变化,并归一化到[0,1]

- 多股票数据通过GMNN聚合成单一时间特征输入模型

该流程确保数据质量,缓解原始采样不均、短期波动剧烈、数据缺失等问题,为模型训练提供高质量输入。



3. 图3 - 预测后处理流程(第2页)



逆归一化处理体现了模型输出(标准化后的百分比变化)如何一步步转换回原始收盘价格:
  • 模型输出归一化值反归一化至百分比变化

- 再反向计算移动平均
  • 最终恢复至真实的收盘价序列


确保预测结果易读和实用,便于直观比较和投资决策。



4. 图4 - 模型架构总体图(第2页)



图示分为三个部分:整体模型流程、Time2Vec模块详解、Transformer Encoder模块细节。
  • Time2Vec模块以线性和周期函数映射时间特征,为编码注入丰富时间信息

- Transformer Encoder由堆叠6个Encoder Block组成,每个包含多头注意力、层归一化、1维卷积(替代前馈网络表现)和Dropout等现代技术
  • 残差连接贯穿模型,保证梯度流通及训练稳定

- 末端池化层降维,降噪并提取精华信息

结构科学合理,兼顾理论创新与工程实践需求。



5. 表I - 多特征与单特征模型评估(第3页)



表中以三个股票组合组为单位,展示RMSE、MSE、MAPE、MAE及R2指标。可见:
  • NASDAQ & S&P500组(A组):多特征模型(NAS_SP)相比单特征模型(NAS)在RMSE由0.0291降至0.0248,R2提升至0.8743,提升明显

- Exxon & Chevron组(B组):多特征模型表现也优于多数单特征模型,对CVX预测RMSE从0.0342降至0.0275
  • Morgan Stanley & Goldman Sachs组(C组):提升不明显,甚至存在一定退步,原因在于历史数据较短和相关性下降


表格数据支持核心假设:多特征相关性策略更有效,尤其在高度相关股中。

6. 表II - 与主流模型对比(第3页)



表格详细列明了提出模型及其变体与RNN、LSTM多指标对比结果:
  • TT2VFin在各项指标均领先RNN和LSTM,RMSE、MAE等误差指标普遍降低,R2指标高于0.82,多数超过0.87

- 加入位置编码或掩码层后性能反降,尤其是位置编码导致性能大幅下降,说明Time2Vec已较好地承担了时间特征编码任务
  • 模型参数数量显著少于传统RNN/LSTM(143K vs 355~559K),展现了轻量、高效的模型设计


这一组数据极大增强了模型实用价值和深入推广的可行性。

7. 图5 - 预测实际收盘价趋势(第4页)



绘制了2024年8月至2025年2月期间NASDAQ与S&P500收盘价的真实值与预测值折线图:
  • 预测线紧贴真实曲线,峰谷时机和趋势高度同步

- 红色虚线标示训练截止时间,预测发生于训练之后,测试了模型的泛化能力
  • 预测趋势平滑且跟随市场大势,显示模型具备追踪市场波动能力


此图形象地展示了模型面对真实市场全新数据的准确表现,是模型优良泛化能力的直观体现。



---

四、估值分析



本报告未涉及具体金融估值如DCF、P/E估值模型,重点聚焦技术层面的时间序列预测模型设计及性能验证。估值指标部分使用模型性能度量指标(RMSE、MSE、MAPE、MAE、R2)作为金融预测有效性的评估基准。因此可视为评估模型“估值”的折中与代理。

---

五、风险因素评估



报告未明确列出风险因素章节,但隐含风险包括:
  • 数据相关性波动风险:如C组样本相关度低导致模型效能下降,说明多特征关联性的稳定性影响预测质量

- 模型过拟合风险:推断使用Dropout避免过拟合,但金融市场极端波动及结构性变化仍存在泛化风险
  • 外部市场变化:突发政策或经济事件可能使历史数据与未来走势偏离,挑战模型泛化能力

- 时间编码选择风险:位置编码的错误应用造成性能下降,表明时间信息处理环节设计需精准把控

报告通过模型架构设计(残差连接、池化、Dropout)缓解部分风险,数据预处理确保稳定的输入数据,但对外部非市场数据及异常事件的适应能力尚未展开讨论。

---

六、审慎视角与细微差别


  • 文章较为强调多特征聚合的优越性,但C组表现的反例提示该方法依赖于股票间强相关性,在不强相关或者市场新兴股票上应用需谨慎

- 位置编码层性能大幅下降,说明Time2Vec虽强大,但该替代方案如何在更复杂情境下表现仍有待进一步验证
  • 数据仅限于日线收盘价,未涉及更高频数据如分钟级,模型在更细粒度时序上的表现有待研究

- 模型参数优势与性能提升难以直接用简单指标完全替代真实投资收益风险,后续研究应探讨金融经济效果回测结果
  • 模型只使用历史股价数据,未融合宏观经济指示或新闻情感等多模态信息,可能限制预测维度


综上,报告基于实证数据和严谨方法,观点大体稳健,但对未来应用推广边界和外部变量影响尚需更多说明。

---

七、结论性综合



本报告针对金融时间序列复杂性,创新性地融合了基于相关性选股的多特征聚合策略,配合结合线性与周期性编码的Time2Vec与Transformer Encoder架构,实现了对多股票价格的联合精准预测。

实验数据强力支持:
  • 股票相关性分析展示了多特征方法的理论基础

- 预处理流水线确保输入数据品质,提升模型稳定性
  • Transformer Encoder结合Time2Vec提升了时间依赖特征的捕获能力

- 多特征模型在多数股票组中超越单特征模型,且显著优于传统RNN/LSTM模型
  • 模型参数更少,运行更轻量,适合实际金融场景部署

- 位置编码等传统技术在该上下文下表现不佳,表明Time2Vec的创新重要价值
  • 预测结果在未来价格走势上拟合准确,具备良好泛化与稳定性


从图表深度分析可见,作者的综合设计和策略有效缓解了传统方法捕捉长短期依赖的瓶颈,且通过多股票相关性增强了模型的预测深度和广度。尽管存在如相关性不稳、模型在更细粒度数据上的表现未知等潜在挑战,报告设计充分考虑了金融时间序列中的复杂性与多样性,具备显著创新和可推广价值。

综上,该研究积极推进了时间序列金融预测领域的深度学习技术应用,提出了兼具创新性与实效性的模型框架,为实现更精细和动态的股票价格预测提供了坚实基础与参考。

---

参考溯源


本分析基于报告全文内容,引用页码按章节对应分别标注如下:
  • 引言及背景分析:[page::0], [page::1]

- 方法论与模型设计:[page::1], [page::2]
  • 实验结果与性能验证:[page::2], [page::3], [page::4]

- 图表具体数据与解读详见对应页码图注及指标表

(全文溯源页码均严格对应报告原文页数,符合规范)

---

此详尽分析希望为金融研究人员及实践者提供全面理解该报告技术框架与实证价值的深度洞察。

报告