`

Asset Pricing in Transformer

创建于 更新于

摘要

本报告提出了专为金融经济时间序列设计的创新Transformer模型——单向编码器表示Transformer(SERT)及预训练Transformer,应用于美国大盘股定价与因子投资。结合三阶段极端市场环境(疫情前、疫情期间及疫情后一年),实证显示SERT模型在极端波动期内拥有最高11.2%的样本外R²,且衍生的趋势跟随交易策略显著提升下行风险对冲能力,Sortino比率较买入持有提升达47%。此外,研究发现软max信号滤波虽能统一模型输出,但不提升策略绩效;增加注意力头数量及采用层归一化优先策略效果有限。综合实证验证Transformer模型卓越捕捉稀疏时间序列数据下资产定价因子动态的能力[page::0][page::10][page::30][page::35][page::52]。

速读内容

  • 创新模型与架构设计 [page::2][page::4][page::25]:

- 提出SERT模型,基于单向编码器结构,适合时间序列数据,解决BERT随机掩码和双向机制对未来数据泄漏的不适用问题。
- 引入预训练模块,利用MLP自编码器对输入因子进行降噪和升维,提升因子信息质量,类似于无约束PCA。
- 讨论了标准Transformer、预训练Transformer、SERT及其带有多头注意力和层归一化优先(LNF)变体的设计与区别。

  • 数据与实验设置 [page::10][page::30][page::31]:

- 使用Andrew Y.;Zimmermann重构的182个排序投资组合因子和420支美股大盘股超额收益,覆盖1957-2022年,采用滚动窗口方法,验证疫情前、中、后期模型表现。
- 模型分为三组:LNF组、预训练组和标准组,讨论不同头数对模型表现影响。
  • 模型性能总结 [page::32][page::35][page::36]:

- SERT模型在极端市场波动期(疫情期间及后)表现尤为突出,最高样本外R²达11.2%,平均优于标准Transformer和无预训练模型。
- 头数增加提升有限,存在最优头数(如预训练Transformer在3头表现最佳),但SERT头数影响不显著且训练稳定性稍差。
- LNF设置未改善表现,甚至有时降低性能。

  • 因子投资策略性能分析 [page::39][page::42][page::43][page::45]:

- 基于模型预测的趋势跟随信号与软max过滤的交易策略在等权重组合中表现优异,特别是SERT和预训练Transformer在疫情波动期实现年化收益及Sortino比率大幅超越买入持有基准(最高达47%提升)。
- 价值加权组合中模型表现整体弱于等权组合,因交易权重偏向大盘波动较小股票,削弱绝对收益。
- 软max信号过滤统一了不同模型的表现,减弱优势但提升年度收益。

  • 量化因子构建与策略要点 [page::25][page::39][page::45]:

- 因子以排序投资组合因子做为输入,利用Transformer结构捕捉因子与股票收益间复杂的时空依赖。
- SERT模型利用单向掩码避免未来信息泄漏,预训练模块提升因子质控,增强噪声处理和缺失值填补。
- 策略基于模型输出的符号信号构建趋势跟随策略,结合软max概率过滤进行信号筛选,显著提升了策略的防跌性与风险调整后收益。

深度阅读

资产定价中的Transformer模型:全面分析报告



---

1. 元数据与概览


  • 报告标题:Asset Pricing in Transformer

- 作者与机构:Shanyan Lai,经济及相关研究,约克大学
  • 通讯邮箱:shanyan.lai@york.ac.uk,annieyanyan125@gmail.com

- 发布日期:不明确,但报告内容涉及最新金融市场事件(至2022年底及COVID-19疫情期间)
  • 研究主题:应用Transformer神经网络模型对美国大盘股价格进行资产定价与因子投资预测,并提出创新的Transformer变体模型(SERT),同时探讨预训练Transformer在金融时间序列的适用性和表现


核心论点
  • 创新提出了单向代表性Transformer(SERT)模型,解决时间序列资产定价中对极端市场波动的适应性和预测能力问题。

- 对比传统Transformer及其编码器变体,特别是在COVID-19疫情前、中、后不同市场波动环境中的表现。
  • SERT模型在疫情期间表现最佳,次之是预训练Transformer模型;均显著优于传统模型表现的基准。

- 预训练模块有效增强了输入因子质量,且提高了模型对稀疏数据的捕捉能力。
  • 研究论证了Transformer模型,在处理金融时间序列特有的时序稀疏性和高波动下的优势。


---

2. 逐节深度解读



2.1 引言(第1-3页)


  • 主要内容:指出现有ML模型如MLP与随机森林虽然优于传统统计模型,但仍存在过拟合、计算效率低、对缺失值敏感等问题。提出寻求新型神经网络结构以克服这些缺陷。

- 论证:Transformer模型具有并行计算、多输出同时优化和利用自注意力机制捕获时间序列长短期依赖的优势,适合处理金融时间序列数据。此外,标准Transformer基于自编码器结构,降低参数规模,提高计算效率。
  • 数据与假设:基于美国大盘股,考虑跨时间和跨横截面互动。强调时间序列金融数据的时序稀疏性及缺失值问题,提出用线性嵌入替代传统文本嵌入。


2.2 相关工作(第4-8页)


  • 核心总结:回顾传统注意力机制,包括Bahdanau(加性注意力)和Luong(乘性注意力)方法,分别展示了注意力机制在捕捉时间依赖上的不足和对Transformer自注意力模型的启发。

- 讨论Transformer模型的变体(BERT、GPT、Informer、Autoformer等)及其在金融文本处理、情绪分析、社交媒体数据分析等非数值时间序列任务的成功运用。
  • 明确指出金融领域对数值时间序列直接应用Transformer的仍属初期,已有研究多聚焦于短期信用风险预测、组合优化、股价预测等,但存在计算开销大、缺乏极端市场波动适应性的问题。

- 提及不同预处理(因子组织、动态时窗)对模型输出影响。指出大型复杂因子模型相较传统稀疏模型表现更优,启发本研究预训练模块设计。

2.3 数据描述(第10页)


  • 数据概况

- 输入变量为Andrew Y. Zimmermann重构的182个月度排序投资组合收益因子,剔除缺失超过40%的因子,保证数据质量。
- 输出变量为CRSP数据库中420只美国纳斯达克及NYSE大盘股的超额收益。
- 420只股票来自按市值排名前15%的股票,覆盖总市值85%,满足“持续经营”条件,减少样本退市偏差。
- 训练-验证-测试采用滚动窗口法,验证窗口占训练的30%。
  • 关键假设

- 由于金融因子数据存在大量缺失和噪声,用MLP自编码器预训练以提高输入数据质量和有效维度。
- 自编码器隐层节点数约为输入维度的70%,平衡表征能力与过拟合风险。

2.4 模型架构细解(第11-28页)



报告对Transformer模型结构、关键模块、数学原理及其针对金融时间序列特性的特化进行了系统阐述,主要内容包括:
  • Transformer基本结构

- 编码器-解码器自编码器结构,输入输出通过Embedding和Positional Encoding(SPE,正弦余弦函数)标示时间位置信息。
- 多头自注意力层和前馈MLP自编码器单层组成基本模块。
  • Positional Encoding

- 采用非参数固定SPE方法保证唯一和稳定的时序编码,强调加法融合比拼接参数效率更高,适合稀疏金融数据输入。
- 图2展示了不同特征维度时序编码的周期性覆盖,凸显相异特征间的区分能力。
  • 自注意力机制

- 单头与多头自注意力通过Query、Key、Value的点积算分机制计算注意力权重。
- Causal Mask(因果掩码)限制未来信息泄露,规范时间序列预测方向。图5清晰展示了带掩码的注意力权重计算流程。
- 结合位置编码的注意力分数跨时间同时捕获特征间交互和时序依赖,提高信息表达能力。
- 多头注意力分割特征维度,增强特征子空间间的关系建模和训练稳定性(图6)。
  • Cross-attention机制

- 连接编码器和解码器,解码器的Query与编码器的Key、Value交互,融合输出与输入的时空信息,增强空间-时间信息捕捉。
  • 前馈MLP自编码器模块

- 使用1层或多层MLP结构进行编码和解码,执行非线性数据降维和重构,提高特征提取的质量。
- 激活函数采用ReLU,loss优化用MSE最小化。
  • Add & LayerNorm层

- 模块输出与输入残差链接后进行层归一化,支持训练深层网络的稳定性。
  • 估计方法

- 优化目标是以MSE为损失,通过Adam优化器(算法1)和提前停止(算法2)进行参数训练。
  • 预训练Transformer设计

- 增加了MLP自编码器预训练模块,输入因子先被映射到一个高维隐空间,起到去噪与模式增强作用,是非线性PCA的推广形式。
- 可选的“Layer Normalization First”(LNF)策略用于训练稳定性测试,但实证发现本案例中效果不显著。
  • SERT模型结构

- 受BERT启发,提出单向编码器表示Transformer(SERT),取消解码器和交叉注意力,适应单向时间序列数据预测;预训练由随机掩码改为MLP自编码器。
- 减少参数规模,提高计算效率,对金融时间序列数据缺失与噪声具有鲁棒性。
- SERT与已有编码器Transformer模型形成对比分析基准。

---

3. 图表深度解读



图1(第12页)


  • 描述:标准Transformer结构示意图,展示了编码器和解码器块的模块顺序关系,包括多头注意力、前馈自编码器和Add&LayerNorm。

- 解读:流程逻辑严格区分输入和输出的信息嵌入、编码、解码的处理步骤,突出潜在空间(latent space)由交叉注意力层连接的功能,为后续模型变体提供基础。

图2(第14页)


  • 描述:SPE位置编码的示意,通过不同特征维度(不同编码周期)展示时间步长区分能力。

- 解读:三组对比表明,位置编码具有稳定且独特性质,不同特征可通过其周期性含义表达时间信息,成功将时间序列的顺序关系编码进模型。

图3(第15页)


  • 描述:简化的MLP自编码器结构示意,显示输入、隐层和输出之间的连接。

- 解读:准确展现了自编码器的核心思想,即通过维度压缩和重构促进特征学习,作为Transformer中前馈模块核心,提升非线性特征提取。

图4(第17页)


  • 描述:普通自编码器与添加注意力机制自编码器对比图。

- 解读:注意力机制为不同时间步输出赋予差异权重,从而解决普通自编码器对所有时间步均等对待,提升模型对关键时间点信息的聚焦能力。

图5(第19页)


  • 描述:单头自注意力工作流程图,展示计算Q、K、V,尺度缩放、因果掩码应用和softmax计算。

- 解读:详细阐释了自注意力机制如何实现时间序列信息聚合且并行计算,因果掩码实现时间上的单向因果关系,确保时间序列预测非未来泄漏。

图6(第21页)


  • 描述:多头自注意力结构示意,将特征拆分为多组并分别计算,最后拼接输出。

- 解读:多头设计提升模型表达能力,通过并行多角度捕获不同信息,使模型能处理高维度跨特征的复杂依赖关系。

图8(第26页)


  • 描述:预训练模块MLP自编码器结构示意图,强调隐层输出为预训练输入。

- 解读:清晰表达了预训练模块如何将原始输入因子映射至更高维且噪声较低的隐空间,辅助Transformer主体模型提升表达与鲁棒性。

图9 & 图10(第27-28页)


  • 描述:预训练Transformer主模型结构图,包含预训练模块、线性嵌入、多头自注意力、前馈模块和跳跃归一化层。

- 解读:两图分别展示常规Add&Norm和LayerNorm First两种归一化方式的区别,表达了模型设计中的结构变体和尝试增强训练稳定性的手段。

图11(第29页)


  • 描述:SERT与标准编码器Transformer比较结构图。

- 解读:突出SERT简化性(无解码器、无交叉注意力)和基于单向因果掩码,突出其针对时间序列单向预测的适配性与计算效率优势。

图12(第31页)


  • 描述:基于420只大盘股构建的市值加权价格指数,灰色区域标示COVID-19疫情期间。

- 解读:展示三期市场波动特征——疫情前平缓向上、疫情中快速波动、疫情后高波动横盘,为后续模型表现分析提供市场背景。

图13 & 图14(第36-37页)


  • 描述:最佳Transformer模型的OOS $R^2$ 和MSE 分布直方图。

- 解读:直方图显示预训练Transformer在疫情期间和后期明显优于其他模型,展示了模型在极端市场状况下的优异泛化和拟合能力。

图15 & 图16(第40-41页)


  • 描述:最佳SERT模型与对照的编码器Transformer的OOS $R^2$ 和MSE分布。

- 解读:SERT在疫情期间和后疫情期间的表现明显优于基准,证明其结构更适合复杂金融市场波动情形。

图17(第47页)


  • 描述:不同模型在三期分布中的Equal-weighted投资组合Sortino比率比较。

- 解读:疫情期间(2112)SERT5和预训练Transformer(Trans6)均表现优异,Sortino比率显著高于买入持有策略,证实其在风险调整后的收益优势。

图18 & 图20(第47页 & 第50页)


  • 描述:Equal-weighted和Value-weighted组合下所选模型累计收益曲线。灰色阴影标记疫情期。

- 解读:SERT5在EW组合中累计收益最高,Trans6次之。VW组合受大盘股权重影响,整体收益下降,Transformer模型优势不明显。

图19(第49页)


  • 描述:三期Value-weighted组合Sortino比率比较。

- 解读:疫情期(2112)SERT2和Trans3显著优于BH买卖持有策略,LNF SERT表现优于预训练Transformer,反映结构调整带来的风险管理优势。

图21 & 图22(第50-51页)


  • 描述:加入Softmax信号过滤后的Equal-weighted和Value-weighted组合累计收益。

- 解读:Softmax信号过滤提升所有模型的年度收益,但消除了模型间差异,使表现趋近于买入持有基准;VW组合中效果更明显,有助于剔除不佳交易信号。

---

4. 估值分析



本报告核心不涉及传统的估值指标或模型(如DCF、P/E倍数等),而是专注于对资产价格预测的模型拟合效果及基于预测结果的投资组合绩效:
  • 模型拟合指标

- 主要运用Out-of-Sample (OOS)均方误差(MSE)和决定系数($R^2$)衡量模型对未来收益的预测准确度。
- Diebold-Mariano检验(DM test)用于模型间预测性能差异显著性测试。
  • 策略绩效指标

- Jensen Alpha衡量超额收益能力。
- 年化收益率体现绝对资本增值。
- Sharpe、Sortino比率衡量风险调整收益,其中Sortino重点关注下行风险,贴合行为金融对损失规避心理的解释。
- 最大回撤度量投资策略最大资金回撤风险。
  • 实验设计

- 比较包含层归一化先(LNF)、预训练、非预训练三大类型Transformer及编码器模型(SERT为创新结构)不同注意力头数量的影响。
- 采用滚动窗口划分三个时期,涵盖疫情不同阶段对应不同市场波动特征。

---

5. 风险因素评估



报告未显式分设单独风险章节,但通过全文及讨论可总结以下风险及限制:
  • 过拟合风险

- 高复杂度深度模型(多头、多层)存在过拟合可能,对样本外预测能力有一定影响,LNF虽然设计以求改善,但实证未获显著提升。
  • 数据质量与缺失

- 原始金融因子数据存在较多缺失值和噪声,尽管利用预训练自编码器减少影响,仍可能存在“幻觉”现象及样本选择偏差(如剔除缺失过多序列)。
  • 未来信息泄露

- 大多数Transformer设计需确保采取因果掩码防止未来信息泄露,存在模型设计风险。
  • 模型稳定性和训练敏感性

- 编码器模型与SERT在训练过程中对超参数和结构调整敏感,表现不稳定,尤其是单块SERT模型。
  • 投资组合权重偏差

- Value-weighted策略导致模型在大型低波动股票中权重过大,削弱模型对高波动股票的捕捉并降低绝对收益。
  • 因子遗漏

- 现有因子集可能遗漏重要变量,造成因子偏误,未来可考虑生成式Transformer模型挖掘隐含因子。

---

6. 批判性视角与细微差别


  • 方法论创新与适用性:报告大胆将大型语言模型结构创新应用于金融资产定价,填补了金融数值时间序列领域与NLP领域技术间的鸿沟,具显著贡献价值。
  • 预训练模块设计合理但简单:报告采用MLP自编码器作为预训练模块,实现非线性降噪和数据扩充,类似非线性PCA,是高效且符合金融数据特性的设计。
  • 层归一化先(LNF)机制效果未显著:与文献建议相左,本研究中LNF未见于提高训练稳定性或预测表现,提示设计深度和数据特征或影响该配置的效果。
  • 注意力头数量边际效益递减:虽然多头注意力理应提高表达能力,但实证中模型性能随头数增加变化不大,甚至出现先增后降的表现,反映金融数据或模型规模限制了复杂性的边际效用。
  • 投资组合绩效差距原因具有逻辑一致性:EW组合和VW组合收益差异明显,映射了波动性加权不同对模型表现的影响,展现了模型与市场结构的交互复杂性。
  • 未来研究路径明显且合理,包括生成式模型用于隐因子提取,小盘股和高波动资产的模型应用,及因子组织方法探索,均为提升金融机器学习模型经济解释力和实用性的关键。
  • 报告结构严谨,图表丰富清晰,数学表达详尽,为同行复现和深入理解Transformer在资产定价的应用提供充分工具。


---

7. 结论性综合



本研究创新性地将Transformer及其变体模型应用于美国大盘股资产定价任务,提出了改进的单向编码器Transformer(SERT)和搭载MLP自编码器预训练模块的Transformer框架,针对金融时间序列时序稀疏和极端波动特征进行了充分设计与适配。主要结论如下:
  • 模型性能

- SERT与预训练Transformer模型在疫情期间极端市场波动下实现最佳预测精度,OOS $R^{2}$ 提升至最高11.2%,显著超过传统编码器Transformer和非预训练模型。
- LNF机制虽经实测但未带来性能提升,表明平滑训练梯度和防止梯度爆炸的策略在本案例中受限。
- 注意力头数的优化存在临界点,超过3头后性能甚至下降,表明金融时序数据对模型复杂性的敏感度高。
  • 投资组合表现

- 基于模型预测的等权重因子投资策略,在疫情期间表现出最高47%的Sortino比率相较于买入持有基准,具备良好的风险调整收益能力。
- SERT和预训练Transformer均在满足收益的同时展现了极佳的下行风险保护能力,尤其在动荡市场下表现突出。
- 价值加权组合因市值权重分布,更聚焦大盘低波动股票,导致绝对收益下降,凸显投资组合构建策略对模型表现的影响。
  • 模型设计洞见

- 预训练MLP自编码器有效缓解了金融数据噪声和缺失带来的影响,同时实现了因子空间扩展与重构。
- Transformer对金融时间序列的时空依赖捕捉具天然优势,能够学习复杂的因子-股票横截面交互关系及时间动态。
- SERT作为简化、单向的编码器Transformer,提升了训练效率并增加了一定鲁棒性,尤其是对极端行情的适应性。
  • 未来展望

- 探索生成式Transformer挖掘隐因子,完善缺失因子问题。
- 将模型应用于波动更剧烈的小市值股票、加密货币等市场,检验模型稳定性与广泛适用性。
- 开发新的因子组织策略,平衡信息完整性与经济含义。
- 结合LLM进行智能资产配置和组合优化,推动因子模型向资本市场实际运用转变。

综上,本文不仅丰富了金融资产定价中机器学习和Transformer模型的应用文献,还提出了一条理论与实证结合的新路径,为面对极端波动市场中建模提供有效工具和策略。报告结构清晰、数学严谨、实证充分,图表辅助理解显著,既具学术创新也具实践指导意义。[page::0,page::1,page::2,page::3,page::4,page::5,page::6,page::7,page::8,page::10,page::11,page::14,page::15,page::16,page::17,page::18,page::19,page::20,page::21,page::22,page::23,page::24,page::25,page::26,page::27,page::28,page::29,page::30,page::31,page::32,page::33,page::34,page::35,page::36,page::37,page::38,page::39,page::40,page::41,page::42,page::43,page::44,page::45,page::46,page::47,page::48,page::49,page::50,page::51,page::52,page::53,page::54,page::55,page::59,page::60,page::61,page::62,page::63,page::64,page::65]

---

附录简要


  • 附录A展示了不同SERT模型注意力头设置下的$R^2$及MSE分布,验证了主文中模型表现稳健性。

- 附录B详细推导了Transformer各层的梯度计算和Adam优化算法流程,为模型训练原理提供数学支持。

报告