DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation
创建于 更新于
摘要
本报告针对股票预测中数据稀缺、低信噪比和数据同质性问题,提出基于扩散模型与Transformer结构的DiffsFormer进行因子增强。通过源域大规模训练及编辑目标域样本,实现知识迁移和数据多样化提升,显著改善了CSI300和CSI800数据集上的预测年化收益率,提升分别达7.2%和27.8%。此外,利用无监督条件引导和损失引导机制,有效控制回归模型波动性并提高稳定性,为量化投资数据增强提供新思路。[page::0][page::1][page::6][page::8][page::10][page::11][page::12]
速读内容
- 股票预测数据的稀缺性主要表现为因子与收益率的低相关(信噪比低)及行业内股票行为同质性,导致模型易过拟合、泛化性能差 [page::0]:

- 提出DiffsFormer扩散Transformer模型,利用扩散过程对股票因子进行编辑增强,替代纯噪声生成以保证数据真实性;采用迁移学习框架,从大规模源域生成目标域样本,增强数据多样性 [page::1][page::4]:


- 采用条件引导机制提升生成数据与标签的一致性:包括预测器指导(基于已训练预测器梯度)和无预测器指导(联合训练有条件与无条件模型)方法,支持标签和行业条件 [page::5]:

- 技术架构上,DiffsFormer设计了自适应层归一化和零初始化模块,融合时间步编码,提升扩散模型的稳定性和灵活度,支持多种回归模型(LSTM、Transformer、GRU等)作为预测骨干[page::6]:

- 在CSI300与CSI800两个真实中国A股数据集上,实验覆盖八种主流模型,DiffsFormer数据增强使年化收益率提升范围为0.5%到70.84%;在CSI300全模型平均提升显著,验证了增强效果及模型泛化能力[page::7][page::8]:
| 模型 | CSI300 年化收益率提升 | CSI800 年化收益率提升 |
|---------|---------------------|---------------------|
| MLP | 3.34% | 11.96% |
| LSTM | 1.04% | 4.01% |
| GRU | 11.66% | 70.84% |
| SFM | 0.50% | 37.97% |
| GAT | 9.75% | 10.97% |
| ALSTM | 13.19% | 50.29% |
| HIST | 6.07% | - |
| Transformer | 12.12% | 8.68% |
- 通过t-SNE分析编辑生成的数据分布紧贴原始数据,优于随机噪声叠加和直接生成,编辑步长控制生成数据与源域的偏离程度,实现多样性与真实性平衡[page::9]:


- 通过迁移学习实验,证明了从更大源域进行扩散模型训练并编辑目标域样本,有助于提取新知识,超越单纯微调提升性能 [page::9]:
| 目标域 | 源域 | 微调性能 | 扩散增强性能 |
|--------|-------|----------|-------------|
| CSI800 | CSI800 CSIS | 0.1751 / 0.1641 | 0.1793 / 0.1903 |
| CSI300 | CSI300 | 0.2789 | 0.2861 |
| CSI300 | CSI800 | 0.2773 | 0.2789 |
| CSI300 | CSIS | 0.2432 | 0.3127 |
- DiffsFormer数据增强显著优于随机噪声和Shake-shake正则化,在不同模型和数据集均提高收益率和信息比率,且降低模型波动率 [page::10][page::11]:


- 提出损失引导噪音添加机制:针对易拟合样本给予更强噪音,减少过拟合、提高稳定性和信息比率,训练时间效率通过限制扩散步数得以提升,避免对无效步骤训练[page::10][page::11]:


- 发现数据碰撞问题:多个模型使用相同原始数据会导致资金流入失败,编辑生成的新样本有效缓解该问题,增强模型表现[page::11]
深度阅读
金融研究报告详解分析报告
---
1. 元数据与概览 (引言与报告概览)
报告标题:
DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation
作者和机构:
Yuan Gao等,合作来自中国科学技术大学和阿里巴巴达摩院。
发布时间和主题:
本文针对股票预测领域的数据稀缺问题,发表于近期未标明具体时间的预印本,主要研究议题为股市因子增强和基于扩散模型的时间序列数据增强方法。
核心论点及目标:
- 股票数据稀缺、信噪比较低且数据同质化严重,极大影响预测效果。
- 利用扩散模型结合Transformer结构(即DiffsFormer),通过AI生成样本(AIGS)进行数据因子增强以缓解数据稀缺问题。
- 采用转移学习,先在大型源域训练模型,再对目标域样本进行“编辑”处理生成新样本。
- 通过在CSI300和CSI800两个真实股市数据集上联合八种机器学习模型进行实验验证,展示了7.2%和27.8%的年化收益比率提升。
报告核心强调利用条件扩散模型生成更拟合目标领域的高质量增强数据,提升股票回报预测性能。[page::0,1]
---
2. 逐节深度解读
2.1 引言与问题陈述(I. INTRODUCTION)
关键论点:
- 股价预测依赖历史因子分析,传统机器学习模型对数据质量和数量依赖强。
- 股票因子与回报之间的相关度极低(信噪比极低),股票间表现高度同质,尤其是行业内股票表现趋同。
- 数据稀缺导致模型易过拟合,难以泛化。
支撑证据:
- 通过图1(a),展示Pearson相关系数在-0.03至0.03之间,说明因子与回报比极弱,随机性、非平稳投机行为是主因。
- 图1(b)显示不同板块价格大跌的股票数目高度集中,说明同质化显著,限制信息多样性。
- 过拟合和数据使用重复导致风险及预测精度损失。
这为后文提出的因子增强方法铺垫理论基础。[page::0]
2.2 方法论—DiffsFormer架构介绍(I,II节,III,IV节部分)
2.2.1 方法动机与模型设计(I节、II节)
论点抽取:
- 通过因子增强解决数据匮乏问题,受到扩散模型近年在图像、时间序列等领域成功的启发。
- 扩散模型包括加噪(Diffusion)与去噪(Denoising)两个阶段,模型学习将噪声数据还原为原始数据并捕捉联合分布。
- 因为生成标签(如回报率)直接难以与因子精确匹配,采用条件扩散模型训练,条件输入包括标签和行业信息,实现生成数据与目标变量匹配。
创新点:
- 提出编辑机制(editing step),通过仅对目标数据施加部分噪声破坏,再恢复生成新的样本,兼顾数据忠实与多样性。
- 转移学习策略:先在大源域训练模型,再针对小目标域进行噪声编辑新样本生成,提升特征多样性,减少数据碰撞风险。
2.2.2 具体模型机制
- 训练时只优化编辑步数$T'$以内的步骤,提升训练效率。
- 损失驱动的噪声添加:对训练损失低(易拟合)样本添加更强噪声,减缓过拟合,降低模型波动。
- 条件引导分为预测器引导和无预测器引导。后者更灵活,无需额外预测器,且支持包括行业等多种条件输入。
2.2.3 模型架构
- 采用Transformer架构替代传统UNet,更适合时间序列的自相关捕捉。
- 引入适应性层归一化(ALN)和零初始化机制确保训练稳定。
- 时间步采用正弦位置编码编码。
该模块作为独立增强器,无需针对不同回归主干模型重复训练,易于插拔应用。[page::1,2,3,4,5,6]
2.3 相关工作回顾(II节)
- 涵盖传统机器学习(LSTM、GRU、CNN、GNN)及Transformer在股价预测领域的应用。
- 近年来扩散模型在时间序列生成和补全等领域的应用(TimeGrad,DiffSTG等)受关注,但针对股价预测的应用较少。
本报告在结合Transformer时序建模和扩散框架的基础上,创新性地利用条件扩散增强股票因子,填补了该空白。[page::1,2]
2.4 实验设计与数据集说明(V.A, V.C)
- 使用CSI300和CSI800两个中国A股市场主流数据集作为目标任务。
- 采用Qlib平台的Alpha158因子,涵盖kBar、价格、成交量以及多时间窗口滚动指标,形成8天时序序列作为模型输入。
- 返回率计算标准为每日5日收益比例作为标签。
- 采用八种主流机器学习模型作为回归骨干,包括MLP、LSTM、GRU、SFM、GAT、ALSTM、Transformer和HIST。
- 训练数据时进行Z-score鲁棒归一化和极值数据标签剔除。
- 关键评估指标包括年化收益率(RR)、信息系数(IC)、排名信息系数(Rank IC),并提出加权IC改进以更好反映高收益股票的相关度。
- 多次训练复现稳定性,DM训练与骨干模型训练分离,节省计算。[page::6,7]
2.5 详细实验结果解析(V.D, E, F, G)
2.5.1 效能对比(表格III, IV)
- 数据增强显著提升了各骨干模型的收益率表现,CSI300提升范围0.5%-13.19%,CSI800达4.01%-70.84%。
- IC和Rank IC两个指标提升不完全对应收益率,主要因禁止做空,尾部股票表现影响较小。
- 加权IC指标与收益率正相关,增强模型效果明显。
- 数据增强使某些表现异常的骨干如ALSTM、HIST表现正常化,体现其缓解低信噪比的能力。[page::7,8]
2.5.2 数据质量与多样性(图7,表VI,图8)
- t-SNE分析显示编辑生成的增强数据在原数据分布附近,远优于随机高斯噪声直接加入或完全随机生成,确保生成路径更贴近真实分布。
- 编辑步长$T'$控制生成数据在目标与源域间的偏移,存在性能和FID的折中,$T'=300$为最佳选择。
- 指标FID随条件引导强度而下降,过强引导可能降低多样性,导致性能下降。
该分析验证了转移编辑样本的合理性及必要性。[page::9]
2.5.3 转移学习与条件引导(表VII, VIII)
- 直接在源域训练并测试目标域模型,性能下降,说明分布差异明显。
- 转移编辑增强显著提升性能,确认新知识蒸馏成效。
- 条件引导(标签、行业)有效降低FID,提升整体表现,标签和行业联合引导效果最佳。
- 无条件生成效果较差,强调条件引导的重要性。[page::9,10]
2.5.4 与其他数据增强方法比较(图11, 图10)
- 相较于随机噪声和Shake-shake正则化,DiffsFormer表现更好,且数据增强缩短性能波动区间(模型更稳定)。
- Shake-shake通过随机组合双路径增强数据,DiffsFormer基于扩散生成更丰富的结构化样本。
- 数据增强综合提升模型下界,保障最低性能质量。[page::10]
2.5.5 进一步改进分析
- 损失引导噪声添加(图9,12):对训练误差低点施加更强噪声,防止过拟合,模型信息比率(IR)提升显著,体现增强后模型泛化和稳定性提升。
- 训练效率优化(图13):在编辑步骤内采样训练,减少无效训练时间,加速收敛。
- 数据碰撞问题:合并原始与增强数据未必提升性能,反映市场中重复数据导致模型表现受限,DiffsFormer通过生成多样数据特征缓解该问题。[page::10,11]
---
3. 图表深度解读
图1:数据信噪比和同质性 (page 0)
- 1a条形图反映大多数股票因子与未来回报相关性极低,证明信噪比极低。
- 1b柱状图显示不同板块股票在多年份大幅下跌股票数量,行业间表现高度一致,说明数据同质性问题。
这强化了传统特征难以充分代表未来价格变动的挑战。
图2:DiffsFormer示意图 (page 1)
- 左侧显示输入的多因子时间序列,模型接受行业和回报率作为条件,右侧输出增强后的因子。
- 右边展现下游训练流程,AIGS数据被用于改进回归任务。
说明DiffsFormer如何嵌入训练流程实现数据增强。
图3 & 4:编辑步骤机制及训练架构 (page 4)
- 3左图形象展示点击破坏编辑过程,不同T'表示生成数据距离源/目标域的程度。
- 3右展示训练和编辑过程中的数据流转,强调如何通过编辑方式进行样本增强。
- 4示意图显示训练 (源域数据和条件), 编辑(目标域样本基于训练模型生成增强样本),以及基于增强样本的预测。
凸显编辑步骤对数据保真度与多样性的重要趋势性控制。
表1,5 (page 5) 标签生成与条件建模性能比较
- 标签作为条件时模型性能(0.3127)远高于标签直接生成方式(0.1593)。
- 标签与因子的相关性分布显示标签在所有因子中关联性最低,提示直接预测标签难度大。
支持标签条件指导方法的优势。
表3,4,5 (page 7-8)
- 各种骨干模型经DiffsFormer增强后,CSI300和CSI800年化回报率均有提升,最高70%提升(GRU于CSI800)。
- IC与RankIC指标提升不完全与回报率同步。
- 加权IC更切合主营收益性,增强模型总体排名较为接近回报率排名。
这做好了数据增强对不同模型效用的全面验证。
图7 (page 9) t-SNE可视化
- 通过三种方法对原始因子空间对比,DiffsFormer编辑重构分布更为贴近原始,随机噪声增加和新生成数据严重偏移。
- 体现论文编辑机制的优势。
表6 (page 9) 编辑步数不同表现对比
- 编辑步多代表更强归向源域,FID变高但带来性能下降。
- 反之编辑步少性能稍降但FID低,保持更高数据忠实度。
- 取中间值最佳。
图8 (page 9) 数据质量指标和性能变化随条件强度
- FID随着条件引导强度增加而下降。
- 模型性能达到峰值后随条件强度同时下降,提示过强指导导致多样性不足。
表7-8 (page 9) 不同源域和目标域配对实验及条件影响
- 纯fine-tuning表现一般甚至差,转移扩散增强显著好转。
- 标签和行业两条件联合引导性能最佳且FID最低。
图11 (page 10) 与其他增强对比
- 直接随机噪声、Shake-shake及DiffsFormer表现依次提升,DiffsFormer提升最大且模型稳定性最好。
- 支持DiffsFormer的实用价值。
图9,12,13及表9 (page 10-11)
- 用loss指导噪声添加顽固降低训练季节性过拟合,信息比率提升,系统更稳健。
- 训练阶段采样步数限制(小于整体扩散步数)加速模型收敛。
- 数据碰撞问题说明单独使用增强数据优于联合数据,表明增强机制进一步有效避免了数据重叠引发的模型性能瓶颈。
---
4. 估值分析(估值部分缺失)
此报告为技术算法模型论文,无涉及直接的财务估值。核心关注点是模型性能提升对预测准确性及收益率的贡献,未使用DCF、市盈率等传统估值方法(没有对应章节或数据)。
---
5. 风险因素评估
报告隐含的风险或挑战:
- 数据稀缺与非平稳风险:股票数据本质非平稳,信噪比低,模型生成的增强样本可能因适应性下降引发过拟合。
- 分布差异风险:源域与目标域分布视差可能导致迁移学习失效。
- 条件引导调整负面影响:过强条件引导会降低增强数据多样性和最终模型性能。
- 模型复杂度与训练成本:扩散模型训练耗时,需采样步长优化以平衡性能和效率。
- 数据碰撞风险:多个模型共享相同数据可能导致系统性失败,需借助编辑的数据增强机制缓解。
缓解措施包括编辑步制约,损失引导噪声添加及条件引导机制灵活调节。[page::4,8,9,10,11]
---
6. 批判性视角与细微差别
- 假设与局限:增强数据生成依赖于大规模源域,如果源域数据质量或代表性不足,转移效果可能减弱。
- 条件指导的训练开销:无预测器指导灵活但需重新训练,预测器指导灵活性较差且训练复杂。
- 指标不完全对应:IC/RankIC与年化收益率提升不完全正相关,表明评价指标需进一步调整和验证。
- 对市场机制的考虑不足:虽指出数据碰撞风险,但实际市场动态复杂,单一模型增强可能无法完全解决市场共振风险。
- 部分实验设定与现有研究验证不同:测试时间窗口更新为2020-2022,结果与旧文献不可直接比较,需留意时间变化对模型表现的影响。
---
7. 结论性综合
该报告以解决股市预测中的数据稀缺与低信噪比问题为核心,创新性地提出基于扩散模型与Transformer融合的DiffsFormer架构,利用条件引导及转移学习进行股市因子数据增强。通过编辑现有样本减少“纯噪声生成”带来的数据不匹配风险,同时充分引入源域知识以丰富目标域样本信息,增强数据多样性和预测鲁棒性。
实证部分在中国A股CSI300和CSI800数据集上,采用八种主流预测模型为骨干,均表明DiffsFormer能带来稳健的年化收益率显著提升(最高27.8%);加权IC指标提升验证了增强因子与投资结果相关性的增强。多种条件引导(标签,行业)提升数据拟合度和模型性能,优化编辑步长达到良好平衡。损失引导噪声添加机制帮助缓解过拟合,实现更稳定的信息比率表现。相较传统随机噪声增加与Shake-shake规范化,DiffsFormer表现出更强的性能与稳定性。对训练效率的优化措施使方法更为实用。
图表和实验深入说明了增强数据在特征空间的合理分布,编辑机制对数据质量和多样性的贡献,以及条件引导对模型性能提升的具体影响。数据碰撞风险揭示了当前市场中多模型共存对模型性能的潜在抑制作用,而DiffsFormer的编辑增强方式可有效缓解该问题。
作者最后指出未来可结合行业特定、市场规模等多样化条件进一步挖掘,并建议加强对多模型数据碰撞和训练数据多样性的研究。这为股市机器学习预测领域提供了一个切实可行且创新的数据增强方案,对实际量化投资模型构建具有较强的应用价值及研究启发性。[page::0-11]
---
参考图表附录(部分示例)
图1 数据信噪比与同质性分析。
图2 DiffsFormer框架示意。
图7 编辑样本与原样本t-SNE。
图11 数据增强方法对比箱型图。
图13 采样步长与训练损失曲线。
---
总结
本报告系统、深度地剖析了报告“DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation”,明晰了方法原理、数据背景、模型架构、创新点、实验设计与结果,并结合图表数据进行详尽解读,洞悉其优缺点与未来发展方向,为量化研究和实践提供了坚实基础。