【量化研报分享】华泰证券-华泰人工智能系列之三十五:WGAN应用于金融时间序列生成-20200828


(adhaha111) #1

摘要

WGAN 模型可应用于金融资产时间序列生成,效果优于原始 GAN 模型:本文探讨 GAN 模型的一类重要变体——WGAN,并将其运用于金融资产时间序列的生成,发现WGAN 在生成数据的真实性和多样性上均优于原始GAN。原始 GAN 模型具有训练不同步、训练损失函数不收敛和模式崩溃的缺点。WGAN 模型使用 Wasserstein 距离衡量真实分布与生成分布之间的距离,克服了原始 GAN 模型中 JS 距离的缺陷。使用 GAN 和WGAN 生成上证综指日频和标普 500 月频收益率序列,结果表明 GAN 无法复现出真实序列的长时程相关等特性,WGAN 则有显著改善,并且 WGAN 在多样性上相比于 GAN 也有一定提升。

W 距离克服了 JS 散度的缺陷,在生成对抗网络中是更合适的距离指标:原始 GAN 模型的主要缺点是判别器 D 和生成器 G 训练不同步、训练损失函数不收敛和模式崩溃。其中训练不同步问题与 JS 散度的梯度消失现象有关;模式崩溃由 KL 散度的不对称性导致;损失函数不收敛由 GAN 本身 D和 G 的博弈导致。W 距离避免了 JS 散度带来的梯度消失现象,故而不用再小心平衡 D 和 G 的训练过程。WGAN 用判别器近似估计真假分布间的W 距离,随着训练的进行,W 距离越来越小,即判别器的损失函数收敛,可以辅助指示训练进程。因此相比于 JS 散度和 KL 散度,W 距离是应用于生成对抗网络里更合适的衡量分布间“距离”的指标。

WGAN 生成序列在“真实性”上相比于 GAN 模型有进一步的提升 :数据实证部分围绕WGAN 与 GAN 模型的对比展开,我们选取上证综指日频和标普 500 月频的对数收益率序列进行生成训练并展示结果。除自相关性、厚尾分布、波动率聚集、杠杆效应、粗细波动率相关、盈亏不对称性这六项指标以外,本文还引入方差比率检验、长时程相关的 Hurst 指数两项指标验证生成序列的真实性。在上证综指日频序列上,GAN 生成序列在Hurst 指标上与真实序列仍有差距,WGAN 则有显著改善;在标普 500 月频数据上,GAN 生成序列在波动率聚集、粗细波动率相关和盈亏不对称性指标上表现不佳,WGAN 也改善明显,更接近真实序列。

WGAN 生成序列在不失真的基础上相比于 GAN 生成序列更加多样 :另外我们引入衡量序列相似性的 DTW 指标,评价生成序列的多样性。在上证综指日频序列上,WGAN 生成序列多样性相较于 GAN 有小幅提升;在标普 500 月频数据上,WGAN 生成序列多样性相较于 GAN 有明显提升。我们看到的不再是重复的生成序列,而是观察到了更多的市场可能性。