Deep Alpha 研讨会-互动问答环节 (副本)
由small_q创建,最终由small_q 被浏览 6 用户
Q1:现在海内外量化实践有什么代际差吗?海外接下来量化方向除了另类数据应用,还有什么发展潮流?他们对于国内量化市场是怎么判断的?
**关子敬:**在我看来海内外最主要的差别是:国内投资人是偏向喜欢直接对股价做预测,而海外直接预估股价比较少,主要做填充模型(imputation model),针对遗失数据做估算,特别是在ESG上可以看到更多实践,或者也会去做预估因子的价值、预估公司营收,或是margin。 造成这种差异得原因可能源于国内的资讯、数据比较标准化,如财报都是用统一的格式,然后也有比较小的国际市场之间的相互影响。海外数据则更为复杂,也没有如此标准化,衍生产品比较多样化,预估受市场影响比较多,所以海外会偏向可能去研究一下causality (因果)的分析,比如说去看一看有没有隐藏的参数是没有包含在模型之内,他们会尝试看看有没有办法去把没有观察数据包含进去。 在海外的模型里面,GAN就继续去产出另类数据的历史,其实他们也会在研究,因为的确的反正说数据只是是不足够去做很精准的 AI的模型,所以用GAN去产出historic alternative history,其实其中做法也是因为金融数据也有他们特性就是不稳定的,过往历史数据对现在影响力没有这么强,所以用到另类历史数据其实与现在市场状况更贴近,比起利用10年前20年前的数据更好一点,这一块他们也是在研究的。
Q2:Gat因子值为什么是取过去20天,而不是比如30天?Gat网络输入的因子是等权重的,还是不同权重?如果是不同权重,是如何确定的?
**何康:**历史时间段的长度是可以任意设置的,甚至从5遍历到60都没有问题。但是这里会遇到两个挑战,第一个挑战是参数越多过拟合的可能性越高,第二个挑战与算力有关,图注意力网络模型相对比较复杂,假设是GTX1060的显卡,200个因子300只股票,训练一期大概20分钟,所以历史上每年做1次滚动的话,大概要4个小时左右,参数从5遍历到60就要花好几天时间。当然如果能借助BigQuant平台的算力,我相信就可以做更丰富的参数测试了。 第二个问题可以分两方面讲:我们的原始数据是过去20天的158个因子,先送到两层的LSTM里面,这一步因子权重实际上取决于LSTM网络里的参数,所以这一步是有权重的。用GAT更新64个隐状态因子之后,再送到两层的全连接神经网络中去,这64个隐状态因子的权重可以通过全连接神经网络的权重来表示,所以这一步也是有权重的。而所有这些权重都是在同一个优化问题里面进行求解的,也就是说LSTM的参数、图注意网络的参数以及全连接网络的参数,都是放在一块做迭代的。
\
Q3:GAN是否可以应用到宏观经济指标的模拟和预测?如果可以的话,相比传统模拟方法,它的优势和劣势在哪里?
**何康:**我们在今年8月份写了一篇研究报告,就是用 cGAN技术模拟宏观指标,借鉴了美国富国银行在2019年的一篇研究。 研究方法和刚才介绍的cGAN资产配置类似,资产配置研究里我们是用过去40天的收益生成未来20天的收益。宏观指标研究里我们是用过去4个季度的宏观指标生成未来9个季度的宏观指标。所以从方法论层面来说,生成宏观指标是完全没有问题的。 生成的优势主要有两点。传统的模拟方法通常是蒙特卡罗模拟,但蒙特卡罗模拟有一个问题是需要有先验假设,要假设随机变量的分布,比如分布形态是什么、均值是多少、方差是多少?那凭什么分布一定是高斯,凭什么均值一定是要正的或者是要负的,这都是人来拍的。而GAN模型把历史数据送进网络里学就行,不需要先验假设,这是第一个优势。第二个优势是深度学习可以充分学习历史数据中的非线性规律,这是传统方法刻画不了的。 缺点在于深度学习模型还是依赖于大量数据,但是宏观指标数据非常有限。常见的宏观指标都是月频甚至季频,而且历史有效数据长度也有限,所以数据量不够对于GAN模型是一个比较大的挑战。
\
Q4:深度学习如何去防止过度拟合的?
**邵守田:**这是一个老生常谈的问题了,也是随着机器学习、深度学习的发展,被人诟病最多的一个问题。其实机器学习AI的发展也是不断地与过拟合问题解决过程中不断地发展开来。刚才两位在量化投资分析数据也探讨了使用更多的数据,更另类的数据、舆情数据、新闻数据,一定程度上就是在解决过拟合的问题,因为单凭既有数据做研究,很容易陷入过拟合的可能。 刚刚提到的何博这边提到了GAN算法,生成式对抗网络让我们可以产生更多的数据,就好比刚刚举的例子,传统量化遇到最多的一个问题,双均线模型传统都用5和20,但是我们发现7和28跑出来效果还好一点,但是敢用7和28吗?如果用的话,领导就会问这是否是数据拟合。而GAN达到很好的场景,产生大量的数据,可以在成百上千组数据里面批量地测试,如果发现85%的比率728的参数比520的参数好,这就是从数据增强的方式来避免过拟合,我们还可以在计算视觉方面把图片做旋转扭曲,也会生成更多的一个数据。 金融市场上还有一个方式就是使用滚动训练,让模型不断地学习、适应市场。市场风格不断变化,去年白酒,今年上半年锂电池、新能源、有色、基建、环保,风格不断变动,模型也需要不断地更新,可以使用滚动训练这种方式。 还有一种避免过拟合的方式就是尽量减少网络的容量,不要让模型过于复杂,100万条数据使用500万的参数就很容易陷入过拟合。同时基本参数我们也尽量不做调整,比如batchsize、学习率这些常用的,我们可以借用在互联网领域已经训练出来的通用参数,然后其他的超参我们可以利用机器学习自动地搜索它在整个参数空间里面的分布,尽可能选择在平原地带的参数分布情形。 还有具体技术,比如全连接深度神经网络里面有一个dropout的的参数其实就是为了来缓解过拟合的,就是随机的在反向传播的过程中丢弃神经元让模型更好地泛化,训练过程中可以观察模型算法训练集损失函数的变动情况,以及验证集损失函数变动的情况,及时地发现模型在什么时候已经过拟合,提前终止也是我们常用的一个技巧。 综上,我们可以从数据、参数、算法这几个角度来尽量减少过拟合。
Q5:海外ESG的量化当前实践?
关子敬: ESG在海外现在是一个比较红火的话题,这主要源于欧洲的规定,使得很多买方都需要去看ESG数据。ESG在量化方面应用主要还是把ESG看成一个因子,但它数据很多,使用方法与一般的因子也不一样。 每个产业有他们相对应的ESG的数据,我们需要先做标准化处理,然后才可以去比对行业和对标公司,计算出这个数据好还是不好,比如污水排放,不是每一个行业都适用,所以我们要把ESG与行业做一个连接。 第二个部分需要留意的是 ESG的报告其实是以前并非强制,很多公司属于自愿性披露,时间点也不固定的,所以海外常用填充模型,在缺失数据的时候做预估数字大概是怎么样。然后再做成因子用作量化的组合分析。 当然我们Bloomberg最近也有针对ESG业绩的数值做预估值,比如说二氧化碳排放,放在我们的终端。
Q6:应用图网络时候,股票数目变动比如停牌,怎样处理?
**何康:**和停牌类似的问题是,如果有新股加进来怎么办?不管是停牌还是新股上市,股票数量都变了,整个图网络就会发生改变。 至于怎么解决,和建图的方式有关系。传统的建图方式叫做显式建图,根据股权结构、产业链上下游或者其他关系构建,如果股票停牌或者加入新股,图的参数数量一定会变,网络就需要重新训练。而今天和各位投资人分享的隐式建图,它的网络参数数量和股票数量无关,只和因子数量有关,所以是不受停牌或者新股影响的,这就是隐式相比于显式的优越之处。 当然并不是说显式就完全不可解,我们也是有办法的。有一种图神经网络的衍生方法叫做GraphSAGE。显式建图时,假设需要把所有邻居的因子加到自己身上来,股票数量变,参数数量会跟着变,解决方案是不把所有邻居的因子加到自己身上来,而是抽样地去加,也就是说甭管多少邻居,每次永远只抽固定数量邻居,重复多次,这样参数数量不变,不受停牌、新股影响。这种方法先做sampling采样,然后再做aggregate聚合,所以叫GraphSAGE,在我们华泰金工团队的报告里面有介绍。
\
Q7:投资人比较重视市场极端变化,比如市场暴跌,如何利用GAN如何模拟市场极端状况?
**何康:**我们没有做过直接模拟暴跌的研究,后面可以重点关注一下,这个很值得研究。 之前研究过程中计算过一个指标叫做厚尾分布,统计GAN生成序列日频收益率的分布情况,看是更接近正态分布,还是更接近尖峰厚尾分布。我们发现得到的结果更接近尖峰厚尾,也就是说生成结果会包含极端的涨跌,可以把它视作黑天鹅事件。有一个技术细节可以和各位分享,训练网络的时候,为了增加网络稳定性,一般需要做批标准化(batch normalization)。但有一次实验时,我们发现加了批标准化层后尖峰厚尾性质消失了,波动变得特别均匀。后来我们就意识到,对于GAN生成资产收益率来说,有时候是不能加 BN层的。
Q8:alphanet如何做评估?怎么与传统的Barra模型结合起来?未来多因子将如何发展?
**何康:**AlphaNet是我们同事李子钰老师做的,我代李老师来回答一下。第一个问题关于评估方式,我们把AlphaNet预测出来的收益看成是一个合成后的因子,可以通过传统的单因子测试技术,比如 IC测试、分层测试等,也可以更直接地做成策略看它的收益风险表现。 第二个问题怎样和Barra模型融合,AlphaNet做的是收益预测,Barra模型做的是风险预测。所以在实践里面,我们可以在最终的组合优化方程里,用AlphaNet预测的组合收益减去用Barra模型预测的组合风险,作为二次规划的目标。最近李子钰老师做了一个AlphaNet改进研究,也可以和大家分享一下。我们用AlphaNet做预测时,预测目标并不是股票的超额收益,而是改成Barra风险因子中性化之后的残差收益。所以预测出来的收益受风险因子影响更小一点。回测下来超额收益不一定是最高的,但是在某几个关键时间点上,比如说2019年初、2020年初量化模型超额收益普遍回撤的时候,改进版策略效果会更好。 第三个问题未来发展方向,我们坚信人工智能一定会有更广泛的应用。因为纵观人类历史,各行各业都是从小作坊时代步入到工业化生产时代,量化研究尤其是和人工智能相结合的量化研究,其实就是在投资领域采用工业化的生产模式,我们坚信未来会有长足发展。
Q9:我们训模型的时候有一个痛点是算力不行,BigQuant算力到底是什么样的?是否支持去训练特别复杂的深度学习模型?
**邵守田:**算力确实是一个很实际的问题,人工智能我们现在其实属于第三次浪潮,在这一次浪潮很大程度上就得益于是数据、算法、算力的一个发展,尤其是90年代以,浪潮以英伟达的GPU显卡来训练模型的,这种方式确实对我们的模型训练模型有一个大大的提升。 BigQuant底层是一个AI平台,其中有一个重要的部分叫做pass平台,可以动态地去管理底层的资源,用户的一个任务提交过来了以后,会根据任务的要求去分配所需要的一个计算资源。 这是第一个我们有一个动态的任务调度,第二个我们可以对底层的计算资源进行一个资源的池化管理。比如说我们底层有物理机、有虚拟机、有其他的设备,然后我们可以基于这些CPU做到一个异构的计算资源的管理。用户如果想用CPU就用CPU,想用GPU就用GPU,如果他用GPU的话,还可以实现分布式运行来加速模型训练。训练复杂的模型参数都是扩展了很多倍,时间也会呈指数级的上升,但如果使用集群计算资源,不局限于本地的一个电脑,而是使用算力中心实验室数十台、数百台的计算资源,效率就可以大提升。同时 AI平台的底层资源也可以进行一个动态的横向扩容。如果我们前期规模比较小,比如只有10个计算资源的这么一个集群,我们后期随着业务量的上升,模型的复杂程度,我们可以快速地扩容到20个节点、30个节点、50个节点,这样的话计算的效率又会大大的一个提升了。 好的,今天我们的时间也差不多,研讨会已经持续了接近两个小时,感谢三位专家非常精彩的演讲,也给我们带来很多的收获。在结尾我们研讨会设立一个互动问卷,欢迎大家扫码,可以跟我们预约我们专家更多的交流,感谢大家,我们今天的演讲的研讨会就到此结束了,希望此研讨会研讨会呢能给大家带来更多的一个收获,咱们下次再见。
完整视频观看地址:https://webcast.roadshowchina.cn/cmeet/NlZBZVhZRGZ6Q1NSRjdrbmJqQjZUQT09
\