研报&论文

幻方量化徐进解析深度学习量化与萤火虫Lab

由qxiao创建,最终由qxiao 被浏览 134 用户

2021世界人工智能大会于2021年7月8日至10日在上海世博中心和上海世博展览馆同时举行。会中幻方量化合伙人徐进探讨了如何使用量化模型和深度学习在股市中赚钱的路径。

徐进提到,与传统股票定价不同,量化通过输入获取的信息,包括行情数据、上市公司财务数据,还有另类数据,比如新闻舆情、产业链等,进行模型训练,利用深度学习对股票进行定价。

在徐进看来,在这个过程中,需要处理很多关键细节,细节是魔鬼!以时间序列预测模型为例,包括数据清洗、规划处理、防止过拟合、 避免未来函数等,大量的细节决定了量化能否赚钱,并不是简简单单就能成功的。“只要你对市场、数据充分了解之后,才能得出比较好的赚很多钱的结果。”徐进说道。

徐进提到,量化通过训练模型、提升算力、提高集群使用效率等,来提升其深度学习能力,一定程度上在“薅”市场羊毛。但从另一个角度来看,量化对市场的正面影响很大。一是为市场提供流动性,平抑市场波动,二是提升市场的有效性,让公司定价更为合理。三是和全球顶尖的对冲基金进行竞争,提高本国的金融交易竞争力。

下面是对幻方量化合伙人徐进在本次论坛演讲内容的整理:

如何用Deep Learning为股票定价

这个模型所需的数据都是公开的,需要的算力也不是很大,一两块游戏卡就能搞定。当然它不会支撑特别大的资金量。

{w:100}首先这个模型的输入是全市场股票的数据价格,这个模型只用到了价格(当日的开高低收+均价)。

中间的图片是一个最简单的时间序列的预测模型——LSTM。如果你真的用心拿这个模型去做,最后你也是能赚钱的。但是,赚钱也还是前提的:**细节是魔鬼!**就是说上面这些你都做了,但是你还是要处理很关键的细节,而这些细节其实才是最终你能赚多少钱的一个核心问题。

拿数据清洗来说,为什么要对数据进行清洗?上面的数据看上去也不是很复杂,也就是高开低收以及当日成交均价,但是这里面会隐藏很多问题,比如有些股票是刚上市的新股等。再者是涨停、跌停的股票怎么处理。有些股票波动异常,甚至被证监会点名有操纵的嫌疑,这些该怎么处理?对于金融时序数据来说,噪音非常大,信噪比非常低。我们如果预先对一些数据进行处理,这对你的模型训练会有很大的帮助。如果你什么都不管,把数据直接丢给LSTM模型,基本上得不到好的结果,因为LSTM也不是神!

所以首先是数据清晰,然后在做归一化处理,再有防止过拟合,避免未来未来函数。


类似于这样的细节后面还有很多,只要你对市场、数据充分了解之后,才能得出较好的、赚更多钱的结果。

我们实际工作的模型

这是一个可以赚钱的实际的模型,我们也在用,但是这个模型并不能解决所有的问题,接下来介绍一下我们实际工作的模型。

{w:100}

第一行是行情数据,但是我们做了很多的处理。接下来有来自财报的数据、公告、新闻文本的信息,再有就是上下游产业链,股票相关性的分析。把这些都输入到多层感知器模型(MLP)我们才会得到一个支持大规模资金管理、交易的复杂模型。因为时间序列模型非常耗资源,数据量非常大,所有耗时会非常久!

我们用去年7月份发布的DGX-A100服务器跑完这个模型大约需要120天的时间,基本毫无意义~

图片来自幻方{w:100}那怎么解决这个问题呢?

堆机器、堆算力

当然,不是简单的堆,简单的买!那么,幻方是如何怎么做的呢?

幻方萤火超算

一个超算和普通的数据机房是不太一样的,因为它的单位面积算力能耗特别大,要处理的复杂问题比较多,并不是去租几个IDC机房把机器放进去就能解决的。

目前萤火超算的硬件设施为:

625计算节点,5000张A100

200000GB显存 414208GB内存

780 PFlop/s机器学习算力

28PB SSD存储服务器

深度优化的BeeGFS文件系统

2.0TIB/s读取性能

采用了现在全世界能买到的最贵的、速度最快的800口的交换机(水冷交换机),每节点IB互联,200 Gbps传输带宽。

算力对比

图片来自幻方,所有性能统计均基于TensorFloat-32格式理论算力值,Nvidia、Tesla超算性能数据均来自公开材料 {w:100}图片的右边是特斯拉的Dojo原型机,左边是萤火,中间是Nvidia的Selene超算,在今年最新一次的排名为全球第6。

因为目前萤火已经投入了使用,所以萤火在整个事件上比特斯拉超至少超前了半年的时间。因为A100的计算卡是去年7月份才发布,幻方是亚太地区第一批拿到此卡的人,因为当时A100还是挺难买的。

读取速率和 IO500的对比

今年上半年继续建造萤火的时候也遇到很多的问题,挖矿的人太多了, 买不到足够的CPU和硬盘等等。

分布式存储十分难做,关键是其读取的速率。下图(右边)是现在全球IO500的存储读取速度榜单,第一名是中国鹏城实验室,读取速率最快。左图是幻方的结果,可以看到图上有个尖峰,是因为幻方每天早上6点钟会做压力测试,其读取速率达到了2800GIB/s,实际训练时已达到1800GIB/s。幻方现在的速率仅次于鹏城实验室,下半年幻方宣布会去参与这个榜单的评比。

{w:100}此外,包括集群如何调度,如何提高集群的使用效率,幻方做了很多事情。例如更新了很多针对计算卡做的库,未来有可能都会对外发布。

成果

基于此,用了deep learning幻方的AUM从2015年5亿增长到现如今的近1000亿。同时,幻方还成立了自己的AI Lab,不仅仅用于自己做交易,还希望利用所有的算力集群和资源,未来能够做一些基础的科学研究,与高校、实验室进行合作等等。

{w:100}对于金融市场,量化投资的意义

为市场提供了流动性,平抑了市场的波动:我们资产管理规模非常大, 需要选择低价的股票,所有更多是左侧交易,平抑市场波动。

提升市场的有效性,让公司定价更为合理:从2015年量化交易1、2个点占比,现在占比20%多,这两年很多股神不怎么听说了,以前会是股神遍地走,现在越来越少,行为很明显,分摊了收益,他们越来越难赚钱,量价机会已经被交易完了。

与全球顶级对冲基金竞争:我们是需要与全球顶级对冲基金竞争,我们希望努力,中国A股市场由中国对冲基金说了算,而不是外资赚了钱并带走,这是我们认为的使命与任务,我们也希望超算能对中国的AI的发展起到作用。

原视频

https://online2021.worldaic.com.cn/forumdetail?uuid=92cdd867d17c449ea86c198370430006

标签

深度学习量化模型量化模型训练
{link}