DeepAlpha短周期因子研究系列之:DNN在量化选股中的应用
由small_q创建,最终由qxiao 被浏览 258 用户
\
更新
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平台:
https://bigquant.com/data/home
https://bigquant.com/wiki/doc/dai-PLSbc1SbZX
新版表达式算子:
https://bigquant.com/wiki/doc/dai-sql-Rceb2JQBdS
新版因子平台:
https://bigquant.com/wiki/doc/bigalpha-EOVmVtJMS5
\
作者:
邵守田 东北大学金融工程硕士BigQuant首席策略官
傅浩晅 伊利诺伊大学香槟分校统计与经济双学位BigQuant算法团队成员
本报告模型构建工具:https://bigquant.com/
联络咨询:bigq100【微信号】
核心观点
据中信证券推算,截至2021年2季度,中国国内市场私募量化总资管规模达到1万亿,相比2017年的1000亿,短短的3年半时间增长10倍,公募量化基金同样增长迅猛,达到2600亿。
==与此同时,市场逐渐进入AI算法的时代==,国内一系列百亿级、千亿级私募机构同样开启了机器学习、深度学习量化。
Deep Alpha是借鉴深度学习模型应用于金融量化投资领域的系列AI模型,包括全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet等。
其中Deep Alpha-DNN是采用基础量价数据,模仿动物神经元的激发模式和连结模式,基于单个神经元以全连接的方式构建层数大于3的深度模型。
本模型构建了11个对照组,并以训练集3年测试集1年的方式进行8组滚动回测,均在有效性及稳定性方面表现卓越。
有效性体现在:DeepAlpha-DNN模型成功获得超越市场基准指数的收益表现,基准模型年化收益率27.37%,同期沪深300基准收益率为18.32%,超越市场9.05个百分点,模型最大回撤约为30.3%,夏普率为0.94,波动率为26.38%。
稳定性表现在:模型调整学习率、优化器、损失函数、Batchsize等形成11个对照组之后,仍然能获得较为稳定的收益,对照组指标方差都远远小于1。
同时,本报告采用了3训1测的滚动训练方式来更新迭代模型,以模拟真实的市场交易和模型训练,具体方法为使用前3年的数据进行训练,后1年的数据进行测试,滚动训练回测显示:在2014年1月2日到2021年7月30日整个回测周期内,DeepAlpha-DNN策略的整体收益率高达3859.52%,年化收益率为65.19%,α为0.7081,β为0.4677,收益波动率为32.81%,最大回撤为49.60%,整体夏普率达1.589,做到了8年近40倍。
本报告结论认为:
相较于一般的机器学习策略,以DeepAlpha-DNN为代表的深度学习模型相较于常规的机器学习模型有着显著的优势。能够从最基础的价量因子当中探究到市场最深度的信息。无需繁琐的因子构建,即可自主从市场当中剥离有效的信息,深挖复杂的市场含义。此外,深度学习模型还可以依靠滚动训练来让其自行探究市场风格的变化,进而做出模型调整。相较于人工识别,它更准确、更高效,更能洞悉市场的起伏变动。
1.引言
1.1三年10倍增长国内量化异军突起
据中信证券推算,截至2021年2季度,中国国内市场私募量化总资管规模达到1万亿,相比2017年的1000亿在短短的3年半时间增长10倍,公募量化基金同样增长迅猛,达到2600亿。
与此同时,高流动性、强趋势、全球市场低相关的中国资本市场也在吸引越来越多的海外基金入场,桥水基金、D.E.Shaw、ManGroup、WintonGroup和GAMSystematic等海外量化巨头纷纷布局中国,中国投资机构面临与全球机构同台竞争。(Bloomberg:QuantsAreGettingReadytoPounceonChina’sCommodityBoom2021.4.8)
表 1 2004-2021年海外前十对冲基金风格
2004 | 2018 | 2021 | |||||||
---|---|---|---|---|---|---|---|---|---|
公司 | AUM | 策略分类 | 公司 | AUM | 策略分类 | 公司 | AUM | 策略分类 | 更新日期 |
CaxtonAssociates | 115 | 主观 | BridgewaterAssociates | 1328 | 量化 | BridgewaterAssociates | 1542 | 量化 | 2021/5/31 |
GLGPartners | 110 | 主观 | AQR | 837 | 量化 | ManGroup | 908 | 量化 | 2021/3/31 |
CitiAlternativeInvestments | 99 | 主观 | ManGroup | 591 | 量化+主观 | TwoSigmaInvestments | 600 | 量化 | 2020/9/30 |
FarallonCapitalManagement | 99 | 主观 | RenaissanceTechnologies | 570 | 量化 | RenaissanceTechnologies | 562 | 量化 | 2021/5/31 |
CitadelAdvisors | 95 | 主观为主 | TwoSigma | 388 | 量化 | MarshallWace | 551 | 量化 | 2021/4/1 |
Angelo,Gordon&Co | 90 | 主观 | MilleniumMgmt | 353 | 量化 | MillenniumManagement | 500 | 量化 | 2021/4/30 |
VegaAssetMgmt | 85 | 主观 | ElliottManagement | 350 | 主观 | TheChildren'sInvestmentFundManagement | 485 | 主观 | 2020/12/31 |
AndorCapitalMgmt | 83 | 主观 | MarshallWace | 348 | 量化 | BlackRockAlternativeInvestors | 480 | 量化 | 2020/12/31 |
AorosFundMgmt | 83 | 主观 | DavidsonKempnerCapitalMgmt | 314 | 主观 | VikingGlobalInvestors | 440 | 主观 | 2020/12/31 |
BridgewaterAssociates | 81 | 量化 | BaupostGroup | 310 | 主观 | ElliottManagement | 418 | 主观 | 2020/12/31 |
数据来源:网络综合
1.2市场逐渐过渡至AI算法时代TOP20私募7家布局AI量化
从2018年开始,市场逐渐进入AI算法的时代,不管从因子挖掘、组合管理,还是风险优化等方面,进一步提升了整个量化投资的收益。从2017年Citadel聘请微软人工智能首席经济学家,到2021年阿布扎比投资局建立数据分析及人工智能团队,加拿大养老金计划投资委员会、新加坡GIC、挪威财富基金等主权财富基金都在建立数据分析及人工智能团队(Bloomberg,World’sThird-BiggestWealthFundGrowsQuantTeamWithNewHire2021.6.6)人工智能已经从对冲基金跨越至公募基金、主权财富基金等各类投资主体。
而在国内,幻方量化、天演投资、佳期投资、乾象投资等一系列百亿级千亿级私募机构同样开启了向深度学习的远航(详见表2国内百亿+量化私募及人工智能布局),纷纷招募Facebook、Google等硅谷科技公司工程师组建量化投资团队.
从2016年,BigQuant平台从互联网搜索引擎领域借鉴了PageRank算法进入金融市场,提出StockRanker算法,5年时间,StockRanker算法充分证明了其在金融量化选股领域的有效性。接下来,BigQuant算法组将逐步推出DeepAlpha系列深度模型,从基础量价数据中构建深度学习量化模型,分享AI量化领域实践研究,赋能宽客(QUANT)在AI量化领域基础设施建设及前沿研究,共同迎接AI量化极速发展的资管大时代。
表 2国内百亿+量化私募及人工智能布局
序号 | 公司简称 | 成立时间 | 今年以来收益率(%) | 是否涉及人工智能量化(数据来自其官网) | 策略 |
---|---|---|---|---|---|
1 | 鸣石投资 | 2010/12/9 | 39.88 | 是 | CTA策略、指数增强、中性策略 |
2 | 天演资本 | 2014/8/5 | 37.88 | 是 | —— |
3 | 世纪前沿资产 | 2015/8/24 | 36.08 | 对冲指数增强 | |
4 | 金戈量锐 | 2014/11/12 | 33.42 | 对冲指数增强 | |
5 | 佳期投资 | 2014/11/28 | 31.25 | 是 | 人工智能量化 |
6 | 因诺资产 | 2014/9/24 | 30.53 | 套利、择时、多因子、CTA | |
7 | 启林投资 | 2015/5/28 | 24.13 | 对冲、指数增强 | |
8 | 宁波幻方量化 | 2016/2/15 | 20.74 | 是 | —— |
9 | 灵均投资 | 2014/6/30 | 18.96 | 中性、多策略、指增 | |
10 | 九坤投资 | 2012/4/12 | 18.22 | 是 | 指增、对冲、CTA、多空 |
11 | 幻方量化 | 2015/6/11 | 18.19 | 是 | —— |
12 | 衍复投资 | 2019/7/25 | 17.4 | 中性策略 | |
13 | 盛泉恒元 | 2014/7/8 | 14.82 | 量化套利、价值投资 | |
14 | 诚奇资产 | 2013/9/24 | 13.48 | 是 | 阿尔法 |
15 | 进化论资产 | 2014/6/4 | 13.06 | 主观、指增、对冲、多空、FOF | |
16 | 明波投资 | 2014/4/17 | 12.44 | —— | |
17 | 金锝资产 | 2011/11/25 | 11.11 | 对冲 | |
18 | 黑翼资产 | 2014/5/5 | 9.38 | 股票对冲(指数增强、中性) | |
19 | 千象资产 | 2014/7/4 | 5.33 | CTA、指数增强、复合、量化选股 | |
20 | 呈瑞投资 | 2010/5/31 | 4.85 | 宏观对冲、CTA、主动量化、新三板 |
数据来源:私募排排网2021.9.3策略整理:BigQuant
1.3DeepAlpha深度学习模型解析 免除反复冗杂和维灾问题
2021年7月DeepMind公司宣布旗下人工智能系统AlphaFold已经实现对98.5%已知人类蛋白质以及20种模式生物蛋白质的结构预测。深度学习在计算机视觉、自然语言处理、博弈等技术领域业已证明了其有效性,如:而ImageNet在图像识别、Transformer在翻译人类语言,StyleGAN在图片制造方面都表现出了卓越的性能。
庞大的神经网络结构拥有着数以万计的参数,此等参数规模使得常规的调参思路变得难以实施。在现代GPU,梯度下降和反向传播等技术的支持下,让大规模调参成为可能,因此,深度神经网络可以获得深层次的特征,免除人工选取特征的反复冗杂和高维数据的维度灾难问题。
1.4本报告目标:验证DeepAlpha-DNN模型有效性、稳定性
本系列报告旨在从基础量价数据中,借鉴深度学习模型,应用于量化投资(见下图1深度学习量化策略机制示意),模型如全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet,(见下表3机器学习、人工智能分类;表4、器学习深度学习异同及流程)同时报告将引入自然语义识别NLP领域近年热门算法如BERT、Transformer、GPT、XLNet等,尝试构建各类DeepAlpha模型。
第一篇本报告以深度神经网络(DNN)开篇,构建DeepAlpha-DNN模型,并尝试验证其有效性及稳定性。
==其中有效性在于:==深度学习量化模型是否能够获得超越市场宽基指数的收益表现?本性能主要体现在基准模型年化收益率、超越基准收益率、收益波动率、最大回撤及夏普率。
==其中稳定性在于:==模型调整学习率、优化器、损失函数、Batchsize之后是否仍然能获得稳定的收益表现?本性能主要体现在11个对照组收益结果均值、中位数以及方差。
图 1深度学习量化策略机制示意
\
2.基本原理及可行性
2.1DeepAlpha-DNN原理:全连接构建3层以上深度模型
深度神经网络(DNN,DeepNeuralNetwork)模仿了动物神经元的激发模式和链接模式,它基于单个神经元(Perceptron),以全连接的方式构建层数大于3的深度模型。
神经元构造简单且精巧,神经元构造如图7所示:
DNN构建激活运作方式模拟生物神经元:层与层之间的每个神经元之间都设置一定的权重和偏置并且相连,并且在达到一定条件时将信号传递给下一层的神经元,这一过程被称为正向传播。这样的链接结构能使得信息能最大程度地在层与层之间保留并传递。每个神经元所包含数值的计算公式如下所示:
其中f为激活函数(人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,详见8.名词字典激活函数),常见激活函数见3:
依靠层与层之间的全链接结构,将多层包含多个神经元的层叠加进而可以构建全连接深度神经网络,即DNN:
2.2DeepAlpha-DNN特点:高灵活、主动识别特征
理论上,如同其他深度神经网络一般,DeepAlpha-DNN拥有极多的参数,并有赖于灵活的激活函数,DeepAlpha-DNN几乎可以拟合任何函数。架构特性使得DeepAlpha-DNN:
==拥有较强的灵活性,能较强地模拟市场变化。==
==能够节省部分因子挖掘的时间。==
==主动识别市场中的特征,并且在隐藏层中进行整合。==
但与此同时,市场中存在大量DeepAlpha-DNN无法识别的信息,这是因为股市本身不仅是价量因子的组合,更是一个基于自身的时序函数(AutoregressiveModel)。因此,本报告同时输入时序信息作为因子,以获得整个市场的趋势变化,提高预测准确度,减轻DeepAlpha-DNN对市场没有记忆的问题,以提高模型识别趋势和预测市场的能力。
3.因子生成
3.1数据:开盘价、最高价等7个基础数据