量化研究每周精选-20170913
由ypyu创建,最终由ypyu 被浏览 12 用户
导语:本周精选了一篇有关机器学习应用于期货量化交易的文章。文章概要描述如何基于期货历史交易数据,应用机器学习预测股票回报率和波动率,具体步骤包括提出模型假设,确定训练样本和学习目标,生成并挑选特征以及确认最优算法,并研究回报率预测确定系数$r^2$与夏普比率之间的关系,非常值得一读。BigQuant拥有海量的数据和主流开源AI框架,赋能每一位爱好机器学习/深度学习和量化交易的人。
《应用机器学习开发期货算法交易策略》
原文:《Algorithmic Trading of Futures via Machine Learning》
关键词:机器学习、算法交易、夏普比率
算法交易是现代金融投资的重要分支。本文基于27只期货的历史数据,应用机器学习开发算法交易策略,预测未来20日回报率与波动率,获取高夏普比率的交易策略。本文探讨回报率预测的确定系数$r^2$与夏普比率的关系。
研究背景:
为参加某交易比赛,本文应用机器学习构建交易策略。策略需要基于指定时间段的27只期货数据进行训练与测试,主要应用于长期投资。交易数据包含3800个交易日的最高价,最低价,开盘价,收盘价和成交量。评价策略的主要指标是夏普比率:回报率与波动率之比。
模型假设:
为简化模型,本文提出两个假设:1.对于回报率和波动率的精确预测可以获得高夏普比率的交易策略,即确定系数越大,夏普比率越高。2.每只期货能够依据其历史数据单独分析。虽然各期货之间有一定相互关系,但第二个简化假设较为合理。
学习目标:
从夏普比率定义和模型假设出发,并经过一些试验,确定机器学习的目标为20个交易日后的回报率和波动率的预测,数学表达为求解27只期货的回报率与波动率的最小均方差。
特征提取:
本文分别使用主成分分析(PCA)和标准技术指标两种方法。使用PCA之前,对数据进行降维处理并归一化,之后利用交叉验证决定主成分数量。标准技术指标则选择18个金融分析指标,包括ATR、EMA、OBV、PPO、PVO、ROC、SMA、RSI等等。
特征/算法选择:
本文对四种算法进行比较,主要包括线性回归(后续改进使用岭回归)、神经网络、随机森林和梯度提升决策树算法。由于波动率的预测比回报率预测难度低,文章以波动率的预测验证选取的特征,再应用到回报率预测上,这个想法比较独特新颖。
本文以80%的训练样本作为训练集,20%的训练样本作为测试集,并对训练集做10折的交叉验证。
利用线性回归算法验证不同特征提取的效果,结果表示以18个技术指标作为特征,算法表现良好,还可利用greedy backward elimination获取其中7个技术指标作为特征,算法效果进一步改进。
最后,利用技术指标特征向量验证不同算法性能,确定岭回归算法性能最优。
算法评估
交易算法采用岭回归算法,以前文技术指标为特征。策略夏普比率为1.18,证明交易策略的有效性。
本文通过调整不同的$r^2$值,构建不同回归预测,计算该预测的夏普比率,得到结论为:即便$r^2$值偏小,也可以获得夏普比率大于1的策略。
算法改进:
- 本文设定预测日期为20个交易日,可以通过合理调整该日期获取更可靠的的预测目标。
- 不同期货数据存在一定相关性,该特性可以帮助我们获得更加有效的策略。
- 特征的生成和挑选可以提升回报预测的准确度。
- 除了规定的交易数据,可以增加其他类型数据,比如新闻文本中的情绪指标等。
《量化研究每周精选》每周一期,为大家提精选研报、前沿研究、热门文章等优质内容。 查看所有 量化研究每周精选。欢迎投稿 (i@bigquant.com)。