机器学习已经成为量化策略设计中的一大利器,了解各种机器学习算法的原理、特点、优劣,对于量化建模有着极大的帮助。因此,本系列【专题研究】介绍几种在资本市场中非常流行的机器学习算法及其在选股方面的相应应用,希望能对大家有所帮助。
随机森林是当前使用最广泛的机器学习集成算法之一。由于其简单灵活、不容易过拟合、准确率高的特性,随机森林在很多应用中都体现了较好的效果。
本文从单棵决策树讲起,逐步解释了随机森林的工作原理,然后将随机森林预测应用于二级市场,介绍了基于随机森林模型的智能选股策略。
随机森林是一种集成算法(Ensemble
更新时间:2024-06-08 13:08
对于那些认为随机森林是黑匣子算法的人来说,这篇帖子会提供一个不同的观点。接下来,我将从4个方面去理解随机森林模型。
在sklearn随机森林中使用model.feature_importance来研究其重要特征是很常见的。重要特征是指与因变量密切相关的特征,并且对因变量的变化影响较大。我们通常将尽可能多的特征提供给随机森林模型,并让算法反馈对预测最有用的特征列表。但仔细选择正确的特征可以使我们的目标预测更加准确。
计算feature_importances的想法很简单,但却很有效。
更新时间:2024-05-20 02:09
机器学习已经广泛地应用在对于资产市场的分析中。但是,在浩如烟海的机器学习算法中,到底哪种算法能取得更优的预测效果呢?发表在《Applied Mathematical Finance》的这篇文章利用随机森林算法对股价d天之后的涨跌方向进行了预测。发现相比于SVM、线性判别分析等模型,随机森林可以取得更优秀的预测结果:能够达到85%-95%的准确率。
为了最小化预测误差,文章将预测股价的走势看做一个二分类问题(涨or跌),使用集成机器学习建模解决。文章里利用RSI(相对强弱指数)、KD随机指标、MACD等6个常用的技术指标作为分类的特征,对随机森林模型进行训练。最后发现,模型中
更新时间:2024-05-20 02:09
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-17 07:25
更新时间:2024-02-05 15:01
DeepAlpha系列报告旨在从基础量价数据中,借鉴深度学习模型,应用于量化投资领域。学习模型包括:全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet,同时报告将引入自然语义识别NLP领域近年热门算法如BERT、Transformer、GPT、XLNet等,尝试构建各类DeepAlpha模型。
本篇文章通过传统机器学习算法对相同的量价因子进行实验,方便与深度学习模型进行对比。
随机森林属于集成学习的一种,通过集成学习的Bagging思想将多棵树集成的一种算法:它的基本单
更新时间:2023-12-02 14:12
用随机森林分类和stockRanker排序回测跑出来结果还可以,但是我没有进行标准化等处理,请问结果可信吗?是不是两个都要进行标准化、去极值等处理?
更新时间:2023-10-09 08:13
也没有模型训练过程,直接就1分钟不到就直接输出 预测结果了
\
①数据量太少
②xgboost建议使用这个模块:
随机森林建议使用这个模块:
更新时间:2022-12-20 14:20
gcForest算法
gcForest(multi-Grained Cascade Forest)算法是2017年周志华教授提出来的一种基于树的深度模型,旨在作为深度神经网络的一种可供选择的替换。由于超参数更好的鲁棒性,小样本上更好的稳定性,因此该模型相对于神经网络可能在金融数据上有更好的表现。
gcForest的回测表现
将《机器学习与量化投资:避不开的那些事(1)》中的神经网络替换成为gcForest,按月收益回撤比可达15.959。
gcForest的参数敏感性
该模型的各个参数的敏感性都非常低。
[/wiki/static
更新时间:2022-10-10 01:40
之前的随机森林选股策略的回测效果并不是很好,笔者参考一篇硕士论文得到了因子选择的思路,对原有模型进行优化调参,得到了不错的回测收益效果。笔者将模型链接附到下方,方便大家可以尝试一下不同的因子组合。
/wiki/static/upload/f6/f60ca050-8291-48bb-9e28-fb650601f075.pdf
![优化流程{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}]
更新时间:2022-08-09 07:07
更新时间:2022-06-02 07:57
非线性特征
非线性模型:𝑹=𝑿𝒇+𝑮𝑿𝒈+𝝐′其中,线性部分:𝑹=𝑿𝒇+ε;残差项的非线性结构:𝝐=𝑮X𝒈+𝝐′;𝐺()为基于线性因子暴露X的非线性函数
对于收益率的残差,分别使用randomforest,boostedtree,neuralnetwork,以及对几种集成学习模型的集成方法分别建模
量化投资理念的两大流派
有些策略种类的命名是基于策略的表现形式,基于原始信号的触发机制,也可归为上述两类。例如,高频交易、多因子模型。
风控:贯穿始终,以最终获得统计意义上的收益
**传统Alpha策略Beta化,探求更高维度的
更新时间:2021-11-26 08:27