平台常用AI机器学习模型

由clearyf创建，最终由bqxqzfmk更新于2024-06-15 07:29 被浏览 1405 用户

导语

BigQuant平台会不断封装机器学习算法策略，方便用户直接使用策略生成器开发策略，降低策略开发难度。本文对BigQuant平台上策略生成器已经支持的机器学习模型进行简单介绍。

目前，BigQuant策略研究平台支持的机器学习模型有分类模型、回归模型、排序模型和聚类模型四类。

常用AI机器学习模型

分类模型

分类模型主要包含以下模型：

模型名称	模块名称
线性分类	M.logistic_regression.
线性随机梯度下降分类	M.linear_sgd_classifier
支持向量机分类	M.svc
多层感知器分类	M.mlp_classifier
梯度提升树分类	M.gradient_boosting_classifier
极端随机数分类	M.extra_trees_classifier
自适应提升树分类	M.adaboost_classifier
随机森林分类	M.random_forest_classifier
XGBoost分类	M.xgboost
Bagging分类	M.bagging_classifier
k近邻分类	M.kneighbors_classifier

回归模型

回归模型主要包含以下模型：

模型名称	模块名称
线性回归	M.linear_regression.
线性随机梯度下降回归	M.linear_sgd_regressor
支持向量机回归	M.svr
多层感知器回归	M. mlp_regressor
极端随机数回归	M.extra_trees_regressor
自适应提升树回归	M.adaboost_regressor
随机森林回归	M. random_forest_regressor
梯度提升树回归	M.gradient_boosting_regressor
Bagging回归	M.bagging_regressor
XGBoost回归	M.xgboost
k近邻回归	M.kneighbors_regressor

排序模型

排序模型主要包含以下模型：

模型名称	模块名称
XGBoost排序	M.xgboost
Stock_ranker排序	M.stock_ranker

聚类模型

聚类模型主要包含以下模型：

模型名称	模块名称
层次聚类排序	M.cluster_agglomerative
近邻传播聚类	M.cluster_affinity_propagation
谱聚类	M.cluster_spectral
Birch聚类	M.cluster_birch
DBSCAN聚类	M.cluster_dbscan
K均值聚类	M.cluster_kmeans

线性模型

常见的线性模型之间的比较如下图所示。

树模型

常见的树模型之间的比较如下图所示。

重点模型介绍

下面，我们着重介绍几个模型，其余的模型可以在文档中查看介绍和使用方法。

StockRanker 模型

StockRanker 是 BigQuant为量化选股而设计，核心算法主要是排序学习和梯度提升树。

StockRanker = 选股 + 排序学习 + 梯度提升树

StockRanker有如下特点：

选股：股票市场和图像识别、机器翻译等机器学习场景有很大不同。StockRanker充分考虑股票市场的特殊性，可以同时对~3000只股票的数据进行学习，并预测出股票排序
排序学习 (Learning to Rank)：排序学习是一种广泛使用的监督学习方法 (Supervised Learning)，比如推荐系统的候选产品、用户排序，搜索引擎的文档排序，机器翻译中的候选结果排序等等。StockRanker 开创性的将排序学习和选股结合，并取得显著的效果。
梯度提升树 (GBDT)：有多种算法可以用来完成排序学习任务，比如VSM、逻辑回归、概率模型等等。StockRanker使用了GBDT，GBDT是一种集成学习算法，在行业里使用广泛。

StockRanker的领先效果还得益于优秀的工程实现，我们在学习速度、学习能力和泛化性等方面，都做了大量的优化，并且提供了参数配置，让用户可以进一步根据需要调优。

随机森林模型

Bagging 算法是 bootstrap aggregation 的缩写，其核心思想是通过随机有放回的抽样构建训练数据集训练模型，最后组合，典型例子代表为随机森林模型。随机森林模型使用多棵树进行单独预测，最后的结论由这些树预测结果的组合共同来决定，这也是“森林”名字的来源。每个基分类器可以很弱，但最后组合的结果通常能很强，这也类似于：“三个臭皮匠顶个诸葛亮”的思想。

随机森林模型有如下特点：

很少的数据预处理。随机森林继承决策树的全部优点，只需做很少的数据准备，其他算法往往需要数据归一化。
功能强大。随机森林模型能处理连续变量，还能处理离散变量，当然也能处理多分类问题。
鲁棒性更强。随机森林解决了决策树的过拟合问题，使模型的稳定性增加，对噪声更加鲁棒，从而使得整体预测精度得以提升。

线性回归模型（SGD）

用回归方程定量地刻画一个因变量与多个自变量间的线性依存关系，称为多元线性回归分析。多元线性回归分析是多变量分析的基础，也是理解监督类分析方法的入口！实际上大部分学习统计分析和市场研究的人的都会用回归分析，操作比较简单。

在BigQuant上的线性回归模型的独特之处在于，在最小化损失函数——均分误差的时候，采取的是随机梯度下降法（stochastic gradient descent），因此更高效。

最后，大家可以参考BigQuant平台算法策略案例初步熟悉平台上各类算法的可视化流程。

小结：本文对三种机器学习算法模型特点进行简单介绍，帮助大家进一步了解常用模型特点，在进行构建策略时做出最优选择。