除了XGBoost,BigQuant平台还支持哪些机器学习模型?
由bq4y4j3i创建,最终由bq4y4j3i 被浏览 1 用户
以下信息由“豆包”生成,不一定完全准确。
BigQuant作为专业的量化投研平台,对**经典机器学习、深度学习、量化专用模型**均做了深度适配,支持**Python原生库调用**+**平台内置封装**两种方式,能完美衔接量化因子挖掘、模型训练、回测一体化流程,除XGBoost外,主流模型全覆盖,且针对量化场景做了性能优化(如高维因子、时间序列、多标的数据处理)。
以下按**量化投研常用场景**分类,整理BigQuant支持的核心机器学习模型,包含**模型类型、调用方式、量化适用场景**,贴合A股/港股/美股等市场的因子预测、选股、择时、套利等业务需求:
一、经典树模型(量化选股/因子预测最常用)
这类模型对非线性因子、量价数据的适配性极强,是量化策略的核心模型,BigQuant支持Python原生库直接调用,且对大样本因子数据做了计算加速:
- LightGBM
- 调用:
import lightgbm as lgb(原生库,与XGBoost语法兼容) - 优势:比XGBoost训练更快、内存占用更低,对高维因子(如百维/千维因子)、稀疏数据处理更友好,量化中常用来做因子筛选+多因子预测
- 适用:A股日频/分钟级选股、因子收益率预测
- 调用:
- CatBoost
- 调用:
import catboost as cb(原生库) - 优势:自动处理类别型因子(如行业、概念、风格标签),无需手动独热编码,量化中可直接融入行业分类、板块轮动等类别特征
- 适用:含大量类别因子的选股模型、风格轮动策略
- 调用:
- 随机森林/Random Forest
- 调用:
from sklearn.ensemble import RandomForestRegressor/Classifier - 优势:模型鲁棒性强,能输出因子重要性,适合量化中因子有效性检验,避免过拟合
- 适用:因子挖掘、低维因子组合的选股模型
- 调用:
- 梯度提升树/GBRT
- 调用:
from sklearn.ensemble import GradientBoostingRegressor/Classifier - 优势:经典梯度提升框架,可自定义损失函数,适合量化中自定义目标标签(如超额收益、夏普比率预测)
- 适用:个性化标签的因子预测模型
- 调用:
二、线性/广义线性模型(因子定价/基准模型)
这类模型是量化因子定价、多因子基准的基础,能清晰反映因子与收益的线性关系,BigQuant支持原生调用+平台内置因子正交化、量纲标准化衔接:
- 普通线性回归/LR
- 调用:
from sklearn.linear_model import LinearRegression - 适用:CAPM、Fama-French三因子/五因子模型、线性多因子定价、因子收益率拟合
- 调用:
- 岭回归/套索回归/Lasso/ElasticNet
- 调用:
from sklearn.linear_model import Ridge, Lasso, ElasticNet - 优势:带正则化,解决量化高维因子的多重共线性问题,自动做因子筛选(Lasso可将无效因子系数置0)
- 适用:高维因子压缩、多因子模型的因子筛选
- 调用:
- 逻辑回归/Logistic Regression
- 调用:
from sklearn.linear_model import LogisticRegression - 适用:量化二分类场景(如股票涨跌预测、突破/横盘分类、择时信号生成)
- 调用:
- 泊松回归/负二项回归
- 调用:
from sklearn.linear_model import PoissonRegressor - 适用:量化计数型目标预测(如股票成交量涨跌幅、换手率分级预测)
- 调用:
三、无监督学习模型(因子挖掘/聚类/降维)
主要用于量化因子预处理、因子挖掘、标的聚类,解决高维因子冗余、因子风格划分、行业/板块自动聚类等问题,是量化投研的前置重要环节:
- 主成分分析/PCA
- 调用:
from sklearn.decomposition import PCA - 核心:高维因子降维,将冗余的相关因子转化为正交的主成分因子,避免多重共线性
- 适用:百维以上高维因子压缩、因子合成
- 调用:
- 因子分析/FA
- 调用:
from sklearn.decomposition import FactorAnalysis - 核心:比PCA更贴合量化因子挖掘,能提取潜在公共因子(如市值因子、动量因子的底层公共因子)
- 适用:量化多因子模型的公共因子提取
- 调用:
- K-Means聚类
- 调用:
from sklearn.cluster import KMeans - 适用:股票标的聚类(如按市值/估值/流动性聚类)、因子风格聚类、行业细分聚类
- 调用:
- DBSCAN密度聚类
- 调用:
from sklearn.cluster import DBSCAN - 优势:无需指定聚类数量,能发现不规则形状的聚类,适合小众风格板块挖掘
- 适用:量化风格轮动、冷门赛道标的筛选
- 调用:
- TSNE/UMAP
- 调用:
from sklearn.manifold import TSNE/import umap - 核心:高维因子可视化,将百维/千维因子映射到2D/3D空间,直观查看因子/标的的分布规律
- 适用:因子有效性可视化、标的风格分布分析
- 调用:
四、深度学习模型(复杂模式/时间序列预测)
BigQuant支持TensorFlow/PyTorch原生调用,且提供量化专用的时间序列数据处理接口(如将多标的量价数据转为时序张量),适合挖掘量价数据中的非线性复杂模式,多用于中高频择时、趋势预测:
- 全连接神经网络/MLP
- 调用:
from tensorflow.keras.models import Sequential/import torch.nn as nn - 适用:低维因子的非线性拟合、股票收益多分类预测
- 调用:
- 循环神经网络/RNN/LSTM/GRU
- 调用:TensorFlow/PyTorch原生实现
- 优势:捕捉时间序列特征(如股票价格的趋势、波动、滞后效应)
- 适用:A股分钟级择时、期货趋势预测、量价时序模式挖掘
- 卷积神经网络/CNN
- 调用:TensorFlow/PyTorch原生实现
- 优势:提取量价数据的局部特征(如K线形态、成交量异动、盘口特征)
- 适用:K线形态识别(如头肩顶、双底)、分钟级盘口数据预测
- Transformer/Attention
- 调用:PyTorch/TensorFlow+HuggingFace
- 优势:捕捉多标的/多因子之间的长距离依赖(如板块轮动、跨市场联动)
- 适用:多市场套利、板块轮动预测、高维时序因子挖掘
- 时序卷积网络/TCN
- 调用:
from tcn import TCN - 优势:比LSTM训练更快、捕捉长时序特征更高效,适合量化高频时间序列
- 适用:期货高频择时、A股分钟级选股
- 调用:
五、量化专用模型/集成学习(平台特色+工业级策略)
BigQuant除了支持通用模型,还对量化场景的集成学习、专用模型做了封装,适配量化滚动训练、在线学习、多模型融合的工业级需求:
- Stacking/Bagging/Blending集成学习
- 调用:
from sklearn.ensemble import VotingRegressor/Classifier(原生)+ 平台自定义封装 - 核心:多模型融合(如XGBoost+LightGBM+LR),提升策略的鲁棒性和稳定性,避免单一模型失效
- 量化常用:选股模型中融合树模型+线性模型,兼顾非线性拟合和因子线性定价
- 调用:
- 在线学习模型(如SGDRegressor/PA)
- 调用:
from sklearn.linear_model import SGDRegressor - 优势:支持增量训练,无需每次重新训练全量数据,适合量化滚动训练/实时更新模型
- 适用:实盘策略的模型在线更新、高频策略的实时因子拟合
- 调用:
- BigQuant平台内置量化模型
- 平台封装了QNN(量化神经网络)、因子挖掘模型、智能选股模型等,直接通过平台可视化界面调用,无需手动写代码,适合快速做策略原型验证
- 如:平台内置的多因子智能选股模型,自动完成因子筛选、模型训练、回测一体化
六、模型评估/优化工具(量化专用)
BigQuant不仅支持模型训练,还适配量化场景的模型评估、超参数优化,解决量化模型过拟合、样本外失效的核心问题:
- 超参数优化:支持
optuna/gridsearchcv/randomizedsearchcv原生调用,可对XGBoost/LightGBM等模型做量化专用的超参数搜索(如按样本外收益率、夏普比率优化,而非传统的RMSE/R2) - 量化模型评估指标:除了SKlearn的RMSE/R2/ACC,平台内置收益率、最大回撤、夏普比率、信息比率等量化专用指标,直接作为模型训练的损失函数/评估标准
- 滚动验证/时间序列交叉验证:支持
TimeSeriesSplit原生调用,避免量化中未来数据泄露,保证模型的样本外有效性(量化核心禁忌:未来数据泄露)
七、BigQuant模型调用的核心优势(量化场景)
- 数据无缝衔接:平台内置A股/港股/美股的量价、财务、因子、舆情等数据,模型训练可直接通过
dai.query获取数据,无需手动下载/清洗,避免数据格式不兼容 - 计算性能优化:对高维因子、大样本数据做了分布式计算加速,训练千万级样本、千维因子的模型时,比本地Python快10~100倍
- 回测一体化:模型训练完成后,可直接在平台做回测+实盘对接,无需手动迁移模型/数据,实现“因子挖掘→模型训练→回测→实盘”的全流程闭环
- 避免未来数据泄露:平台的时间序列数据处理接口,天然适配量化的滚动训练、时间序列交叉验证,从底层避免未来数据泄露
量化模型选择建议(贴合BigQuant平台)
| 量化场景 | 首选模型 | 次选模型 |
|---|---|---|
| A股日频选股/因子收益预测 | LightGBM/XGBoost | CatBoost/随机森林 |
| 高维因子压缩/因子挖掘 | Lasso/PCA/因子分析 | 随机森林(因子重要性) |
| 股票涨跌/择时二分类 | 逻辑回归/LightGBM分类 | XGBoost分类 |
| 时间序列择时/量价预测 | LSTM/TCN/Transformer | GRU/CNN |
| 实盘在线更新模型 | SGDRegressor/在线学习 | LightGBM增量训练 |
| 多模型融合/工业级策略 | Stacking/Voting集成 | XGBoost+LR融合 |
| 快速策略原型验证 | 平台内置量化模型/QNN | LightGBM(快速训练) |
补充:BigQuant中模型切换的简易示例(XGBoost→LightGBM)
以之前的滚动训练模板为例,将XGBoost替换为LightGBM仅需修改模型训练/预测部分,其余代码完全不变,适配性极强:
# 替换为LightGBM训练
import lightgbm as lgb
X_train = df[context.feature_list]
y_train = df['label']
# 定义LightGBM参数
params = {
'objective': 'regression',
'num_leaves': 31,
'learning_rate': 0.1,
'metric': 'rmse'
}
# 训练模型
lgb_train = lgb.Dataset(X_train, y_train)
context.model = lgb.train(params, lgb_train, num_boost_round=30)
# 预测
df['score'] = context.model.predict(df[context.feature_list])
综上,BigQuant对机器学习模型的支持全覆盖、高适配、高性能,从经典的树模型、线性模型,到深度学习、量化专用模型,均能完美衔接量化投研的全流程,且针对量化的核心痛点(数据泄露、高维因子、样本外失效)做了底层优化,是量化模型训练+回测的专业平台。