BigQuant 2026年度私享会

除了XGBoost,BigQuant平台还支持哪些机器学习模型?

由bq4y4j3i创建,最终由bq4y4j3i 被浏览 1 用户

以下信息由“豆包”生成,不一定完全准确。

BigQuant作为专业的量化投研平台,对**经典机器学习、深度学习、量化专用模型**均做了深度适配,支持**Python原生库调用**+**平台内置封装**两种方式,能完美衔接量化因子挖掘、模型训练、回测一体化流程,除XGBoost外,主流模型全覆盖,且针对量化场景做了性能优化(如高维因子、时间序列、多标的数据处理)。

以下按**量化投研常用场景**分类,整理BigQuant支持的核心机器学习模型,包含**模型类型、调用方式、量化适用场景**,贴合A股/港股/美股等市场的因子预测、选股、择时、套利等业务需求:

一、经典树模型(量化选股/因子预测最常用)

这类模型对非线性因子、量价数据的适配性极强,是量化策略的核心模型,BigQuant支持Python原生库直接调用,且对大样本因子数据做了计算加速:

  1. LightGBM
    • 调用:import lightgbm as lgb(原生库,与XGBoost语法兼容)
    • 优势:比XGBoost训练更快、内存占用更低,对高维因子(如百维/千维因子)、稀疏数据处理更友好,量化中常用来做因子筛选+多因子预测
    • 适用:A股日频/分钟级选股、因子收益率预测
  2. CatBoost
    • 调用:import catboost as cb(原生库)
    • 优势:自动处理类别型因子(如行业、概念、风格标签),无需手动独热编码,量化中可直接融入行业分类、板块轮动等类别特征
    • 适用:含大量类别因子的选股模型、风格轮动策略
  3. 随机森林/Random Forest
    • 调用:from sklearn.ensemble import RandomForestRegressor/Classifier
    • 优势:模型鲁棒性强,能输出因子重要性,适合量化中因子有效性检验,避免过拟合
    • 适用:因子挖掘、低维因子组合的选股模型
  4. 梯度提升树/GBRT
    • 调用:from sklearn.ensemble import GradientBoostingRegressor/Classifier
    • 优势:经典梯度提升框架,可自定义损失函数,适合量化中自定义目标标签(如超额收益、夏普比率预测)
    • 适用:个性化标签的因子预测模型

二、线性/广义线性模型(因子定价/基准模型)

这类模型是量化因子定价、多因子基准的基础,能清晰反映因子与收益的线性关系,BigQuant支持原生调用+平台内置因子正交化、量纲标准化衔接:

  1. 普通线性回归/LR
    • 调用:from sklearn.linear_model import LinearRegression
    • 适用:CAPM、Fama-French三因子/五因子模型、线性多因子定价、因子收益率拟合
  2. 岭回归/套索回归/Lasso/ElasticNet
    • 调用:from sklearn.linear_model import Ridge, Lasso, ElasticNet
    • 优势:带正则化,解决量化高维因子的多重共线性问题,自动做因子筛选(Lasso可将无效因子系数置0)
    • 适用:高维因子压缩、多因子模型的因子筛选
  3. 逻辑回归/Logistic Regression
    • 调用:from sklearn.linear_model import LogisticRegression
    • 适用:量化二分类场景(如股票涨跌预测、突破/横盘分类、择时信号生成)
  4. 泊松回归/负二项回归
    • 调用:from sklearn.linear_model import PoissonRegressor
    • 适用:量化计数型目标预测(如股票成交量涨跌幅、换手率分级预测)

三、无监督学习模型(因子挖掘/聚类/降维)

主要用于量化因子预处理、因子挖掘、标的聚类,解决高维因子冗余、因子风格划分、行业/板块自动聚类等问题,是量化投研的前置重要环节

  1. 主成分分析/PCA
    • 调用:from sklearn.decomposition import PCA
    • 核心:高维因子降维,将冗余的相关因子转化为正交的主成分因子,避免多重共线性
    • 适用:百维以上高维因子压缩、因子合成
  2. 因子分析/FA
    • 调用:from sklearn.decomposition import FactorAnalysis
    • 核心:比PCA更贴合量化因子挖掘,能提取潜在公共因子(如市值因子、动量因子的底层公共因子)
    • 适用:量化多因子模型的公共因子提取
  3. K-Means聚类
    • 调用:from sklearn.cluster import KMeans
    • 适用:股票标的聚类(如按市值/估值/流动性聚类)、因子风格聚类、行业细分聚类
  4. DBSCAN密度聚类
    • 调用:from sklearn.cluster import DBSCAN
    • 优势:无需指定聚类数量,能发现不规则形状的聚类,适合小众风格板块挖掘
    • 适用:量化风格轮动、冷门赛道标的筛选
  5. TSNE/UMAP
    • 调用:from sklearn.manifold import TSNE/import umap
    • 核心:高维因子可视化,将百维/千维因子映射到2D/3D空间,直观查看因子/标的的分布规律
    • 适用:因子有效性可视化、标的风格分布分析

四、深度学习模型(复杂模式/时间序列预测)

BigQuant支持TensorFlow/PyTorch原生调用,且提供量化专用的时间序列数据处理接口(如将多标的量价数据转为时序张量),适合挖掘量价数据中的非线性复杂模式,多用于中高频择时、趋势预测:

  1. 全连接神经网络/MLP
    • 调用:from tensorflow.keras.models import Sequential/import torch.nn as nn
    • 适用:低维因子的非线性拟合、股票收益多分类预测
  2. 循环神经网络/RNN/LSTM/GRU
    • 调用:TensorFlow/PyTorch原生实现
    • 优势:捕捉时间序列特征(如股票价格的趋势、波动、滞后效应)
    • 适用:A股分钟级择时、期货趋势预测、量价时序模式挖掘
  3. 卷积神经网络/CNN
    • 调用:TensorFlow/PyTorch原生实现
    • 优势:提取量价数据的局部特征(如K线形态、成交量异动、盘口特征)
    • 适用:K线形态识别(如头肩顶、双底)、分钟级盘口数据预测
  4. Transformer/Attention
    • 调用:PyTorch/TensorFlow+HuggingFace
    • 优势:捕捉多标的/多因子之间的长距离依赖(如板块轮动、跨市场联动)
    • 适用:多市场套利、板块轮动预测、高维时序因子挖掘
  5. 时序卷积网络/TCN
    • 调用:from tcn import TCN
    • 优势:比LSTM训练更快、捕捉长时序特征更高效,适合量化高频时间序列
    • 适用:期货高频择时、A股分钟级选股

五、量化专用模型/集成学习(平台特色+工业级策略)

BigQuant除了支持通用模型,还对量化场景的集成学习、专用模型做了封装,适配量化滚动训练、在线学习、多模型融合的工业级需求:

  1. Stacking/Bagging/Blending集成学习
    • 调用:from sklearn.ensemble import VotingRegressor/Classifier(原生)+ 平台自定义封装
    • 核心:多模型融合(如XGBoost+LightGBM+LR),提升策略的鲁棒性和稳定性,避免单一模型失效
    • 量化常用:选股模型中融合树模型+线性模型,兼顾非线性拟合和因子线性定价
  2. 在线学习模型(如SGDRegressor/PA)
    • 调用:from sklearn.linear_model import SGDRegressor
    • 优势:支持增量训练,无需每次重新训练全量数据,适合量化滚动训练/实时更新模型
    • 适用:实盘策略的模型在线更新、高频策略的实时因子拟合
  3. BigQuant平台内置量化模型
    • 平台封装了QNN(量化神经网络)、因子挖掘模型、智能选股模型等,直接通过平台可视化界面调用,无需手动写代码,适合快速做策略原型验证
    • 如:平台内置的多因子智能选股模型,自动完成因子筛选、模型训练、回测一体化

六、模型评估/优化工具(量化专用)

BigQuant不仅支持模型训练,还适配量化场景的模型评估、超参数优化,解决量化模型过拟合、样本外失效的核心问题:

  1. 超参数优化:支持optuna/gridsearchcv/randomizedsearchcv原生调用,可对XGBoost/LightGBM等模型做量化专用的超参数搜索(如按样本外收益率、夏普比率优化,而非传统的RMSE/R2)
  2. 量化模型评估指标:除了SKlearn的RMSE/R2/ACC,平台内置收益率、最大回撤、夏普比率、信息比率等量化专用指标,直接作为模型训练的损失函数/评估标准
  3. 滚动验证/时间序列交叉验证:支持TimeSeriesSplit原生调用,避免量化中未来数据泄露,保证模型的样本外有效性(量化核心禁忌:未来数据泄露)

七、BigQuant模型调用的核心优势(量化场景)

  1. 数据无缝衔接:平台内置A股/港股/美股的量价、财务、因子、舆情等数据,模型训练可直接通过dai.query获取数据,无需手动下载/清洗,避免数据格式不兼容
  2. 计算性能优化:对高维因子、大样本数据做了分布式计算加速,训练千万级样本、千维因子的模型时,比本地Python快10~100倍
  3. 回测一体化:模型训练完成后,可直接在平台做回测+实盘对接,无需手动迁移模型/数据,实现“因子挖掘→模型训练→回测→实盘”的全流程闭环
  4. 避免未来数据泄露:平台的时间序列数据处理接口,天然适配量化的滚动训练、时间序列交叉验证,从底层避免未来数据泄露

量化模型选择建议(贴合BigQuant平台)

量化场景 首选模型 次选模型
A股日频选股/因子收益预测 LightGBM/XGBoost CatBoost/随机森林
高维因子压缩/因子挖掘 Lasso/PCA/因子分析 随机森林(因子重要性)
股票涨跌/择时二分类 逻辑回归/LightGBM分类 XGBoost分类
时间序列择时/量价预测 LSTM/TCN/Transformer GRU/CNN
实盘在线更新模型 SGDRegressor/在线学习 LightGBM增量训练
多模型融合/工业级策略 Stacking/Voting集成 XGBoost+LR融合
快速策略原型验证 平台内置量化模型/QNN LightGBM(快速训练)

补充:BigQuant中模型切换的简易示例(XGBoost→LightGBM)

以之前的滚动训练模板为例,将XGBoost替换为LightGBM仅需修改模型训练/预测部分,其余代码完全不变,适配性极强:

# 替换为LightGBM训练
import lightgbm as lgb
X_train = df[context.feature_list]
y_train = df['label']
# 定义LightGBM参数
params = {
    'objective': 'regression',
    'num_leaves': 31,
    'learning_rate': 0.1,
    'metric': 'rmse'
}
# 训练模型
lgb_train = lgb.Dataset(X_train, y_train)
context.model = lgb.train(params, lgb_train, num_boost_round=30)
# 预测
df['score'] = context.model.predict(df[context.feature_list])

综上,BigQuant对机器学习模型的支持全覆盖、高适配、高性能,从经典的树模型、线性模型,到深度学习、量化专用模型,均能完美衔接量化投研的全流程,且针对量化的核心痛点(数据泄露、高维因子、样本外失效)做了底层优化,是量化模型训练+回测的专业平台。

标签

深度学习量化模型
{link}