梯度提升树分类

# 梯度提升树分类

使用梯度提升树模型求解分类问题,包含模型训练器和预测器。
定义

M.gradient_boosting_classifier.v1(loss,learning_rate,iterations,subsample,min_samples_per_leaf,max_depth,feature_fraction,key_cols,other_train_parameters)

参数

  • loss(str)—损失函数,对于分类模型有对数似然函数deviance和指数损失函数exponential
  • learning_rate(float)—这个参数决定着每个决策树对于最终结果的影响。GBM设定了初始权重值后,每一次树分类都会更新这个值,较小的值使得模型不同的树更加稳健,默认为0.1。
  • iterations(int)—树的数量,数量越大则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源,默认为10。
  • subsample()—训练每个决策树所用到的子样本占总样本的比例,稍小于1的值能够使模型更稳健,因为这样减小了方差
  • min_samples_per_leaf(int)—树中终点节点所需要的最少的样本数,也可以用来防止过度拟合
  • max_depth(int)—树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。
  • feature_fraction(float)—特征使用率,寻找最佳分割时需要考虑的特征比率,默认为1.0即考虑所有特征。
  • key_cols(str)—关键列,指定的关键列会连同预测结果一起输出,多个列之间使用逗号分隔,默认为'date,instrument'两列。
  • other_train_parameters(dict)—其它训练参数,例如{‘criterion’:’mse’}

返回

训练模型
预测结果

返回类型

OutPuts