【历史文档】策略示例-使用BigQuant平台复现XGBoost算法

树模型以决策树为基础，在之上衍生出了各种算法，从集成学习的角度考虑，树模型可以分为 Bagging 和 Boosting 模型，Boosting 方法是另一种通过弱学习器提高准确度的方法，和 Bagging 方法不同的是，Boosting 每次根据之前模型的表现，进行新的模型的训练，以改变训练数据的权值和弱分类器的组合方式，得到最后的强学习器。

GBDT

对于简单的损失函数，如指数损失和平方损失，每一次提升都较为简单，但是对于一般的损失函数（如绝对损失），优化难度大大增加。因此 GBDT 利用损失函数负梯度在当前模型的值作为提升树中残差的近似值，拟合一个回归树。

XGBoost

XGBoost则是 GBDT 算法的改进和提高。相比于传统的 GBDT 算法，XGBoost 在损失函数、正则化、切分点查找和并行化设计等方面进行了改进，使得其在计算速度上比常见工具包快 5 倍以上。例如，GBDT 算法在训练第 n 棵树时需要用到第 n-1 棵树的残差，从而导致算法较难实现并行；而 XGBoost 通过对目标函数做二阶泰勒展开，使得最终的目标函数只依赖每个数据点上损失函数的一阶导和二阶导，进而容易实现并行。图表 7 显示了 XGBoost 算法的流程，它与 GBDT 在数学上的不同之处在于训练每个弱学习器时的目标函数。数学方面的知识并非本文重点，故点到为止。

本文将通过BigQuant平台复现XGBoost模型，并讲解其中的参数调整，以下为策略链接：

策略案例

https://bigquant.com/experimentshare/ff3157e2ca984cbf9a726cbbda04724b

XGBoost算法的原理

GBDT 对于简单的损失函数，如指数损失和平方损失，每一次提升都较为简单，但是对于一般的损失函数（如绝对损失），优化难度大大增加。因此 GBDT 利用损失函数负梯度在当前模型的值作为提升树中残差的近似值，拟合一个回归树。GBDT 的具体算法如下：

初始化模型
循环训练 K 个模型𝑘 = 1,2, … ,𝐾 （1）计算负梯度：对于i = 1,2, … , M

{w:100} （2）以负梯度𝑟𝑘𝑖训练模型，得到第 k 颗树的叶结点区域$𝑅_{𝑘𝑗}$，𝑗 = 1,2, … ,𝐽 （3）对𝑗 = 1,2, … ,𝐽，计算： {w:100} （4）更新模型： {w:100} 3. 得到最终模型： {w:100} XGBoost 是一种高效的 Boosting 训练器，可以实现 GBDT 的功能。且不同于一般的 GBDT，XGBoost 采用损失函数的二阶泰勒展开来近似原损失函数，同时在损失函数后加入惩罚项：

{w:100} 以树模型作为弱分类器为例，得到区别于 GBDT 构造树的过程。

首先将𝑓𝑡和Ω的表达式带入目标函数中，得到目标函数的如下形式：

{w:100} 由此可得函数的极小值点：

{w:100} 每次对已有的叶子加入一个分割时，只需通过以下式子判断是否进行分割：

{w:100} 其中𝐼𝐿和𝐼𝑅分别属于分裂后的左节点、右节点集合，$𝐼 = 𝐼_𝐿 ∪ 𝐼_𝑅$。 相比于一般的 GBDT，XGBoost 具有以下优点：

传统 GBDT 在优化时只用到了梯度方向的信息，XGBoost 对损失函数进行二阶泰勒展开，不仅用到了二阶导数的信息，还可以根据数据的特点自定义损失函数，只要一阶导和二阶导存在。
XGBoost 在损失函数中加入了惩罚项，可以有效降低模型的过拟合。
XGBoost 不仅支持树模型作为弱学习器，也支持线性模型、Logistic 模型等作为弱学习器，可以针对数据特点选取更合适的弱学习器。
XGBoost 借鉴了 Bagging 中的思想，可以实现在每次 Boosting 的过程中随机抽样样本集和特征集合，有效防止过拟合。
XGBoost 支持在每颗树的迭代过程中子节点的并行计算，且在搜索上通过预排序更快的实现算法。

XGBoost 存在以下缺点：

在选择树的分隔点时，需要遍历所有特征值。
预排序结果的保存消耗大量内存。 (微软推出的 LightGBM 优化了 XGBoost 的上述问题，虽然LightGBM也有自身的缺点，在 Kaggle 的比赛中，越来越多的算法融合了 LightGBM。总体来说，LightGBM 和 XGBoost 在不同问题上表现各有优劣，但是速度上，LightGBM 很多情况下都优于 XGBoost，所以目前也成为数据科学家建立 GBDT 模型的工具。)