量化机器学习系列分享（五）树模型与组合模型

由bq2qbou2创建，最终由small_q更新于2024-01-09 11:51 被浏览 123 用户

nan1. 决策树模型

1.1 决策树模型的概念

决策树是机器学习中的一个典型的非参数模型，它使用规则，而不是参数，来定义模型

以下是一个典型的决策树模型：使用三个特征：X1，X2，X3；预测一个标签 Y

图中的圆圈和方框叫做节点：
- 最上面的，依靠X1进行分类的，叫做根节点
- 其他圆圈，叫做中间节点
- 最下面的方框，叫做叶节点
节点和节点之间的连线就组成了决策路径，例如
- 红色决策路径是，如果一个个体，X1小于5，并且X2大于3的话，它的Y我就预测为1
- 蓝色决策路径是，如果一个个体，X1大于5，并且X3不等于2，并且X2大于1的话，它的Y我就预测为0

在这个例子中，我们可以观察到树模型的两个特点：

在上面这个例子中，红色路径的分组是，将X1小于5，并且X2大于3，的所有个体分为一组，并且这一组中的所有个体标签都预测为1

那么为什么这一组的标签被分为了1，而不是0呢

其实这就是一个简单的少数服从多数的原理

树模型的训练过程，其实就是不断拓展节点的过程，在拓展一个新的节点时，主要有两个需要考量的点：

基于这两个考量，一个树模型的训练过程为：

从根节点出发，选择一个特征和一个临界值进行分组，选择的依据是模型表现可以提高
分完之后，就形成了两个小组，对于这两个小组来说，选择一个特征和一个临界值进行分组，选择的依据是模型表现可以提高
分完之后，就形成了四个小组，对于这四个小组来说，选择一个特征和一个临界值进行分组，选择的依据是模型表现可以提高
。。。
一直进行这个过程，直到某些停止条件满足，一般是设置一个总路径数的上限，或者是模型的表现无法再提高（如果在某个小组中，发现，不论怎么再分，模型的表现都无法提高了，那么这个分支就停止了，如果所有的小组都满足这个条件的话，那么模型的训练当然也停止了）

模型的表现有以下几种衡量方式：

通常用来防止树模型过拟合的方法，其实就是控制树的大小和复杂程度，这个过程有一个很玄幻的名称，叫做”剪枝“

具体来说，在代码层面，我们可以进行的剪枝操作有以下几种：

树模型中的特征重要性，衡量起来不像参数模型那样方便，因为参数模型中，每个特征前面的参数值越大，就表示这个特征越重要

在树模型中，特征重要性的衡量比较复杂，但是逻辑是很简单的，就是如果我把这个特征删去以后，再训练一遍这个树的话，树模型的表现会不会有所下降；依此思路可以有两种计算模型特征重要性的方式：