量化机器学习系列分享（四）更多种类的分类模型

由bq2qbou2创建，最终由bq2qbou2更新于2024-01-10 03:19 被浏览 118 用户

我们今天分享的四种模型，包括上次分享的逻辑回归，都是一些轻量级的分类模型，适用于数据量少，特征量少的分类任务

\

1. 支持向量机（SVM）

1.1 SVM的概念

支持向量机（Support Vector Machine）是在神经网络流行之前最强大的机器学习算法

SVM在二分类问题上的逻辑原理是：

假设我们的样本中有两个类别，我们可以把样本画到图上
如果切一刀下去，怎样切可以尽可能地把两个类别尽可能地分开

比方说以下图像中

横轴是第一个特征，纵轴是第二个特征，红蓝颜色是标签（红色为一个类别，蓝色为另一个类别）
如果我们想画一条直线，把红蓝两个标签尽可能地分开，我们就可以画如图的那条斜线

如何做到尽可能地分开两个类别呢，这个其实是一个几何的思维，比方说在以下的例子中，我们像把圆圈和五角星尽可能地分开

如果是绿色的线，就太靠近圆圈类了
如果是蓝色的线，就太靠近五角星类了
如果是粉色的线，就既靠近圆圈类，也靠近五角星类了
最好的是红色的线，离圆圈类，离五角星类都比较远

离两个类别都尽可能地远，做到的目标是最大化间隔（Maximum Margin）

类似于逻辑回归，这个优化目标也无法通过求导解方程的方式来完成
SVM的优化需要梯度下降，而且这个训练过程通常要比其他模型慢很多

其实在SVM分类的时候，我们会发现一个有趣的现象

在决定这个分类边界的时候，我们主要看的是靠近边界的数据点，而远离边界的数据点并不是那么重要
好比我们在分类的时候，把那些模棱两可的搞明白了，分类就清晰了
这些靠近边界的，模棱两可的，在分类的时候起决定作用的，就叫做支持向量（Support Vector）

\

1.2 SVM在高维数据上的应用

SVM分类的时候，分类的边界叫分割超平面（Separate Hyperplane），决定边界的点叫做支持向量（Support Vector），这些名次都是矩阵中的概念

超平面的概念，比方说二维空间中，一维的直线就是超平面；三维空间中，二维的平面就是超平面；四维空间中，三维的空间就是超平面……
向量其实就是一个数据点，比方说一个数据，其实是一个1 x K维度的向量，K是特征数量，就类似于数据在表格中的一行

以下是一个三维空间中的SVM示例图

这个情景中，X轴是第一个特征，Y轴是第二个特征，Z轴是第三个特征，颜色表示标签分类
此时要想把两个类别分开，就要用到一个平面了

\

1.3 SVM在无法线性分割情况下的解决方法

无法线性分割的情况，就好比以下图像，三角类和圆圈类，交融在一起了，一刀切下去不可能完全分开

这种情景一般有两种解决方案

要么允许分类错误
要么不切直线，而是切一条曲线，甚至多条曲线

\

1.3.1 软间隔SVM

软间隔SVM本质上还是要切一条直线，但是我们允许分类错误，相对地，我们之前提到的一刀下去能分清楚的其实叫做硬间隔SVM

软间隔SVM在优化的时候，既要尽可能地把两个类别分开（最大化间隔），也要尽可能少分类错一些样本（最大化负的分类误差=最小化分类误差）

软间隔SVM情景下，支持向量既包括靠近分界线的，也包括被分类为错误类别的

\

1.3.2 核方法（Kernel Method）

核方法的本质是使用核函数，将不能线性分割的数据拓展到一个更高维的空间，再在高维空间进行分割

例如下面的这个例子

如果是二维空间中，我们没办法用一条直线将红绿两个类别分开
但是假如我们有一个“神奇的手”，可以把中间的红色提起来，把周围的绿色压下去，再从中间切一条“二维直线”，就可以把红绿两个类别分开了
在数据上运用的核函数，就是这样一个“神奇的手”

如果退回的二维空间，核函数的效果，就类似于一个曲线分割

常用的核函数有：

多项式核函数（Polynomial Kernel）：适用于简单的曲线分类，容易欠拟合
径向基函数核（Radial Basis Function Kernel，RBF Kernel）：适用于复杂的曲线分类，容易过拟合
但是不用担心，SVM中其实是可以设置惩罚参数（类似于岭回归里的）来避免过拟合的

SVM中欠拟合和过拟合的示例图

\

1.4 SVM的代码实现

标签

神经网络机器学习算法机器学习

{link}