17种机器学习回归算法在金融的应用
由hardsum创建,最终由small_q 被浏览 1152 用户
回归是一种挖掘因变量和自变量之间关系的技术。它经常出现在机器学习中,主要用于预测建模。在本系列的最后一部分中,我们将范围扩大到涵盖其他类型的回归分析及其在金融中的用途。
线性回归
简单线性回归
简单的线性回归允许我们研究两个连续变量之间的关系——一个自变量和一个因变量。
简单线性回归方程的一般形式如下:
其中 (β_{0}) 是截距,(β_{1}) 是斜率,(ϵ_{i}) 是误差项。在这个等式中,“y”是因变量,“X”是自变量。误差项包含影响因变量而不是回归量的所有其他因素。β0β0是截距,β1β1是斜率,并且ε一世ε一世是误差项。在这个等式中,“y”是因变量,“X”是自变量。误差项包含影响因变量而不是回归量的所有其他因素。
多元线性回归
我们研究多元线性回归中两个以上变量之间的线性关系。这里不止一个自变量用于预测因变量。
多元线性回归的方程可以写成:
其中,$β_{0}$、$β_{1}$、$β_{2})$和 $β_{3}$ 是模型参数,$ϵ_{i}\ )$是误差项。
$β_{0}$是截距,$β_{1}$是斜率,并且$ϵ_{i}\ )$是误差项。在这个等式中,“y”是因变量,“X”是自变量。误差项包含影响因变量而不是回归量的所有其他因素。
多项式回归
线性回归适用于对因变量和自变量之间的线性关系建模。但是如果关系是非线性的呢?
在这种情况下,我们可以将多项式项添加到线性回归方程中,以使其更好地对数据进行建模。这称为多项式回归。由于模型的参数是线性的,所以严格来说,它仍然是线性回归。
使用多项式回归,我们可以以多项式方程的形式对自变量和因变量之间的关系进行建模。
k阶多项式的方程可以写成:
选择多项式阶数至关重要,因为更高次的多项式可能会过度拟合数据。所以我们尽量保持多项式模型的阶数尽可能低。
有两种选择模型顺序的方法:
- **前向选择过程,**我们按递增顺序依次拟合模型,并在每次迭代中测试系数的显着性,直到最高阶项的 t 检验不显着。
- **向后消除过程,**我们从最高阶多项式开始,并在每次迭代中连续降低阶数,直到最高阶项具有显着的 t 统计量。
最常用的多项式回归模型是一阶和二阶多项式。
当我们有大量观察时,多项式回归更适合。但是,它对异常值的存在很敏感。
多项式回归模型可用于预测股票价格等非线性数据。
逻辑回归
这也称为 logit 回归。逻辑回归是一种基于过去数据预测事件二元结果的分析方法。
当因变量是定性的并且取二进制值时,它被称为二分变量。
如果我们使用线性回归来预测这样的变量,它将产生 0 到 1 范围之外的值。此外,由于二分变量只能取两个值,残差不会围绕预测线呈正态分布。
Logistic 回归是一种非线性模型,它产生一条逻辑曲线,其中值限制为 0 和 1。
将此概率与阈值 0.5 进行比较,以决定将数据最终分类为一个类别。因此,如果一个类的概率大于 0.5,则将其标记为 1,否则标记为 0。
金融中逻辑回归的用例之一是它可以用来预测股票的表现。
分位数回归
线性回归模型在处理金融时间序列数据时有几个限制,例如在处理偏度和异常值的存在时。
1978 年,Koenker 和 Bassett 提出分位数回归作为一种工具,可以让我们探索整个数据分布。因此,我们可以检查分布不同部分的自变量和因变量之间的关系,例如第 10 个百分位数、中位数、第 99 个百分位数等。
分位数回归估计给定自变量的因变量的条件中位数或条件四分位数。
经典的线性回归试图根据自变量的不同值来预测因变量的平均值。自变量的 OLS 回归系数表示相关预测变量的一个单位变化的变化。类似地,自变量的分位数回归系数表示指定分位数因相关预测变量的一个单位变化而发生的变化。
分位数和百分位数用于将数据样本分成不同的组。线性回归模型的工作假设是误差是正态分布的。但是,如果我们有明显的异常值,即分布有一个肥尾,这种方法可能会失败。分位数回归本质上比线性回归更稳健,并且能够有效地捕获异常值。
在分位数回归中,条件中值函数由中值估计器估计,从而减少了绝对误差的总和。
分位数回归可以帮助风险管理者更好地管理尾部风险。因此,它被用于风险管理,特别是在风险价值 ( VaR ) 的背景下,根据定义,它是一个条件分位数。
VaR可以解释为投资组合在一段时间内以给定概率损失的金额。我们还可以根据分位数回归确定较高风险暴露的时期。
分位数回归也可用于预测回报和投资组合构建。
岭回归
正如我们之前所讨论的,线性回归假设数据中不存在多重共线性。因此,当预测变量相关时,它是不合适的。多重共线性会导致回归模型系数的大幅波动。
岭回归适合在这种情况下使用。当预测变量的数量大于观察的数量并且每个预测变量都有助于预测因变量时,它特别有用。
岭回归旨在通过限制系数的大小来减少标准误差。
它通过引入一个惩罚项 lambda (𝜆) 来做到这一点,该惩罚项等于系数大小的总和。Lambda 惩罚大的回归系数,并且随着 lambda 值的增加,惩罚也会增加。由于它对系数进行正则化,因此也称为 L2 正则化。
需要注意的重要一点是,虽然 OLS 估计量是尺度不变的,但岭回归并非如此。因此,我们需要在应用岭回归之前对变量进行缩放。
岭回归降低了模型的复杂性,但不会减少变量的数量,因为它可以将系数缩小到接近零,但不会使它们完全为零。因此,它不能用于特征选择。
套索回归
Lasso 代表最小绝对收缩和选择运算符。
它是岭回归的近亲,也用于正则化回归模型中的系数。当我们有大量使模型更复杂的预测变量时,进行正则化以避免过度拟合。
套索回归的惩罚项等于系数大小的绝对值。
Lasso 回归也称为 L1 正则化。
顾名思义,套索回归可以将一些系数缩小到绝对零。因此,它可以用于特征选择。
岭回归与 Lasso 回归的比较
岭回归和 lasso 回归可以比较如下:
- Lasso 回归可用于特征选择,而岭回归则不能。
- 虽然岭回归和套索回归都能很好地处理数据中的多重共线性,但它们的处理方式不同。虽然岭回归缩小了所有相关变量的系数,使它们相似,但套索回归保留了一个系数较大的相关变量,而其余的则趋于零。
- 岭回归在存在大量重要预测变量的情况下效果很好。套索回归在有许多预测变量但只有少数是显着的情况下是有效的。
- 这两种模型都可以用于股票预测。但是,由于 Lasso 回归执行特征选择并且仅选择非零系数来训练模型,因此在某些情况下它可能是更好的选择。
弹性网络回归
Lasso 回归的特征选择可能不可靠,因为它依赖于数据。弹性网络回归是岭回归模型和套索回归模型的组合。它结合了这两个模型的惩罚项,通常表现更好。
我们首先计算弹性网络回归中的岭回归系数,然后使用 lasso 回归将其缩小。
弹性网络回归可用于正则化以及特征选择。
最小角度回归
正如我们之前看到的,套索回归通过应用偏差来约束模型的系数,从而避免过度拟合。但是,我们需要为模型提供一个超参数 lambda (𝛌),它控制函数的惩罚权重。
最小角回归 ( LARS ) 是解决线性回归模型中过度拟合问题的另一种方法,可以在不提供超参数的情况下对其进行调整以执行 lasso 回归。
当我们有高维数据时使用LARS,即具有大量特征的数据。它类似于前向逐步回归。
在 LARS 中,我们从所有系数为零开始,找到与响应变量最相关的解释变量。然后,我们朝着这个解释变量的方向迈出尽可能大的一步,直到另一个解释变量与残差具有类似的相关性。
现在,LARS 在这两个解释变量之间沿等角方向进行,直到第三个解释变量与残差具有相同的相关值。
如前所述,我们沿这三个解释变量的方向等角(角度最小)向前移动。这样做直到所有解释变量都在模型中。
但是,必须注意 LARS 模型对噪声很敏感。
主成分回归
主成分分析用于以最少的信息损失简约地表示数据。PCA 的目的是找到主成分,这些主成分是相互正交且具有最大方差的估计量的线性组合。如果两个主成分的向量的标量积等于 0,则称这两个主成分是正交的。
主成分回归涉及使用 PCA 对原始数据进行降维,然后对顶部的主成分进行回归并丢弃其余的。
多元线性回归与 PCA 的比较
主成分回归是多元线性回归的替代方案,它有一些主要缺点。
MLR 无法处理估计量之间的多重共线性,并假设估计量是准确测量且没有噪声的。它无法处理缺失值。
此外,如果我们有大量的估计量,超过观察的数量,则不能使用 MLR。
PCA 用较少数量的主成分替换了大量的估计量,这些主成分捕获了估计量所代表的最大方差。它简化了模型的复杂性,同时保留了大部分信息。它还能够处理任何丢失的数据。
岭回归与 PCA 的比较
岭回归和主成分回归类似。从概念上讲,岭回归可以想象为将估计量投影在主成分的方向上,然后根据它们的方差成比例地缩小它们。
这将收缩所有主要成分,但不会完全收缩到零。但是,主成分分析有效地将一些主成分缩小到零(被排除在外),并且根本不缩小一些主成分。
决策树回归
决策树在节点处将数据集拆分为越来越小的子集,从而创建树状结构。根据标准拆分数据的每个节点称为内部/拆分节点,最终子集称为终端/叶节点。
决策树可用于解决分类问题,例如预测金融工具的价格是上涨还是下跌。它还可用于预测金融工具的价格。
决策树回归是指决策树模型用于执行回归任务,用于预测连续值而不是离散值。
决策树遵循称为递归二进制拆分的自上而下的贪心方法。这是一种贪婪的方法,因为在每一步中,最好的分割都是在那个特定的节点上进行的,而不是向前看并选择一个可能会在未来产生更好的树的分割。
每个节点被分割以最大化信息增益。信息增益定义为父节点杂质与子节点杂质之和的差值。
对于回归树,两种流行的杂质度量是:
- **最小二乘:**选择每个分割以最小化每个节点的观察值和平均值之间的残差平方和 (RSS)。
- **最小绝对偏差:**此方法最小化每个节点内与中位数的平均绝对偏差。此方法对异常值更稳健,但在处理具有大量零值的数据集时可能不敏感。
如果解释变量和响应变量之间存在高度非线性和复杂的关系,则决策树可能优于经典方法。
决策树更易于解释,具有良好的视觉表示,并且可以轻松处理定性预测变量,而无需创建虚拟变量。
然而,与其他一些回归模型相比,它们并不稳健,预测准确性也很差。此外,对于具有许多估计变量的数据集,它们容易过度拟合。
通过使用 bagging、boosting 和随机森林等集成方法,我们可以提高决策树的预测性能。
随机森林回归
随机森林回归是一种集成回归方法,其性能明显优于单个决策树。它符合应用“大众智慧”的简单逻辑。它需要许多不同的决策树,以“随机”方式构建,然后让它们投票。
多元回归树建立在自举训练样本之上,每次在树中考虑分裂时,都会从预测变量总数中随机选择一个预测变量样本。
这意味着在随机森林中构建树时,甚至不允许该算法考虑可用的整个预测变量集。因此,如果我们有一个强预测器和一些中等强预测器,那么随机森林中的一些树将在不考虑强预测器的情况下构建,从而为其他预测器提供更好的机会。
这本质上就像在树之间引入一些去相关性,从而使结果更加可靠。
如果您想了解更多关于随机森林以及如何在交易中使用它们的信息,请阅读这篇文章。
支持向量回归
支持向量回归 (SVR) 应用支持向量机(SVM)的原理来预测离散数。它试图找到包含最大数据点数的超平面。
与其他试图最小化响应变量的预测值和实际值之间的误差的回归算法不同,SVR 试图将超平面拟合在用于创建一对边界线的容差 (ε) 内。
SVR 使用不同的数学函数(内核)来转换输入数据,这些函数用于在更高维空间中找到超平面。一些内核是线性的、非线性的、多项式的等。要使用的内核类型基于数据集。
SVR 使用对称损失函数来惩罚较高和较低的错误估计。SVR 模型的复杂性使其难以在更大的数据集上使用。因此,如果我们使用大数据集,则使用线性核函数。
SVR 对异常值具有鲁棒性,并且具有很高的预测准确性。
\
参考
- 以计量经济学为例 - Damodar Gujarati
- 金融计量经济学基础 - Frank J. Fabozzi、Sergio M. Focardi、Svetlozar T. Rachev、Bala G. Arshanapalli
- 计量经济学数据科学 - Francis X. Diebold
- 统计学习简介 - Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani
- 支持向量回归的图像表示:Support Vector Regression
结论
在这篇博客中,我们介绍了金融界使用的一些重要的回归类型。每个都有自己的优势,也许还有一些挑战。