回归、分类模型构建

由clearyf创建，最终由clearyf更新于2021-07-30 08:22 被浏览 498 用户

导语

回归、分类和排序是我们经常遇到的问题场景。本文主要介绍如何实现回归和分类两类问题的模型构建。

首先我们明确一下算法在机器学习中的地位。一般来说，机器学习有三个要素： 数据、算法和模型 。

数据是场景的描述，包括输入和输出。
算法是得到模型的过程，狭义上说，特指机器学习算法，如传统线性回归、树和支持向量机以及深度学习； 广义上说，从输入数据到最终确定模型输出的所有过程，即建模流程都可以看作算法，如分类、回归模型，搜索最优参数算法。

下面我们来举两个例子，看看回归和分类问题的应用场景有什么不同。

举一个例子：知道了一支股票的历史数据，如何预测出他的未来五日收益率？这个问题的输出是一个收益率的预测值，因此我们构建的模型标注就是未来五日收益率这样一个连续值。

首先，考虑最普通算法：使用一条直线来拟合。对于预测的直线：$a_0x+b_0y=c$定义一个损失函数，然后通过调整$a_0,b_0$的值使损失函数最小，将问题转化为一个最优化问题。

这个方法对于高维、多变量的情况同样适用。

这里以随机森林——回归算法为例，策略连接：使用BigQuant平台实现随机森林-回归算法

举一个例子：知道了一支股票的历史数据，如何预测出他的未来1日收益率能够超过5%？

在这个问题中，我们关注的是明天涨幅能或者不能达到到5%，而不用预测股票的具体涨幅数值。因此我们构建的模型标注就是一个离散的分类值(用1和0分别代表是或者不是)。这里以线性-分类为例：用线性-分类算法实现A股股票选股

这里m2自动标注模块写入的代码将股票作了二分类。同理，多分类也可以实现，代码见文档。分类问题中模型的预测结果是每个分类的概率。

回归和分类两种场景的建模区别就介绍到这里。最后附上机器学习的算法大致分类，供各位参考。小结：根据问题实际应用场景的不同，预测目标可以是连续值或是分类离散值，分别对应了回归问题和分类问题。后面我们将看到，如何根据模型的预测结果构建交易逻辑从而实现AI量化策略。