回归、分类模型构建
由clearyf创建,最终由clearyf 被浏览 456 用户
导语
回归、分类和排序是我们经常遇到的问题场景。本文主要介绍如何实现回归和分类两类问题的模型构建。
首先我们明确一下算法在机器学习中的地位。一般来说,机器学习有三个要素: 数据、算法和模型 。
- 数据 是场景的描述,包括输入和输出。
- 算法 是得到模型的过程,狭义上说,特指机器学习算法,如传统线性回归、树和支持向量机以及深度学习; 广义上说,从输入数据到最终确定模型输出的所有过程,即建模流程都可以看作算法,如分类、回归模型,搜索最优参数算法。
下面我们来举两个例子,看看回归和分类问题的应用场景有什么不同。
回归模型
举一个例子:知道了一支股票的历史数据,如何预测出他的未来五日收益率? 这个问题的输出是一个收益率的预测值,因此我们构建的模型标注就是未来五日收益率这样一个连续值。
首先,考虑最普通算法:使用一条直线来拟合。对于预测的直线:$a_0x+b_0y=c$定义一个损失函数,然后通过调整$a_0,b_0$的值使损失函数最小,将问题转化为一个最优化问题。
这个方法对于高维、多变量的情况同样适用。
这里以随机森林——回归算法为例,策略连接: 使用BigQuant平台实现随机森林-回归算法
- m2自动标注中将股票的未来五日收益率标注出来。
- 回归问题中模型的预测值即未来五日收益率的数值。
分类模型
举一个例子:知道了一支股票的历史数据,如何预测出他的未来1日收益率能够超过5%?
在这个问题中,我们关注的是明天涨幅能或者不能达到到5%,而不用预测股票的具体涨幅数值。因此我们构建的模型标注就是一个离散的分类值(用1和0分别代表是或者不是)。这里以线性-分类为例:用线性-分类算法实现A股股票选股
这里m2自动标注模块写入的代码将股票作了二分类。同理,多分类也可以实现,代码见文档。 分类问题中模型的预测结果是每个分类的概率。
回归和分类两种场景的建模区别就介绍到这里。最后附上机器学习的算法大致分类,供各位参考。 小结:根据问题实际应用场景的不同,预测目标可以是连续值或是分类离散值,分别对应了回归问题和分类问题。后面我们将看到,如何根据模型的预测结果构建交易逻辑从而实现AI量化策略。
\