机器学习系列报告之一：量化投资新起点-申万宏源-20200901

由qxiao创建，最终由qxiao更新于2021-11-26 07:50 被浏览 114 用户

摘要

机器学习是人工智能的一个分支，也是人工智能的核心领域。机器学习的目的在于推理，推理的过程是学习，研究计算机如何模拟人类的学习行为。从1930年代至今，机器学习逐渐发展成为一门独立的学科，已有超过数百种算法被提出。《Do we need hundreds of classifiers to solve real world classification problems?》对17大类共179个分类器，在121个数据集上进行了测试。结果显示，随机森林和支持向量机（高斯核）效果最好，其次是神经网络和Boosting集成方法。

机器学习的一大发展趋势是大众化。早期的机器学习研究人员不仅需要对算法有深刻的理解，还需要具备较强的C++实现能力。如今随着Scikit-Learn、Tensorflow等开源库的出现，机器学习的应用难度大大降低。

机器学习的发展与硬件和数据密不可分。CPU速度的提升、GPU的出现，使得计算机的计算能力实现了飞跃。大数据时代的到来和大量非结构化数据的出现，使得传统统计方法遇到了瓶颈，带动了机器学习的进一步发展。

机器学习的两大特点是自动学习的能力和数据驱动（data-driven）。对于某些类型的任务，很难通过显式编程指令完成。在这种情况下, 最好的方法是使计算机具有从数据中学习的能力。以监督学习为例，算法学习的是一个从输入到输出的函数f，而学习过程需要大量的数据。数据量越大，算法的学习效果越好。

越来越多的金融公司尝试将机器学习算法应用于金融市场，并已经在算法交易、智能投顾、反欺诈、风险管理、投资预测等方面取得了突出的成果，但仍有一些问题值得重视。首先，金融数据含有较多噪声。其次，金融数据的结构易发生变化。并且，主流的深度学习算法是一种“黑箱模型”，可解释性较差。最后，人工智能离人的智能还存在较大差距。

机器学习可以分为监督学习、无监督学习和强化学习三大类。监督学习是一种有标记的学习方法，输入是带标签的数据，学习目标是由输入到输出的函数。无监督学习的输入是不带标签的数据，学习目标是描述数据结构的函数。强化学习研究的是个体如何基于环境而行动，以取得最大化的预期奖励。

最后我们用上海地区二手房数据，以房价预测为例说明机器学习的标准工作流程。一个标准的机器学习项目工作流程主要包括以下几个方面：定义问题、数据预处理、建立基准模型、建立比较模型、交叉验证和参数调整等。相对于基准的线性回归模型，一个简单的双层神经网络模型在测试集的预测效果有明显提升，尤其对于异常值的拟合效果更佳。

正文

/wiki/static/upload/07/07752a7a-3350-4d2f-a65e-46548fb8b13d.pdf