【量化研报分享】申万宏源-机器学习系列报告之一:量化投资新起点-20200901


(adhaha111) #1

摘要

机器学习是人工智能的一个分支,也是人工智能的核心领域。机器学习的目的在于推理,推理的过程是学习,研究计算机如何模拟人类的学习行为。从 1930 年代至今,机器学习逐渐发展成为一门独立的学科,已有超过数百种算法被提出。《Do we need hundreds of classifiers to solve real world classification problems?》对 17 大类共 179 个分类器,在 121 个数据集上进行了测试。结果显示,随机森林和支持向量机(高斯核)效果最好,其次是神经网络和 Boosting 集成方法。
机器学习的一大发展趋势是大众化。早期的机器学习研究人员不仅需要对算法有深刻的理解,还需要具备较强的 C++实现能力。如今随着 Scikit-Learn、Tensorflow 等开源库的出现,机器学习的应用难度大大降低。
机器学习的发展与硬件和数据密不可分。CPU 速度的提升、GPU 的出现,使得计算机的计算能力实现了飞跃。大数据时代的到来和大量非结构化数据的出现,使得传统统计方法遇到了瓶颈,带动了机器学习的进一步发展。
机器学习的两大特点是自动学习的能力和数据驱动(data-driven)。对于某些类型的任务,很难通过显式编程指令完成。在这种情况下, 最好的方法是使计算机具有从数据中学习的能力。以监督学习为例,算法学习的是一个从输入到输出的函数 f,而学习过程需要大量的数据。数据量越大,算法的学习效果越好。
越来越多的金融公司尝试将机器学习算法应用于金融市场,并已经在算法交易、智能投顾、反欺诈、风险管理、投资预测等方面取得了突出的成果,但仍有一些问题值得重视。首先,金融数据含有较多噪声。其次,金融数据的结构易发生变化。并且,主流的深度学习算法是一种“黑箱模型”,可解释性较差。最后,人工智能离人的智能还存在较大差距。
机器学习可以分为监督学习、无监督学习和强化学习三大类。监督学习是一种有标记的学习方法,输入是带标签的数据,学习目标是由输入到输出的函数。无监督学习的输入是不带标签的数据,学习目标是描述数据结构的函数。强化学习研究的是个体如何基于环境而行动,以取得最大化的预期奖励。
最后我们用上海地区二手房数据,以房价预测为例说明机器学习的标准工作流程。一个标准的机器学习项目工作流程主要包括以下几个方面:定义问题、数据预处理、建立基准模型、建立比较模型、交叉验证和参数调整等。相对于基准的线性回归模型,一个简单的双层神经网络模型在测试集的预测效果有明显提升,尤其对于异常值的拟合效果更佳。