量化投资新起点 —机器学习系列报告之一
创建于 更新于
摘要
本报告系统介绍了机器学习的发展历程、主要算法及其在金融领域的应用价值,基于上海地区二手房价格预测案例,详述机器学习标准工作流程,涵盖特征工程、数据处理、基准模型及深度神经网络模型构建与超参数调优,展示机器学习在复杂金融数据建模中的显著优势与挑战[page::0][page::3][page::5][page::16]。
速读内容
机器学习发展简史与算法比较 [page::3][page::5]

- 机器学习已发展超过八十年,涵盖图灵机、感知机、支持向量机、随机森林、神经网络等各类算法。
- 实证测试显示随机森林和高斯核支持向量机表现最佳,准确度超过 90%,神经网络和 Boosting 集成方法紧随其后。
机器学习与金融应用实例 [page::6][page::7]

- 机器学习自动学习模式,数据驱动,适合复杂金融信号挖掘。
- 具体应用包括算法交易、智能投顾、反欺诈和风险管理,多个国际金融机构实践机器学习技术。
- 面临数据噪声大、结构易变、模型可解释性差等挑战。
机器学习主要分类及标准工作流程 [page::9][page::10]


- 机器学习分为监督学习、无监督学习和强化学习,监督学习包括线性回归、决策树、神经网络等。
- 标准流程依次为定义问题、数据预处理、建立基准模型、建立比较模型、交叉验证与参数调整。
机器学习项目案例:上海二手房价格预测 [page::11][page::12][page::13]

- 特征工程重构原始数据,采用one-hot编码处理类别变量,清洗缺失值与异常值。
- 数据集划分训练集和测试集,使用z-score标准化提升模型稳定性。
- 避免过拟合与欠拟合,寻找适度拟合的模型,保障模型泛化能力。
模型建立与优化及评估 [page::14][page::15][page::16]




| 模型 | 训练集MAE | 测试集MAE |
|---------------|------------|-----------|
| 线性回归基准模型 | ~2.49 | - |
| 双层神经网络模型 | ~1.4 | 1.12 |
- 基准线性回归模型欠拟合,表现较差,神经网络通过非线性映射显著降低误差。
- 采用梯度下降优化权重,结合交叉验证进行超参数调优,提升模型稳定性和泛化能力。
- 最终神经网络模型测试集MAE降至1.12,误差约占目标均值的17%,反映现有特征限制。
深度阅读
量化投资新起点——机器学习系列报告之一详尽解析
---
一、元数据与报告概览
报告标题:《量化投资新起点—机器学习系列报告之一》
发布日期:2020年09月01日
发布机构:申万宏源证券研究所
作者及联系方式:
- 证券分析师邓虎(A0230520070003, denghu@swsresearch.com)
- 于光希(A0230520060002, yugx@swsresearch.com)
研究支持:于光希
主题:机器学习在量化投资及金融领域的应用基础与实践介绍
核心论点与目的:
报告系统回顾了机器学习的发展历程,并着重阐述了其在金融行业的应用场景及潜力。报告强调机器学习已成为人工智能的核心领域,具备自动学习和数据驱动的特质,特别是在金融领域算法交易、智能投顾、反欺诈等方面展现了显著效能。报告同时结合上海地区二手房价格预测的案例,全流程演示机器学习项目从定义问题到模型评估的标准步骤。旨在为金融从业者打开机器学习技术应用的认知门槛,推广其在金融领域的实践与创新。
---
二、逐节深度解读
1. 发展历程
本章节详细介绍了机器学习从1930年代至今的演进历史,强调机器学习的跨学科性质,涉及数学、统计学和计算机领域。重点介绍了不同算法的发展时间线与特点:
- 算法诞生与演化:包括图灵机(1936年)、线性判别分析、朴素贝叶斯、逻辑回归(1950年代)、感知机(1957年)等初期算法。通过这些基础算法的介绍,显示机器学习的根基深厚且历史悠久。
- 关键算法发展:决策树(ID3、C4.5、CART)、支持向量机(1995年)、集成学习方法(AdaBoost、随机森林、XGBoost、LightGBM等)详细被解释。尤其集成方法通过多弱分类器合力克服过拟合,实现了性能提升。
- 深度学习兴起:深层神经网络和反向传播算法(1986年)、卷积神经网络(LeNet)、LSTM与GRU的出现,及其在自然语言和图像领域的作用也被介绍。报告清晰对比了白盒模型(决策树)与黑盒模型(深度神经网络),从可解释性和准确性角度拨云见日。
此外,报告通过图1(机器学习算法发展简史)清晰展示了各重要算法的时间轴和代表人物,呈现出机器学习的发展脉络与技术积累[page::3][page::4][page::5]。
2. 机器学习与金融
2.1 为什么是机器学习?
报告通过经典定义和实例说明机器学习的自动学习能力和数据驱动特性:
- 机器学习避免了传统显式编程中的局限,例如垃圾邮件过滤器需不断手动添加规则,而机器学习能自动适应数据变化。
- 机器学习模型是通过拟合输入输出函数关系实现预测,数据规模决定学习效果。大规模数据如ImageNet的1400万手动标记图片,展示了数据量与算法性能的正相关性(见图2)[page::0][page::6]。
2.2 为什么是现在?
报告指出机器学习近十年兴起的关键推动力是计算能力(CPU速度提升5000倍,GPU适配深度学习)及大数据的广泛可用。互联网发展带来的3V特征大数据(Volume、Velocity、Variety)极大地丰富了训练素材,传统统计手段无法应对此类非结构化数据,机器学习因此成为必然选择。AlphaGo的成功更是机器学习软硬件条件成熟的标志。ILSVRC竞赛历年冠军均基于深度神经网络(见图3),展示技术实证成果[page::6][page::7]。
2.3 如何应用于金融?
报告特别列举了机器学习在金融类应用的多样场景与企业案例(见表1),涵盖智能投顾、算法交易、风险管理等领域,并强调了其已经带来的超额收益。与此同时,报告指出金融数据特有的噪声大、结构变化快、模型解释性弱及AI与人智能差距等限制因素,需谨慎对待应用效果。这些现象强调了金融领域机器学习的复杂性和挑战[page::7][page::8]。
3. 机器学习分类
基于输入和学习方式的不同,机器学习被划分为:
- 监督学习:标记数据训练,如线性回归、决策树、神经网络等,目标为拟合输入到输出函数。
- 无监督学习:无标签数据探索结构,代表包括聚类分析和主成分分析。
- 强化学习:基于环境交互和奖励优化策略,包含时序差分学习和Q学习,AlphaGo中的深度强化学习即为例证。
图4展示分类结构及典型算法,帮助理解不同范式间的区别[page::8][page::9]。
4. 标准工作流程与案例解析
报告利用上海地区近9.25万条二手房数据,展示机器学习项目的全流程:
- 4.1 定义问题:明确输入(房屋特征)与输出(均价)是回归问题。强调整体思考历史数据规律对未来的适用性。
- 4.2 数据预处理:
- 特征工程(表2、图6、图12):转换非数值数据为数值型,包括拆分厅室、one-hot编码楼层和朝向(避免整数编码引入假序列关系),删除无关特征(经纪人),设计目标变量(均价)。
- 缺失值与异常值:缺失值处理策略多样,采用删除;异常值判定基于3σ法则。
- 训练集/测试集划分:75%训练,25%测试,旨在评估泛化能力。
- 标准化:采用z-score方法,避免特征量级差异影响模型训练。
- 4.3 建立基准模型:线性回归模型MAE达2.49,表现较差,明显欠拟合(图8)。
- 4.4 建立比较模型:双层含64神经元的神经网络,使用ReLU激活,训练100个epoch,模型损失和MAE趋于稳定,未出现过拟合(图9、图10)。
- 4.5 交叉验证和参数调整:采用K折交叉验证(图11),通过多轮训练验证减少评估波动,提高模型泛化(图12、图13)。
最终,神经网络在测试集的MAE降至1.12,较线性回归有明显提升,适应异常值表现更好(图14),但仍有约17%误差,部分原因是特征数量有限,未来可通过更多变量提升[page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16]。
---
三、图表深度解读
图1:机器学习算法发展简史(1930-2020)
- 图示展示了自1930年以来,不同时代关键算法和模型的时间线排列,从图灵机和线性判别分析,到深度神经网络和集成模型。
- 明确突出多位关键人物和算法的贡献,提炼出机器学习较为平稳而连贯的技术积累轨迹。
该图为早期章节提供了宏观背景,形象说明技术发展阶段[page::5]。
图2:机器学习的学习过程需要大量数据
- 通过图片输入-输出示例,说明学习函数f的过程即为从大规模数据中提取特征实现分类预测。
-突出大数据对模型训练的推动作用,形象化表述数据驱动理念[page::6]。
图3:ILSVRC历年冠军基于深度神经网络的错误率下降
- 图示了2012年至2017年ImageNet视觉识别竞赛冠军错误率从15.32%下降至2.25%的趋势。
- 数据验证了深度学习方法的显著进步和广泛适用性,为报告“为什么是现在”提供坚实证据[page::7]。
表1:国内外金融机构机器学习应用案例
- 列举多个金融机构在不同金融科技场景下的应用示例,包括交易策略、深度学习对成交量预测、反欺诈等,体现机器学习多维度应用实践。
- 从表中可见国际及国内头部机构均重视机器学习,表明技术渗透和重要性[page::7][page::8]。
表2、图6:特征处理方法与编码技术
- 表2详细列举了具体数据字段(厅室、楼层、建筑时间等)和处理方式(拆分、one-hot编码、转换、删除)。
- 图6形象对比one-hot编码和整数编码的区别,说明one-hot编码更适合类别特征的非顺序表达。
- 该处理极大提升了模型的输入特征质量和有效维度[page::11][page::12]。
图7:拟合模型的过拟合、适度拟合与欠拟合示意
- 用简单数据散点图和拟合曲线解释三种模型状态的不同表现。
- 强调适度拟合才是训练目标,过拟合和欠拟合都应避免。此图帮助理解机器学习中泛化能力的重要概念[page::13]。
图8与图14:基准模型与神经网络预测与实际房价偏离
- 图8显示线性回归预测值明显偏离实际值,尤其在高价异常值部分表现不足。
- 图14神经网络预测点更贴近实际值,尤其对异常房价的拟合更佳,体现非线性模型优势。
- 两图对比生动展示模型效果提升和应用实际价值[page::14][page::16]。
图9-图10:神经网络训练过程损失函数与MAE曲线
- 说明训练过程的误差逐渐降低,验证集误差与训练集误差接近,表明未出现过拟合现象。
- 有助于理解训练的稳定性和收敛性[page::15]。
图11-图13:交叉验证流程与结果
- 通过流程图解释K折交叉验证逻辑,说明在数据有限时如何提升模型泛化能力。
- 交叉验证损失函数和MAE曲线说明训练稳定,最终验证得分与单次验证接近,数据量较大减少了评估波动[page::15][page::16]。
---
四、估值分析
报告不涉及具体公司财务估值或市场资产估值分析,未包含相关估值模型。其核心在于机器学习基础理论与金融应用技术框架的阐述。
---
五、风险因素评估
报告识别并分析了金融领域机器学习应用面临的风险:
- 数据噪声与质量问题:大量非结构化金融数据及噪声干扰使模型难以获取真正有效信号。
- 数据结构变化风险:国内金融市场尚处发展阶段,历史数据规律可能随时间失效,模型可能变得失效。
- 模型可解释性弱:主流深度学习算法是不可解释的“黑箱模型”,与金融业务偏好透明逻辑的需求冲突。
- 机器智能局限:距离“人的智能”仍有较大差距,尤其是内在逻辑和认知能力不足。
报告提醒需谨慎看待机器学习的能力边界,权衡风险收益[page::7][page::8]。
---
六、批判性视角与细微差别
- 报告展现了全局视野和实践框架,但也暗示当前机器学习在金融领域实际应用仍受限于数据挑战和模型不透明性。
- 尽管展示了神经网络预测房价的成功案例,但误差仍较大(约17%),提示现实应用中多变量互扰复杂性。
- 特征工程部分强调领域知识重要性,暗示纯算法无法替代业务理解。
- 报告并未深入探讨金融机器学习模型过拟合的更多策略(如正则化、早停等),或模型解释技术(如LIME、SHAP),成为未来完善空间。
- 结构上,报告对图表详细描述清晰,但估值与风险交付较为简略,主要侧重技术启蒙和流程演示。
---
七、结论性综合
本报告围绕“机器学习——量化投资新起点”主题,通过详尽的机器学习发展历程、核心算法介绍及其金融领域潜力阐释,为金融科研和实务提供了系统认知的窗口。报告清晰指出了机器学习技术基于自动学习和数据驱动的特色,因计算能力和大数据实现爆发式增长,推动了金融科技创新。
特别是报告通过上海二手房价格预测案例,全面演绎了机器学习项目的标准流程:从问题定义、特征工程、数据预处理,到基准设定、复杂模型训练及交叉验证,全流程细致展示方法论和应用细节。对比线性回归与神经网络的性能差异,图表直观地彰显深度学习模型在非线性、多变量预测上的优势。
然而报告亦未回避机器学习在金融领域面临的挑战,包括数据噪声大、市场结构动态变化、模型可解释性差及算法智能局限。作者认可机器学习是金融行业创新的必由之路,但强调需要结合业务理解和风险防控策略,理性推进技术应用。
综上,报告的整体立场积极肯定机器学习潜力,倡导金融从业者熟悉并应用机器学习技术。通过丰富的历史演变、理论知识和实操案例,报告为读者搭建了深刻的理解框架和实务指导,具有较高的专业价值和参考意义。
---
附:主要图表展示与引用路径
- 图1:机器学习算法发展简史

- 图2:机器学习的学习过程需要大量数据

- 图3:ILSVRC历年冠军基于深度神经网络

- 图4:机器学习主要分类

- 图5:机器学习标准工作流程

- 图6:one-hot编码和整数编码

- 图7:模型拟合过程示意

- 图8:线性回归预测偏离

- 图9-10:神经网络训练损失与MAE


- 图11:K折交叉验证流程

- 图12-13:交叉验证损失与MAE


- 图14:神经网络预测与实际对比

---
(全文基于《量化投资新起点—机器学习系列报告之一》2020年9月1日,申万宏源证券研究所原创内容整合而成。)[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17]