必然中的偶然:机器学习中的随机数 华泰人工智能系列之二十
创建于 更新于
摘要
本报告系统分析了机器学习选股模型中随机数的来源及其对模型表现的影响。通过对逻辑回归、XGBoost、随机森林和全连接神经网络四种算法在100组不同随机数种子下测试,发现逻辑回归表现最稳定,神经网络最不稳定,而XGBoost和随机森林介于两者之间。图表15、16清晰显示不同模型在准确率和AUC上的分布差异,揭示了随机数对模型性能的实质影响,提示投资者应关注随机数种子带来的结果不确定性并进行多种种子检验[pidx::0,pidx::15,pidx::21]
速读内容
- 机器学习模型中多环节涉及随机数,用以增强模型的泛化能力,包括数据集划分、参数随机初始化、随机梯度下降、行列采样及Dropout技术等(图表1,5-7)[pidx::0,pidx::6,pidx::7,pidx::8,pidx::9]
- 计算机生成的随机数为伪随机数,固定随机数种子可保证结果复现,Python中sklearn与xgboost包支持random_state参数,keras需同时控制numpy和tensorflow随机数种子[pidx::0,pidx::9,pidx::10]
- 随机数在不同模型中的影响程度依模型复杂度而异:逻辑回归因损失函数凸优化稳定,结果对随机数不敏感;神经网络因权重初始化、dropout等随机过程多,结果最不稳定;XGBoost和随机森林通过集成平滑随机性,结果中间[pidx::0,pidx::15,pidx::21]
- 测试覆盖2011-2019年,利用70个财务及市场因子,以四模型在100组随机种子下的训练和预测结果进行回测,采用回归法、IC值分析及分层回测法综合评价[pidx::11,pidx::12,pidx::13,pidx::17]
- 图表15-18显示,逻辑回归的正确率和AUC值分布最窄,神经网络分布宽度最大,反映模型受随机数影响的差异[pidx::15]
- 回归法及IC值分析(图表19-22)进一步证实逻辑回归表现稳定,神经网络波动最大,XGBoost和随机森林适中;累积Rank IC曲线(图表23-26)表现出相同趋势[pidx::16,pidx::17]
- 分层测试法(图表27-30)和多空组合净值变化(图表31-34)均呈现相似结论,指出神经网络表现不确定性最高,逻辑回归最稳定[pidx::17,pidx::18]
- 对单个随机数种子训练的模型,可能表现为最优或最差,建议对复杂模型多种随机数种子取结果平均,避免对单一结果过度解读[pidx::18,pidx::21]
- 分析XGBoost模型中四类随机性来源(样本内数据扰动、样本外数据扰动、回测时间、算法随机数),发现回测时间对模型影响最大,算法内随机数影响较小,表明机器学习中的随机数虽重要,但非最主要不确定来源[pidx::20]
- 投资建议:对于简单模型和验证随机数影响小的模型,固定种子训练即可;对于复杂模型,应多随机种子建模,综合评估模型稳定性及投资价值[pidx::21]
深度阅读
金工研究报告详尽分析报告
《必然中的偶然:机器学习中的随机数》
作者: 林晓明、陈烨
发布机构: 华泰证券研究所
发布日期: 2019年4月29日
主题: 机器学习选股模型中随机性的影响机制及表现分析
---
1. 元数据与报告概览
本报告隶属于华泰证券金工系列研究,聚焦于机器学习选股模型中的随机性问题,重点研究机器学习算法中随机数的引入、影响及对应的模型表现差异,属于深度技术性研究报告。报告通过分析逻辑回归、XGBoost、随机森林和全连接神经网络四种模型在100组不同随机数种子条件下的表现,旨在帮助投资者认识机器学习选股模型中的“必然”结果背后隐藏的“偶然”因素。核心信息为:
- 逻辑回归结果对随机数种子基本不敏感;
- 全连接神经网络的表现对随机数种子敏感较大,结果波动明显;
- XGBoost及随机森林对随机数种子的敏感度介于两者之间。
此外,报告给出机器学习中随机数的来源、作用及如何确保结果可复现的技术方法,风险提示涉及未来市场环境变化与模型过拟合问题。整体评估为投资者提供随机性的全面理解与风险识别能力。[pidx::0][pidx::21]
---
2. 逐节深度解读
2.1 报告导读与背景
报告开篇提出“必然中的偶然”视角:看似确定的机器学习算法结果,实际上受多种随机性影响,如数据划分、权重初始化等,导致同一算法复现同一任务时结果可能不同。随机数保证了训练多样性和模型泛化,但也带来结果不确定性。为消减投资者对“偶然”的疑虑,报告提出系统分析随机数如何渗透机器学习模型的训练环节,以及不同模型对随机数敏感度的区别。此章节明确了研究目的与核心疑问,奠定基础。[pidx::3]
2.2 机器学习中的随机数及作用机理
本章细致梳理随机数在机器学习中的关键作用环节,包括:
- 数据集划分:随机地将原始数据划分为训练、验证和测试集,保证数据样本间分布一致性,同时造成结果的变异性。
- 参数初始化:赋予初始参数随机值防止算法陷入局部最优,提高搜索结果质量。
- 随机梯度下降(SGD):采用样本的随机梯度更新参数,改善原始梯度下降在大数据上计算瓶颈及局部极小问题。
- 集成学习中的采样:Bagging方法采用Bootstrap重采样,在训练不同模型时引入样本和特征的随机性,以产生多样化弱学习器。
- 神经网络中的Dropout:通过随机丢弃部分神经元防止过拟合,提高泛化能力。
报告深入解释了每个环节引入随机数的数学和机制原理,并通过图表(如图表1、图表5及图表7)直观展示这一过程,使读者理解随机数的正面作用及不可避免性。[pidx::4][pidx::7][pidx::9]
2.3 伪随机数生成与随机数种子
报告简述计算机生成伪随机数的原理,强调每一固定随机数种子会产生确定的随机序列,保证训练结果的可复现性。通过介绍Python各主流包(sklearn, xgboost, keras)设置随机数种子的方法,提升模型结果复现的可操作性,如图表8和图表9所示代码示例,帮助实践中固定随机数种子管理实验一致性。[pidx::4][pidx::9]
2.4 机器学习选股模型随机性来源
报告将机器学习模型随机性划分为四类:
- 样本内因子的随机扰动;
2. 样本外因子的随机扰动;
- 回测时间区间选择的随机性;
4. 算法本身随机数的影响。
本文聚焦第四点,通过遍历100组随机数种子点,直接量化算法随机数对模型的影响,采用Bootstrap重采样为工具,形成严谨的实证研究设计。[pidx::10]
2.5 机器学习选股模型测试流程与细节
详细介绍四种典型模型(逻辑回归Logit、XGBoost、随机森林RandomForest、全连接神经网络ANN)的实验设计,包括数据预处理(中位数去极值、缺失值填充、行业、市值中性化及标准化)、年度滚动训练与时间切分、交叉验证及调参策略(神经网络无调参固定网络结构)、样本内训练与样本外测试、多指标模型评价指标,确保实验流程科学、规范。[pidx::11][pidx::12][pidx::13]
2.6 模型性能和表现分析
- 指标选用: 平均正确率、AUC指标衡量分类性能;回归法与Rank IC评估因子关联度;分层回测考察策略收益表现。
- 结果趋势:
- 逻辑回归所有随机种子结果集中,波动范围最窄,性能稳定(2011-2018平均正确率约56.2%);
- XGBoost及随机森林表现波动略大,处于中间;
- 全连接神经网络波动最显著,性能波动高达1个百分点量级。
- 统计指标(t值、因子收益率、Rank IC)与模型性能趋势一致,神经网络表现受随机数影响最大,XGBoost和随机森林次之,逻辑回归最稳健。
- 积累Rank IC随时间表现亦显示,逻辑回归波动最低,神经网络最高,强调模型复杂度及随机机制对结果稳定性的影响。[pidx::15][pidx::16][pidx::17]
2.7 策略回测表现
- 多空组合年化收益率及夏普率变化同样验证以上趋势,逻辑回归几乎无波动,神经网络波动最大(收益率波动超过2个百分点),XGBoost和随机森林适中。
- 净值曲线分布显示,平均、最优与最差情景差异:逻辑回归最小化了策略表现的极端波动;神经网络最优和最差表现分布广泛;XGBoost和随机森林表现居中。
- 以上表明随机数引入给模型表现带来不可忽视的变异性,复杂模型尤甚。[pidx::17][pidx::18]
2.8 四类随机性来源对模型表现影响比较
- 报告综合分析4大随机性来源对XGBoost模型表现指标的影响。变异系数衡量波动幅度,排序依次为:回测时间>样本外数据>样本内数据>随机数种子。
- 机器学习中算法内部随机数造成的表现变异相对较小(均值波动低于1%),说明虽然随机数影响存在,但相较于数据扰动和回测时间选择,其影响较弱。
- 建议简单模型或随机数不敏感模型使用固定单个种子;复杂模型或受随机数影响大的模型推荐综合多个种子结果以获得稳定性。[pidx::20]
2.9 总结与风险提示
总结机器学习中随机数的作用与影响,以及各模型对随机数的不敏感/敏感特性。逻辑回归由于凸优化目标,随机性影响极小;基于集成的树模型(XGBoost/随机森林)虽复杂但集成减小随机影响;深度神经网络因结构复杂多随机机制影响显著,但随机表现的波动不应令其价值受损信,关键是采用多种随机种子综合评估。报告强调随机数带来的“必然中的偶然”,投资者须警惕单一随机种子可能带来的误导,合理采集和理解随机性才是有效运用机器学习选股的关键。最后风险提示强调市场环境变化可能导致模型失效,及机器学习的过拟合风险。[pidx::21][pidx::22]
---
3. 图表深度解读
图表1 展示机器学习中各种环节利用随机数的具体机制及对应模型,呈现数据划分、优化算法、集成模型及神经网络中的随机性环节,明确随机数作用范围。
图表2-4 通过损失函数形态、梯度下降与随机梯度下降算法示意,详细阐述引入随机梯度下降的原因和机制,保证优化效率和跳出局部极值的能力,数学逻辑通俗易懂。
图表5-6 直观呈现Bootstrap重采样背后的随机样本生成过程及Bagging并行集成学习的原理,强调引入随机采样产生互异基模型以增强泛化。
图表7 以神经网络Dropout示意图形象展现随机丢弃部分神经元防止过拟合的机理,是神经网络泛化能力提升的重要手段。
图表8-9 呈现Python机器学习包中随机数种子设置方法及keras实现细节,指导使用者如何保证结果的可复现性,体现报告务实的技术价值。
图表10 梳理机器学习选股模型随机性的主要来源及考察方法结构框架,清晰规划本研究重点—算法随机数种子。
图表11-12 显示机器学习选股模型的完整测试流程和年度滚动训练设计,保证研究时间序列的合理性及模型评估的完整性。
图表13-14 列出70个应用因子及模型超参数,使研究背后的数据支撑和算法设置透明化。
图表15-18 展现不同模型100组随机数种子下性能指标的分布,逻辑回归表现稳定,ANN分布最宽,XGBoost和随机森林居中,体现不同模型复杂度和随机敏感度。
图表19-22 报告了多种统计量(t值、因子收益率、Rank IC)在不同种子下的分布,逻辑回归集中高位,神经网络表现不稳定,XGBoost和随机森林表现较好。
图表23-26 以累积Rank IC及偏差展示模型随时间的表现和随机性影响,逻辑回归显示最稳定,神经网络随机性导致波动最大。
图表27-30 呈现策略回测中多空组合和TOP组合的年化收益率及夏普比率分布,进一步佐证前述结论,说明不同随机数种子导致策略表现波动差异。
图表31-38 描绘四模型100组随机结果下多空净值曲线及±标准差区间,最直观展示随机性带来的策略盈利波动空间,神经网络的最大差异尤为显著。
图表39 综合比较四类随机性来源对XGBoost模型多指标表现的均值、标准差和变异系数,回测时间影响最大,算法随机数影响较小但非无关,凸显模型研究与实战应关注多种随机性因素。
以上图表充分支持文本核心结论,展示了随机数对机器学习模型表现的实证差异及其在策略层面的具体体现。[pidx::4][pidx::6][pidx::7][pidx::8][pidx::9][pidx::10][pidx::11][pidx::12][pidx::15][pidx::16][pidx::17][pidx::18][pidx::20]
---
4. 估值分析
本报告主要聚焦机器学习模型性能评估与随机性影响分析,未涉及传统金融估值方法如DCF或市盈率等内容,因而无估值分析部分。
---
5. 风险因素评估
报告明确指出机器学习选股模型主要风险为:
- 基学习器失效风险: 随着未来市场环境变化,历史规律可能失去作用,导致模型预测失准。
- 过拟合风险: 机器学习模型可能对历史数据的噪声进行过度拟合,影响实际泛化能力。
- 随机性风险: 由模型训练过程中涉及的随机数种子引发的模型结果不确定性,不同随机种子产生不同模型表现,带来决策风险。
报告虽然未详细讨论风险缓解策略,但通过提示投资者综合考虑多个随机数种子结果,即提供了基本的缓解随机数影响不确定性的指导。[pidx::0][pidx::22]
---
6. 批判性视角与细微差别
- 报告结构严谨、论据翔实,但分析依赖于过去数据与特定市场环境,模型表现对未来市场变化的适应性非本文重点,存在隐性风险。
- 全连接神经网络表现高度随机,说明复杂模型训练稳定性不足,实践中风险较大,建议多次训练取均值,然而报告并没有提出更多针对训练稳定的优化策略。
- 逻辑回归结果稳定但表现相对一般,体现模型的稳定性和性能之间的权衡。
- 多种随机数来源的比较部分,基于XGBoost单模型,缺少对其他模型的统一比较,限制了结论的广泛推广。
- 本文虽然涉及大量技术细节和实证验证,但未涉及为随机敏感模型设计更优随机数控制机制或调参方案,有提升空间。
- 报告多次强调算法结果的可复现性和透明度,是当前金融机器学习领域重要但常被忽视的问题,体现华泰研究的专业严谨性。
---
7. 结论性综合
本报告通过系统分析机器学习选股模型中的随机数机制,实证展示了随机数种子对模型训练和策略表现的影响,深刻体现“必然中的偶然”这一哲学观察:
- 随机数多环节影响机制明确,且必不可少,数据划分、优化算法、集成集成策略和神经网络Dropout均依赖随机数以增强模型泛化能力。
- 不同模型随机敏感度显著不同: 逻辑回归表现出高度稳定,因其优化对象凸函数且结构简单;XGBoost和随机森林作为集成方法,随机性影响折中且集成减弱了随机性对结果的波动;全连接神经网络随机性最大,表现波动显著。
- 实证依据充分: 100组不同随机数种子下模型性能统计分布、回归及IC指标、累积Rank IC走势以及策略年化收益率和夏普率分布等多指标均支持上述结论。
- 算法随机性的相对影响在全部随机因素中较低,回测时间和样本扰动对最终模型表现更具决定性影响,提醒学术与实务界考虑更多因素。
- 实践建议明确: 对于简单或稳定模型可单随机数种子开发;对复杂、高敏感模型则应综合多随机数种子结果,避免因随机性导致的误判和策略失效。
- 风险提示与报告伦理规范明确,强化责任感与合规意识。
总体而言,本报告不仅为投资界提供了机器学习选股流程中随机性风险的全面识别和量化分析,也为研究者和实务者提供了控制随机性与提高模型稳定性的参考路径。结合丰富的图表数据与实证结果,使得报告内容深入且兼具操作指导价值,体现了华泰证券金工研究的高水平学术深度与应用广度。[pidx::0][pidx::15][pidx::21][pidx::22]
---
参考关键图表示例
- 图表2:二元损失函数示意图

- 图表5:Bootstrap重采样示意图

- 图表7:Dropout方法示意图

- 图表15:2011~2018年四种模型样本外平均正确率分布

- 图表23:2011~2018年逻辑回归模型累积Rank IC及波动情况

- 图表39:XGBoost模型四种随机性来源比较
回测指标 | 随机性来源 | 均值 | t均值 | 因子收益率 均值 | Rank IC 均值 | 多空组合 年化收益率 | 多空组合 夏普比率 | Top组合 年化收益率 | Top组合 夏普比率 |
真实值 | 5.71 | 5.39 | 1.17% | 13.96% | 37.98% | 5.54 | 17.83% | 0.66 | |
均值 | 样本内数据 | 5.62 | 5.29 | 1.13% | 13.75% | 36.94% | 5.42 | 17.26% | 0.64 |
样本外数据 | 5.79 | 5.39 | 1.17% | 13.88% | 37.61% | 5.16 | 15.85% | 0.58 | |
回测时间 | 5.64 | 5.32 | 1.16% | 13.96% | 37.94% | 5.57 | 21.23% | 3.13 | |
随机数种子 | 5.71 | 5.38 | 1.17% | 13.93% | 37.71% | 5.50 | 17.12% | 0.63 | |
标准差 | 样本内数据 | 0.06 | 0.07 | 0.02% | 0.08% | 0.58% | 0.13 | 0.36% | 0.01 |
样本外数据 | 0.13 | 0.12 | 0.03% | 0.18% | 1.12% | 0.18 | 0.63% | 0.02 | |
回测时间 | 0.36 | 0.41 | 0.10% | 0.81% | 3.20% | 0.48 | 13.45% | 1.99 | |
随机数种子 | 0.02 | 0.02 | 0.01% | 0.03% | 0.32% | 0.05 | 0.21% | 0.01 | |
变异系数 | 样本内数据 | 1.08% | 1.28% | 1.72% | 0.62% | 1.58% | 2.46% | 2.09% | 2.16% |
(标准差/均值)样本外数据 | 2.18% | 2.26% | 2.42% | 1.27% | 2.98% | 3.45% | 3.96% | 4.03% | |
回测时间 | 6.46% | 7.68% | 8.99% | 5.84% | 8.45% | 8.66% | 63.34% | 63.52% | |
随机数种子 | 0.37% | 0.42% | 0.47% | 0.20% | 0.85% | 0.95% | 1.25% | 1.25% | |
---
# 综上分析,华泰证券研究所发布的《必然中的偶然:机器学习中的随机数》是一份结合理论、实证和技术细节,极具深度与广度的机器学习金融应用研究报告。报告核心观点强调随机性不仅是机器学习的必要属性,更是模型表现差异的根源之一,对投资者理解和信赖量化模型具有重要价值。建议投资者和研究者综合考虑随机性并在模型开发过程中适度多种随机数种子的实验设计,增强策略的鲁棒性和可靠性。