金融研报AI分析

投石问路:技术分析可靠否?华泰人工智能系列之二十四:真假序列识别研究

本报告以机器学习方法,重点采用卷积神经网络(CNN)对真假市场价量序列识别展开研究。通过价格收益率和换手率序列构建真实与虚假样本,CNN能有效识别真假序列,尤其基于换手率的模型表现优异,而基于纯收益率或传统技术指标的识别能力不足。神经网络Grad-CAM可视化揭示模型主要依赖换手率序列中的局部特征,提示技术分析中“量”的信息或比“价”更为有效,较大挑战了纯基于价格的技术分析的可靠性,为市场规律的挖掘提供新思路。[pidx::0],[pidx::7],[pidx::10],[pidx::16],[pidx::25],[pidx::26]

再探基于遗传规划的选股因子挖掘华泰人工智能系列之二十三

本报告基于遗传规划选股因子挖掘,提出因子互信息和多头超额收益两种新适应度指标,增强了因子捕捉非线性收益关系的能力。通过三次方回归残差法和多项式拟合法改进非线性因子应用,并引入交叉验证环节控制过拟合。测试包括20多个因子,分层测试显示互信息因子呈现“中间层收益高,两端低”特性,转换方法改善因子与收益线性关系,验证了遗传规划在挖掘多样化高效选股因子上的潜力,为多因子机器学习模型提供基础支持。[pidx::0][pidx::4][pidx::30]

基于 CSCV 框架计算三组量化研究案例的回测过拟合概率

本报告基于组合对称交叉验证(CSCV)框架,系统介绍回测过拟合概率(PBO)的定义与计算方法,并通过三组量化策略案例(7种机器学习多因子选股模型、6种交叉验证方法多因子选股模型及50ETF双均线择时模型)验证PBO的应用。关键图表显示,案例1、2多因子模型PBO较低,策略具有较强实盘可信度,案例3择时模型PBO较高,易呈现回测过拟合风险,提示择时策略需谨慎对待回测结果。[pidx::0],[pidx::4],[pidx::8],[pidx::11],[pidx::15]

基于遗传规划的选股因子挖掘华泰人工智能系列之二十一

本报告深入分析遗传规划在选股因子挖掘中的应用,定制改进gplearn工具,扩充函数集,并通过全A股量价数据回测,成功挖掘出6个具有稳定RankIC和增量信息的选股因子。测试中,因子经多维中性化处理后依然表现稳健,揭示遗传规划突破传统人工构因的思维局限,为特征工程提供新路径。[pidx::0][pidx::9][pidx::10][pidx::22]

必然中的偶然:机器学习中的随机数 华泰人工智能系列之二十

本报告系统分析了机器学习选股模型中随机数的来源及其对模型表现的影响。通过对逻辑回归、XGBoost、随机森林和全连接神经网络四种算法在100组不同随机数种子下测试,发现逻辑回归表现最稳定,神经网络最不稳定,而XGBoost和随机森林介于两者之间。图表15、16清晰显示不同模型在准确率和AUC上的分布差异,揭示了随机数对模型性能的实质影响,提示投资者应关注随机数种子带来的结果不确定性并进行多种种子检验[pidx::0,pidx::15,pidx::21]

偶然中的必然:重采样技术检验过拟合——华泰人工智能系列之十九

本报告系统运用Bootstrap重采样方法构建“平行A股市场”,模拟机器学习不同环节随机性,定量检验回测结果的过拟合风险。结合图表1、8、9所示,发现基于分组时序交叉验证的模型在平行市场中性能稳定优于K折及乱序递进式交叉验证,验证真实世界结论的稳健性。同时,三种Bootstrap方案的结果显示,样本内数据扰动对模型表现影响有限,样本外数据及回测时间的变动对结果影响更大,提醒研究者关注训练数据质量和回测时间选择的风险。[pidx::0],[pidx::4],[pidx::15],[pidx::22],[pidx::25]

机器学习选股模型的调仓频率实证——华泰人工智能系列之十八

本报告针对2017年以来A股市场月频调仓机器学习模型超额收益显著下滑的问题,基于XGBoost模型实证加快调仓频率(至周频)对提升选股模型表现的效果,结合组合优化方法控制换手率,实现年化超额收益率21.02%、信息比率3.86的最佳回测表现。图表显示,周频调仓模型相比月频模型在后半月超额收益更突出,并且在不同交易成本条件下表现稳健,强调高调仓频率带来的交易成本控制必要性,为量化选股调仓策略设计提供实证参考[pidx::0][pidx::3][pidx::9][pidx::10][pidx::12][pidx::13]

人工智能选股之数据标注方法实证——华泰人工智能系列之十七

本文系统测试了多种数据标注方法对机器学习多因子选股模型训练与回测效果的影响。结果显示,XGBoost回归模型整体优于分类模型,不同标注方法如夏普比率、信息比率和Calmar比率标签训练的模型表现均符合各自目标,且通过等权集成模型XGBR-Combine综合提升策略稳定性和回测表现,年化超额收益率达到14.74%至18.22%,信息比率稳定在2.28~3.39之间,表现最佳。[pidx::0][pidx::13][pidx::23]

再论时序交叉验证对抗过拟合华泰人工智能系列之十六:从基线模型设置和样本精确切分两个角度对时序交叉验证提出改进

本报告基于金融时间序列数据,提出改进时序交叉验证的方法,包括建立更合理的基线模型和精准切分训练验证集,从而减轻机器学习模型(如逻辑回归和XGBoost)过拟合风险。通过对比六种交叉验证方法,分组时序交叉验证表现最佳,具体表现在测试集AUC、因子收益率及单因子分层回测中优于传统K折验证。同时,通过图表分析证实时序信息的保留是性能提升的主要原因,改进后的方法为金融机器学习模型调参提供了更科学有效的实践路径。[pidx::0][pidx::3][pidx::6][pidx::11][pidx::17]

人工智能选股之卷积神经网络 华泰人工智能系列之十五

本报告系统介绍了卷积神经网络(CNN)在多因子选股中的应用方法,创新性地将股票因子数据组织成二维“图片”输入CNN,实现了时间序列学习和因子合成。测试结果显示,CNN单因子RankIC均值13.62%,TOP组合年化收益20.05%,显著优于全连接神经网络和线性回归模型。构建的行业、市值中性全A选股策略回测中,以中证500为基准时,CNN年化超额收益达13.69%-16.38%,各项指标均领先其他模型。报告还探讨了CNN结构调优、因子排列等关键技术要点,展望未来在金融大数据领域的深度应用前景。[pidx::0][pidx::6][pidx::14][pidx::18]

对抗过拟合:从时序交叉验证谈起华泰人工智能系列之十四

本报告系统比较了传统K折交叉验证与时序交叉验证两大模型调参方法在机器学习公共数据集及全A选股数据集上的表现。实证表明,时序交叉验证能有效避免传统方法在时序数据上的过拟合,选择更"简单"模型,提升模型泛化能力及选股策略收益稳定性。关键图表11-14和35显示,时序交叉验证在复杂学习器XGBoost上测试表现更优,单因子分层回测及组合策略回测亦验证时序交叉验证策略获得更高收益并控制回撤风险[pidx::0,pidx::12,pidx::20,pidx::26]

人工智能选股之损失函数的改进华泰人工智能系列之十三

本报告创新提出两种对数损失函数改进方案——加权损失函数和广义损失函数,针对样本不均衡和模型换手率问题,基于全A股选股回测显示加权损失函数显著提升超额收益率和召回率,广义损失函数有效降低换手率且提升预测稳定性,λ=0.1时表现最佳。改进方法创新整合机器学习选股及交易成本控制,为多因子模型优化提供新路径。[pidx::0][pidx::6][pidx::10][pidx::13][pidx::15]

人工智能选股之特征选择 华泰人工智能系列之十二

本报告系统研究了人工智能选股中的特征选择方法,涵盖过滤式、包裹式、嵌入式三类方式。通过对逻辑回归、XGBoost等基学习器结合F值、互信息等指标筛选特征,验证了特征选择可有效提升模型AUC及选股策略表现,且特征数在50左右时效果最佳。回测显示,基于特征选择的改进模型在年化超额收益、信息比率等多项指标上相较基学习器有显著提升,尤其是基于F值+FDR和互信息的筛选方法表现突出,为海量因子下选股模型开发提供了重要路径。[pidx::0][pidx::15][pidx::18][pidx::22]

人工智能选股之stacking集成学习 华泰人工智能系列之十一

本报告系统介绍并创新性应用了改进的Stacking集成学习框架于多因子选股策略中,提出基于适应度指标的基模型选择方法,有效结合了基模型的不同训练数据和算法优势,实现超额收益最大化及最大回撤最小化。关键图表显示,最佳组合模型(XGBoost_72m与逻辑回归_6m集成)2011年至2018年相较中证500年化超额收益达27.75%-29.45%,回撤仅8.92%-10.18%,Calmar比率显著提升至2.73-3.25,且模型表现稳定,具备极高预测能力和风险控制能力。[pidx::0],[pidx::4],[pidx::14],[pidx::17],[pidx::23]

人工智能选股之循环神经网络模型 华泰人工智能系列之九

本报告系统测试了传统RNN、LSTM和GRU三种循环神经网络模型在2011年至2017年全A股选股中的表现。结果显示,LSTM模型在样本外正确率和年化超额收益率(20.36%-25.05%)及信息比率(2.95-3.76)方面优于传统线性回归,但最大回撤稍高。LSTM模型的权重训练过程揭示了其可解释性,同时基于月频多因子数据,神经网络模型表现不及XGBoost,主要因数据量限制,期待未来高频大数据场景继续深入研究。[pidx::0][pidx::16][pidx::24][pidx::28]

人工智能选股之全连接神经网络华泰人工智能系列之八

本报告系统研究了基于全连接神经网络的多因子选股模型,详细阐述了神经网络结构设计、激活函数、前向与反向传播原理及优化手段。通过覆盖2011年至2017年A股市场的实证测试,构建的70-40-10-3全连接神经网络模型在三分类任务中达到42.9%的正确率和38%的F1-score,分层回测显示其年化超额收益率达19.15%~25.36%,信息比率2.81~3.35,优于线性回归模型,但最大回撤略大。多图表(如图表15-28)呈现了模型性能及策略效果的全面对比,表明该神经网络模型在多因子选股领域具有显著优势及实用价值。[pidx::0][pidx::18][pidx::20][pidx::22][pidx::25]

人工智能选股之 Python 实战华泰人工智能系列之七

本报告系统介绍了基于Python语言构建机器学习多因子选股模型的全过程,涵盖环境配置、包安装、数据处理、模型训练与预测、策略构建与回测等关键环节。结合支持向量机模型及主成分分析降维,实证展示了模型的训练、预测精度及策略净值曲线(见图46),验证机器学习模型在A股多因子投资中的实用性与优越性,为投资者提供了完整的实践路径。[pidx::0,pidx::14,pidx::15,pidx::16,pidx::31]

人工智能选股之 Boosting 模型华泰人工智能系列之六

本报告系统测试了AdaBoost、GBDT和XGBoost三种Boosting集成学习模型在多因子选股中的表现,发现XGBoost模型在超额收益、信息比率和计算速度上均优于线性回归及其他Boosting模型。通过分阶段滚动回测,XGBoost策略在沪深300、中证500及全A股池中均表现出显著的超额收益和较高的信息比率,尤其全A股选股策略超额收益达31.5%,信息比率4.4,且模型因子重要性分析显示市值因子在不同时间段的作用波动明显。整体看,Boosting分类模型是具有高收益、高回撤特征的有效选股工具,对投资者在机器学习选股上的应用有较高参考价值。[pidx::0][pidx::13][pidx::16][pidx::34]

人工智能选股之随机森林模型 华泰人工智能系列之五

本报告系统介绍了随机森林模型在多因子选股中的应用,展示了其通过Bagging集成决策树提升预测精度与稳健性。结合2011-2017年沪深300、中证500及全A市场数据,通过7阶段滚动回测和参数敏感性分析,确定最优模型参数。实证结果表明,随机森林模型在预测准确率(AUC最高达0.615)和信息比率方面优于传统线性回归模型及朴素贝叶斯模型,尤其在全A选股中取得年化超额收益达30.6%,信息比率达4.17的显著提升。同时指出当前模型受市值和反转因子影响较大,受市场风格切换影响存在较大回撤风险,为后续研究方向提供了重要参考。[pidx::0][pidx::13][pidx::16][pidx::19][pidx::29]

人工智能选股之支持向量机模型 华泰人工智能系列之三

本报告系统测试了线性核、多项式核、高斯核和 Sigmoid 核等多种支持向量机(SVM)及支持向量回归(SVR)模型在多因子选股中的应用。结果显示,高斯核 SVM 模型在沪深 300、中证 500 和全 A 股中均能实现较高的超额收益率(最高达21.1%),且信息比率明显优于线性回归和其他核函数,尽管回撤表现未显著改善。参数寻优采用网格搜索,选取交叉验证集最佳参数。分层回测、行业与市值区间表现均较优,且SVM模型预测值与多种交易因子相关,有效捕捉市场非线性特征。整体来看,高斯核支持向量机在多因子选股策略中展现稳定的盈利能力,优于支持向量回归和多数其它核函数支持向量机。报告同时探讨了PCA预处理的影响及固定训练集滚动训练集策略区别,为机器学习在量化选股领域的应用提供了重要参考。[pidx::0][pidx::3][pidx::14][pidx::16][pidx::21][pidx::28]