【西南金工】机器学习因子选股月报(2025年7月)
创建于 更新于
摘要
本报告利用生成式对抗网络GAN与GRU深度学习模型构建GAN_GRU选股因子,覆盖全A股,历时2019年至2025年6月回测,表现稳定优异。因子月频调仓,IC均值11.54%,对应多头组合年化超额收益率达24.95%。特别在建筑装饰、公用事业等行业表现突出,具备较强选股能力和行业应用价值,为投资提供了先进的量化选股工具和参考 [page::0][page::5].
速读内容
GANGRU模型构建与训练方法 [page::1][page::2][page::4]

- 输入量价特征包含18项日频及月频指标,过去40天内数据预测未来20天收益。
- 采用GRU+MLP结构,训练优化器为Adam,损失函数以IC为目标,半年滚动训练。
- 生成模型GAN中,利用LSTM作为生成器,CNN作为判别器以保持时序特征,交替训练生成可信特征图像。
- GAN生成特征后再由GRU模型做收益预测,形成选股因子。
GANGRU因子2025年业绩表现概览 [page::5]
| 指标 | 数值 |
|---------------|---------------|
| IC均值 | 11.54% |
| 近期IC值 | 8.34% |
| 近一年IC均值 | 11.09% |
| 年化收益率 | 37.71% |
| 年化波动 | 24.95% |
| 信息比率 | 1.56 |
| 最大回撤率 | 27.29% |
| 年化超额收益率| 24.95% |
- 因子在全市场月频调仓状态下,表现稳健且持续超额收益明显。
- 信息比率1.56显示良好选股能力,最大回撤27.29%反映回撤控制适中。
- 多头组合年化超额收益率达24.95%,投资价值突出。
GANGRU因子行业表现及多头组合超额收益 [page::5][page::6]


- 2025年6月当期因子IC排名前五行业:建筑装饰(26.10%),基础化工(25.43%),机械设备(21.36%),公用事业(19.50%),纺织服饰(17.99%)。
- 近一年因子IC均值排名前五行业包括建筑装饰(19.68%)和公用事业(17.15%)。
- 多头组合超额收益最高行业:家用电器(7.27%),建筑装饰(5.85%),电力设备(5.51%),建筑材料(4.91%),食品饮料(4.89%)。
- 近一年多头组合月平均超额收益最高行业同样表现优异,涵盖家用电器、石油石化等。
- 30个申万一级行业中,除少数外,多头组合均跑赢对应行业指数,表现稳定。
GANGRU模型多头组合个股精选 [page::6][page::7]
| 排名 | 代码 | 简称 | 申万一级行业 |
|-----|-------------|------------|-------------|
| 1 | 601928.SH | 凤凰传媒 | 传媒 |
| 2 | 600674.SH | 川投能源 | 公用事业 |
| 3 | 600690.SH | 海尔智家 | 家用电器 |
| 4 | 603323.SH | 苏农银行 | 银行 |
| 5 | 002518.SZ | 科士达 | 电力设备 |
| 6 | 002129.SZ | TCL中环 | 电力设备 |
| 7 | 603227.SH | 雪峰科技 | 基础化工 |
| 8 | 600159.SH | 大龙地产 | 房地产 |
| 9 | 600895.SH | 张江高科 | 房地产 |
| 10 | 000526.SZ | 学大教育 | 社会服务 |
- 多头组合覆盖传媒、家电、银行等多行业热点,体现因子行业广泛适用性。
- 成分股选取基于因子得分排名全市场前10%,稳定反映因子选股能力。
投资风险提示 [page::7]
- 结论基于历史公开数据,未来因市场环境变化或数据误差存在不确定性。
- 不构成投资保证,投资者应结合自身风险偏好谨慎操作。
深度阅读
【西南金工】机器学习因子选股月报(2025年7月)详尽分析报告
---
1. 元数据与报告概览
- 报告标题: 机器学习因子选股月报(2025年7月)
- 作者及机构: 郑琳琳、祝晨宇等,来自西南证券研究发展中心
- 发布日期: 2025年7月2日
- 研究主题: 基于深度学习生成式对抗网络(GAN)结合门控循环单元网络(GRU)的量价时序特征选股因子——GANGRU因子的模型构建与表现跟踪。
核心论点与主要信息
该报告旨在更新自2024年以来基于GANGRU模型构建的选股因子表现,论点集中于:
- GANGRU因子通过生成式对抗网络对量价数据的时序特征进行生成与处理,结合GRU模型对时序特征编码,可以有效提升选股预测能力。
- 经过实证测试,该因子自2019年以来在全市场范围内的IC均值达11.54%,多头组合年化超额收益率约25%,显示模型具有较强的选股价值。
- 行业层面表现及多头组合收益均实现稳健超越对应行业指数,特别是在建筑装饰、公用事业、家用电器等行业表现突出。
- 报告还详细罗列了当前模型筛选出的多头前十名个股,指示实际应用价值。
综上,报告主旨传达的是深度学习与生成模型结合的量价时序因子在中国A股市场展现了良好的预测和投资收益性能,通过定期跟踪报告增强投资者对该量化模型的信心和理解。[page::0],[page::5],[page::7]
---
2. 逐节深度解读
2.1 摘要部分
- 概述GANGRU因子来源及构建基础,确定其为结合生成式对抗网络(GAN)对量价时序特征进行生成,再通过GRU模型提取时序编码的复合深度学习选股因子。
- 报告对因子2019年至2025年6月表现做出精准量化指标,包括IC均值、最新一期IC、近一年IC均值,以及多头组合年化超额收益率。
- 行业维度细分IC表现及多头超额收益,展现因子在行业内的差异化应用价值。
- 明确给出2025年7月多头前十组合名单,具体公司及其所属行业。
此处逻辑清晰,既有模型描述也覆盖实证表现,显著增强报告的说服力。[page::0]
2.2 GANGRU模型简介(章节1)
1.1 GRU模型基本假设
- 引用2024年7月前期报告构建基础:使用GRU+MLP神经网络结构构成基本的股票收益预测模型。
- 量价特征选取:包含18个日频和月频的量价特征如开盘价、最高价、成交额与换手率等,反映了全面的市场动态。
- 训练设置及数据处理:
- 输入为过去40天的量价特征采样(每5个交易日采样一次),形状为40×18。
- 预测未来20交易日累计收益。
- 训练集和验证集占比80%:20%。
- 特征先在时序上做去极值标准化,后在截面(个股)层面进行标准化处理,确保数据平稳性和模型鲁棒性。
- 半年滚动训练机制,动态更新模型,避免过拟合和样本陈旧。
- 股票筛选剔除ST股及新上市不足半年股票,合理规避极端风险影响。
- 训练的超参数设置包括Adam优化器、学习率1e-4、最大训练轮数50及早停策略等。
此部分可见模型设计严谨且适应金融时间序列复杂性的考虑,训练和数据处理细节体现专业水准。[page::1]
1.2 GAN模型简介
- 介绍GAN模型基本机制,包括生成器(G)和判别器(D)的交互定义:
- 生成器从随机噪声(高斯分布等)生成数据,目标是让判别器无法识别假数据。
- 判别器通过训练区分真实数据和生成数据,其损失函数分别针对真实数据和假数据准确率最大化。
- GAN的训练步骤阐明了“对抗”关系:两者交替迭代训练,直至达到平衡,生成器可生成以假乱真的数据。
- 数学表达利用期望损失函数说明损失计算方法及训练目标。
- 附带示意图,直观说明生成器-判别器的相互关系及训练流程。
该部分从技术层面详尽介绍生成式对抗网络结构,尤其强调了对金融时序特征数据生成的创新应用基础,支持后续GANGRU模型构建。[page::2],[page::3]
1.3 GAN特征生成模型构建
- 介绍为适应量价时序特征的二维结构和时序性质,采取LSTM作为GAN的生成器,以保持时序连续性和动态特征生成。
- 采用CNN作为判别器,针对二维“图像”形态的量价特征结构,利用CNN对数据空间特征的有效提取与判别。
- 结合LSTM与CNN的设计极富创新,有效结合时序数据的动态和空间二维特征。
- 详解训练完成的GAN生成器,将输入初始时序特征图像(40×18)转换成生成特征图像,同维度。
- GANGRU模型最终结构示意图清晰表达数据流,明晰生成器输出特征进入GRU网络预测收益的整体过程。
可以看出,报告在技术选型与模型工程结合方面考虑周全,针对模型应用目标做了合理架构设计。[page::4]
2.3 GANGRU因子表现(章节2)
- 回测表现数据统计:
- 从2019年初至2025年6月,GANGRU因子在全部A股范围内信息系数(IC)平均为11.54%,信息系数信息比(ICIR)为0.89,换手率0.83。
- 多头组合年化收益率达到37.71%,其年化波动率为24.95%,信息比率达到1.56,最大回撤率27.29%,年化超额收益率24.95%。
- 行业内表现:
- 2025年6月当期IC最高行业为建筑装饰(26.10%)、基础化工(25.43%)、机械设备、公用事业和纺织服饰。
- 近一年IC均值排名前五为建筑装饰、公用事业、有色金属、商贸零售和通信行业。
- 多头组合收益表现:
- 6月当期多头超额收益居前的行业分别是家用电器(7.27%)、建筑装饰(5.85%)、电力设备、建筑材料、食品饮料。
- 近一年多头平均超额收益最高也是家用电器、石油石化、建筑材料、有色金属以及建筑装饰。
- 有六大行业多头组合表现未跑赢对应指数,但整体多头组合近一年均跑赢对应行业指数。
这些数据充分说明GANGRU因子在市场各细分行业的稳健表现,IC与收益的正相关性验证了因子的预测价值和实用性。[page::5]
2.4 GANGRU因子各行业图表分析(章节图表5,6)
图5解读:
- 图5展示了GANGRU因子在申万一级行业的近期IC(灰色条)和近一年IC均值(红色条)对比。
- 观察可见,多数行业近一年IC均值稳定在正区间,部分热门行业近期IC高于长期均值,显示因子在部分行业短期预测灵活度更好。
- 建筑装饰、基础化工、机械设备、公用事业等传统行业表现突出,而部分行业如钢铁、传媒涨跌波动较大。
- 图表与文本一致,强化报告对行业分层效果的论述。
图6解读:
- 图6对比了2025年6月当月和近一年均值的多头组合超额收益率。
- 可以明显看到家用电器、石油石化、建筑材料等行业多头组合连续贡献了较高的超额收益。
- 部分行业如钢铁、医药生物在当月表现较差,反映因子的行业轮动适应性。
- 整体图表揭示因子在股票多头布局中的风险收益动态,有助于投资决策参考。
这两幅图形成了业绩表现与风险分布的可视化佐证,使投资者直观把握因子在行业维度的优劣态势。[page::5],[page::6]
2.5 多头组合与具体股票筛选(章节3)
- 表3详细列出截至2025年6月末GANGRU因子在各申万一级行业中排名第一的股票。该名单覆盖传媒、家用电器、公用事业、银行、基础化工等多行业,表明模型涵盖市场广泛。
- 表4列出因子得分排名前十的股票,涵盖凤凰传媒、川投能源、海尔智家、苏农银行、科士达、TCL中环、雪峰科技等,反映最新因子分析中具体核心投资标的。
- 组合具有较好的行业分散性,有助于降低投资集中度风险。
此部分体现从理论模型到实操个股层面的衔接,也方便投资者据此做进一步调研与组合构建。[page::6],[page::7]
2.6 风险评估
- 报告声明所有结论基于历史公开数据,未来市场环境若发生变化,因子表现可能出现偏差,强调量化策略结果不构成投资收益保证。
- 明确提示可能存在第三方数据的不准确风险,投资判断需结合自身风险偏好与承受能力。
- 提醒读者量化投资具有风险,投资需谨慎,符合合规要求。
风险提示合理,体现专业分析师的合规与责任意识,为投资者提供警示。[page::7]
---
3. 图表深度解读
图1:深度学习选股模型结构(第1页)
- 图1展示了输入数据格式——40天×18个量价特征的矩阵,经GRU层处理后流入MLP多层感知机,最终输出预测收益。
- GRU(门控循环单元)网络优势在于能高效编码序列数据时间依赖,MLP用于非线性映射。
- 输入的18个特征涵盖日频与月频指标,为模型提供多维度信号。
该图清晰解释了输入输出及网络架构,有助于理解后续GAN特征生成后与GRU模型的结合方式。[page::1]
图2:生成对抗网络(GAN)模型示意(第3页)
- 图示明确体现生成器接收隐藏变量z,生成假数据Xfake,判别器以标签识别真假,通过不断对抗训练提升生成数据真实性。
- 流程步骤清楚,便于理解复杂交互机制。
助力读者把握GAN网络训练循环核心,支撑因子生成意义。[page::3]
图3:卷积神经网络(CNN)模型示意(第4页)
- 该图演示CNN如何从原始图像矩阵依次通过卷积层、池化、向量化转变为特征,最终识别数据模式。
- 量价时序特征的二维矩阵形态被类比为单通道的“蜡烛图”图像,CNN针对图片的空间结构有效提取特征。
此处对CNN处理结构说明加强了模型设计的合理性。[page::4]
图4:GANGRU模型示意(第4页)
- 图4表示GAN模型作为数据增强和特征生成器,在GRU模型训练流程前置,先用GAN生成特征再由GRU+MLP预测股票收益。
- 明确模型流程层次,GAN生成器输出的特征图像作为GRU训练输入,这种构架能提升因子表达能力。
该图是本报告技术核心视觉表达,理解此图关键把握因子生成与时序预测的联合机制。[page::4]
图5:GANGRU因子各行业近期IC表现(第5页)
- 图示行业IC表现差异明显,建筑装饰行业近期IC显著高于其他,说明因子在该行业预测能力优异。
- 多数行业维持正向IC,显示因子稳定性较强。
- 近一年IC相比近期部分行业略低,可能暗示近期因子有效性提升。
图形直观展示了因子多产业适应性与动态变化。对应数据见章节2.3。[page::5]
图6:GANGRU因子各行业近期多头组合超额收益(第6页)
- 该图突显家用电器和石油石化行业的多头组合超额收益领先,反映因子在这些行业选股的收益优势。
- 行业间的波动和噪音较大,部分行业当月表现负值但近一年平均为正,显示投资组合需动态调整。
结合章节文本,这张图对投资组合决策具有重要参考价值。[page::6]
---
4. 估值分析
本报告主要聚焦于机器学习模型构建及选股因子表现,未具体涉及传统财务估值模型(如DCF、市盈率法等)内容,故无估值方法介绍与估值结论。模型的投资价值主要体现在量化表现指标及多头组合超额收益率上。[page::全报告]
---
5. 风险因素评估
报告对潜在风险因素的识别较为简洁,主要包括:
- 依赖历史公开数据,若未来市场结构或宏观环境重大变动,模型表现可能失效。
- 第三方数据存在不准确的潜在风险,可能影响因子计算和策略回测结果。
- 量化策略不构成投资收益保证,投资者需结合自身风险承受能力审慎决策。
报告未详细展开缓解措施或风险概率评估,但提示了关键风险,为合规报告应有之义,提醒投资者理性看待因子表现。[page::7]
---
6. 批判性视角与细微差别
- 模型创新性与复杂性: GAN与GRU结合,利用深度生成模型增强特征表达,方法论先进,显示量化投资向深度学习与生成模型迈进趋势。
- 假设与局限性: 报告对模型的各项超参数、数据处理及训练频率有明确描述,但缺少对模型可能过拟合、生成器失效及因子稳定性的敏感度分析,建议后续跟踪中加强此类检验。
- 数据依赖及样本过滤可能带来的偏差: 剔除ST股和样本缺失的处理虽合理,但也可能引入存活者偏差;报告未提及对此风险的控制方法。
- 行业表现波动: 部分行业在同一时间窗口内存在较大振幅或负面表现,暗示因子表现受行业周期及市场情绪影响,需要结合宏观和行业视角判断。
- 超额收益可持续性未深度讨论: 报告未具体分析因子未来表现可能受策略拥挤、市场流动性变化等因素影响。
整体上报告内容详实严谨,但对风险控制与模型局限性表达较为保守,预期后续报告会有补充完善。[page::全报告]
---
7. 结论性综合
本期《【西南金工】机器学习因子选股月报(2025年7月)》深入更新了基于GAN生成器和GRU模型结合的深度学习选股因子——GANGRU因子的构建方法及其市场表现。技术上,该因子融合了LSTM生成的时序特征和CNN判别器的二维数据识别能力,最终由GRU+MLP对生成特征进行收益预测,实现创新的机器学习选股策略。
通过2019年至2025年6月的回测,GANGRU因子展现了稳健的正向预测能力,IC均值为11.54%,多头组合年化超额收益率达24.95%,表明其在全A股市场的实战有效性。行业层面,报告展示了在建筑装饰、公用事业、家用电器等重点行业的显著优势,相关图表清晰揭示因子在不同行业的表现分布及多头组合超额收益差异,体现出模型的行业适应性和选股灵活性。
个股层面,报告详尽罗列了2025年6月底GANGRU因子在各行业内筛选出的龙头股及基于因子得分的前十名股票,为投资者提供直接的组合构建参考。风险提示中指出了依赖历史数据及第三方信息的局限,提醒投资者理性判断与风险控制的重要性。
综合来看,该报告不仅技术深入且数据翔实,创新应用了生成式对抗神经网络于量价时序的因子生成与编码,有效提升选股预测精度。图表从模型示意到回测绩效展示,再到行业及个股具体表现环环相扣,增强了论证的直观性和完整性。该因子作为机器学习量价因子的代表示范,具备重要的现实价值和进一步推广潜力。然而,报告亦显露出对模型稳健性及风险因子的保守披露,提醒读者要警惕市场波动及模型适用性的外部限制。
---
重要图表索引
- 图1:深度学习选股模型结构
清晰展示输入输出及GRU+MLP网络架构,基础构建模型框架。[page::1]
- 图2:生成对抗网络(GAN)示意图
演示生成器与判别器的对抗训练机制,解释模型构成核心。[page::3]
- 图3:卷积神经网络(CNN)模型示意
示范二维量价时序特征作为图像处理的CNN架构逻辑。[page::4]
- 图4:GAN_GRU模型示意
绘制GAN生成器输出特征作为GRU预测输入的整体流程。[page::4]
- 图5:行业近期IC表现图
直观反映各行业因子信息系数的近期与长期表现对比,突出行业差异。[page::5]
- 图6:行业多头组合超额收益图
展示多头组合在行业维度的超额收益率,揭示投资策略实际效果。[page::6]
---
综上,该深度学习机器学习因子选股月报是一个技术含量高、数据支持充分、逻辑严密的专业研究报告,对于量化投资领域尤其是深度学习因子应用有较强的参考价值和示范意义。[page::全报告]