`

AI 能否学会看图选股——机器学习系列

创建于 更新于

摘要

本报告基于卷积神经网络(CNN)模拟机器学习方法,利用含均线的K线灰度图特征,预测低价股未来收益。研究显示该模型具备显著的预测能力,未来5、10、20交易日收益预测信息比率均超过0.9,相关多空组合年化收益率达到26%以上,夏普比率3.7以上。月度换仓策略自2019年至2023年表现优异,累计收益超万得全A,风险调整后收益更佳。该机器学习图像分析方法有效挖掘传统量化因子难以捕获的隐式市场信息,为量价二维数据投资提供创新视角 [page::0][page::3][page::4][page::6][page::9][page::10]。

速读内容


机器学习技术实现图形选股的背景与方法 [page::0][page::2]

  • 传统技术分析通过价格及量价图表模式预测市场走势,人类视觉模式识别辅助投资决策。

- 利用卷积神经网络(CNN),将含多条均线的K线图转换为灰度图,训练模型预测未来收益。
  • 训练数据2011-2018年,测试数据2019-2023年,关注低价股样本。


预测因子效果因子分析 [page::4][page::5]


  • 预测未来5、10、20个交易日累计收益,预测分数分组效果显著,高分组实现正收益。

- 信息比率(IR)均超过0.9且t值极显著,预测因子具备稳定性。

预测收益分布与多空组合表现 [page::5][page::6]



  • 高分组(Top)多头组合和构造多空组合表现优异,累计收益169.81%,年化收益26.35%,夏普比率3.76。

- 最大回撤控制合理,月度正收益月份占比约86.3%。

预测因子多因子回归分析 [page::7][page::8]

  • 多头和多空组合alpha显著,经过FF5因子及含动量、反转等扩展因子回归,均有稳健显著alpha。

- 暴露以小市值、逆流动性因子为主,模型不完全依赖经典因子,体现机器学习捕获隐式信息的能力。

实际量化策略回测表现与风险收益分析 [page::9][page::10]



  • 实现月度回归周期换仓,月频换仓策略年化收益27.93%,夏普比率1.49,回撤控制良好且明显优于万得全A。

- 月度胜率约63%,收益稳定且多年份跑赢基准。
| 指标 | 月度策略 | 万得全A |
|-----------|---------|---------|
| 累计收益率 | 184.42% | 57.99% |
| 年化收益率 | 27.93% | 11.38% |
| 夏普比率 | 1.49 | 0.66 |
| 最大回撤(%) | -24.02 | -12.68 |

量化图像识别因子构建方法概述 [page::3][page::4][page::9]

  • 输入数据为A股低价股最近20个交易日的开盘、收盘、最高、最低、成交量与均线,转换为灰度图输入CNN。

- 标签为未来5、10、20日累计绝对收益的正负,分类模型输出预测正收益概率。
  • 预测概率作为因子值,进行截面筛选及多空组合构建。

- 以月度为换仓周期,设置预测概率阈值0.8,选取前20只股票构建投资组合。
  • 回测显示优异的收益风险特征,表现稳健且高于传统基准。


深度阅读

深度剖析报告:《AI 能否学会看图选股——机器学习系列》



---

一、元数据与概览


  • 报告标题:《AI 能否学会看图选股——机器学习系列》

- 发布机构:中泰证券股份有限公司,研究部门
  • 作者信息:执业证书编号S0740520080002,联系方式含手机号和邮箱

- 发布日期:2023年5月10日
  • 报告类型:证券研究报告 / 量化投资策略报告

- 研究对象及主题:以机器学习为核心的技术分析升级,尤其是基于量价二维K线图的卷积神经网络(CNN)在中国A股市场低价股上的预测及选股应用,探索AI视觉识别技术能否有效替代传统人工“看图选股”。

核心论点及结论概述:
  • 传统技术分析依赖人类视觉“看图”识别模式,存在主观性局限。

- 机器学习,尤其是深度学习的CNN能提取K线图中的隐含价格和成交量信息,捕捉预测未来股价走势的模式。
  • 基于2011-2018年低价股数据训练,模型在2019-2023年表现稳健,预测结果因子有效性强。

- 采用排序法的多空组合年化收益率约26%,夏普比率高达3.8,月度换仓策略年化收益约28%,大幅优于同期市场指标。
  • 结论支持AI视觉模式识别在股票市场量价图上的应用潜力。[page::0] [page::3] [page::7] [page::9]


---

二、逐节深度解读



1. 引言(第2页)


  • 内容总结:回顾技术分析的发展起源,强调技术指标和图表模式的重要性。引用Jiang et al.(2021)用机器学习读取不同国家股票K线图预测未来收益的前沿研究,论证AI视觉模式识别的广泛应用潜能。

- 推理与假设
- 人类认知对图形信息敏感,技术分析便是“视觉辨识”过程。
- 深度学习的发展使机器能够在视觉模式识别领域逐渐超越传统算法及人类经验。
- 用CNN训练的模型准确率及夏普比率在多个国家均展现竞争力,且模型具备一定的跨地区适应性(直接迁移及适度重训练)。
  • 数据意义:表格展示了不同国家及权重方法下的夏普比率,直接说明CNN模型在美国、加拿大、日本等地均表现不俗,尤其是重新训练模型的效果明显[page::2]。


---

2. 模型在低价股上的表现(第3至8页)



2.1 数据和模型简介


  • 内容提炼

- 使用A股低价股日频数据,包含OHLC价格、成交量和移动均线,构建灰度K线图作为CNN输入。
- 标签为未来5到20个交易日累计收益的正负(二分类)。
- CNN架构包括卷积、激活、池化及softmax全连接层,输出正收益概率。
  • 技术点说明

- CNN适合提取图形中局部及全局特征(本案例即量价图形态)。
- 标签设计为二分类,简化问题,容易训练且能捕捉价格上涨可能性。
- 数据标准化及图像化输入保证模型能学习价格、量的空间时序关系。

图2示例真实市场K线图(图3显示转为灰度图像输入CNN),直观呈现原始与处理后数据形式[page::3]。

2.2 对预测结果的因子化分析


  • 论点总结

- 将日频预测概率作为因子值,计算其与未来5、10、20日收益的相关性(IC)。
- 明显分组绩效,最高组未来收益显著高于最低组,因子有效性通过Python Alphalens验证。
  • 数据阐释

- 5日至20日预测因子的IC均值5.5%-6.0%,IR(信息比率)接近1,表明因子具有稳定预测能力。
- 月度IC热力图显示该效果在不同年份及月份均比较均衡,少量负IC出现但整体稳健。
  • 图表理解

- 图4的分组平均收益柱状图,显示预测分数越高组,未来收益越正向。
- 风琴图(图5)说明极端收益主要集中于预测分数最高第五组,正收益占优,验证因子筛选潜力。
- 统计检验中t值极高且p值为0,强调因子统计显著性。

表格及图形完整呈现了因子预测的稳定性与有效性,支持基于K线图输入的CNN模型的预测因子可用于量化选股[page::4] [page::5]。

2.3 排序法检验及策略表现


  • 内容要点

- 样本内涨跌停及ST股剔除后,将股票按预测分值排名分为五组。
- 多头组合(最高分组)与多空组合表现差异明显,多空组合净值累计上涨超2.7倍,远超最低组。
  • 关键数据

- 多空组合年化收益26.35%,夏普比率3.76,最大回撤均限制在4.4%左右,风险控制优良。
- 月度正收益占比高达86.3%,表现稳定。
- 多空组合的收益、夏普、Calmar、Sortino指标均体现策略高性价比。
  • 图解说明

- 图7累计净值曲线明显体现分组收益梯度。
- 图8统计表展示多空策略收益及回撤,均达到优秀量化策略水准。
- 图9月度热力图显示盈利月份比例高,抗风险能力较强。

说明通过CNN预测构造的分组组合在实证检测、风险调整后依然有效,并可用于实战多空策略[page::6] [page::7]。

2.4 多因子回归分析


  • 分析内容

- 使用Fama-French 5因子模型及增强版本(动量、反转、换手率、逆流动性因子)对多头组与多空组合收益进行回归分析,检测策略alpha是否源自已知风险因子。
  • 推断依据

- 高alpha值(11-24%年化)及其统计显著性(t值>2)表明该策略收益不是风险暴露的简单反映,而具备独立的选股能力。
- 多头组偏向小市值因子暴露(SMB约0.7),多空组合逆流动性暴露较高(约0.4)。
- 其他市场因子暴露较低,保证了模型捕捉的创新风险溢价。
  • 数据价值

- 图10提供详细系数与统计量,支持模型预测虽与部分已知因子相关,但有独立alpha特征。

说明该AI模型选股体现在传统风险因子之上,具备一定超额收益来源[page::8]。

---

3. 中低频换仓策略表现(第9至10页)


  • 背景说明:高频策略成本高、不易推广,提出月频换仓方案,标签为过去20日累计收益,训练与测试过程保持一致。

- 策略执行
- 月末选取预测概率大于0.8的股票20只,剔除涨停和ST股。
  • 绩效对比

- 累计净值较万得全A指数显著领先。
- 年度收益除了2020和2022年特殊年份外均优于大盘。
  • 风险指标

- 策略累计收益184.42%,年化收益27.93%,远胜万得全A的11.38%。
- 夏普1.49,Calmar 1.16,均远高于大盘,策略风险调整后表现优异。
- 最大回撤虽高达24%,但持续时间较短,整体风险可控。
  • 月度收益与胜率

- 月度胜率63%,表现稳定且具有正向收益的连续性。
  • 图标说明

- 图11显示策略累计收益曲线明显优于基准。
- 图12年度收益条形图强调优异表现年份及市场对应关系。
- 图13综合统计指标对比强化策略优势。

该部分展示了从日频模型降频至月频的应用可行性及投资者友好性,提升实操价值和广泛适用性[page::9] [page::10]。

---

4. 风险提示与合规信息(第11-12页)


  • 风险点

- 结论基于历史公开数据,存在数据滞后及可能不准确风险。
- 研究结果不保证未来表现,不能作为投资建议。
- 投资产品受宏观环境、基本面变动、市场风格波动等多因素影响,存在不确定性和波动风险。
  • 合规声明

- 报告版权归属,禁止未经许可转载。
- 投资评级标准详细列出评级含义。
- 披露公司及关联方利益冲突可能性。
- 强调独立性、客观性及信息时效性。

此部分强调了投资决策的谨慎性及法律合规要求,表明研究报告的客观约束[page::11] [page::12]。

---

三、图表深度解读



图1(第2页)—— Jiang等(2021)夏普比率多国比较


  • 描述该表对不同国家市场使用CNN训练模型的等权重和市值权重策略下,多空组合的夏普比率表现。

- 观察到重训练策略在美国、日本、加拿大表现优异,显示模型跨市场的适应性与训练的重要性。
  • 为本报告复现并扩展思路提供坚实理论基础。


图2 & 图3(第3页)—— K线原图与灰度图输入


  • 图2为传统K线图,具有开盘、收盘、最高、最低价与成交量。

- 图3是CNN使用的预处理数据,转成灰度图,统一缩放至标准尺寸,适配卷积核提取。
  • 显示如何将财经时间序列数据图像化以供CNN处理。


图4 & 图5(第4-5页)—— 预测因子分组均值和风琴图


  • 图4显示不同因子评分分组的未来收益均值,验证高因子分值预测正向收益。

- 风琴图揭示极端收益分布,最高分组中正收益个体明显多于负收益,有助决定持仓策略和阈值设定。

图6(第6页)—— 20日预测IC热力图


  • 显示月度IC变化,趋势较为平稳,极少发生负IC,保证因子预测在不同时段有效。

- 强化因子在时间中的稳健性。

图7 & 图8 & 图9(第6-7页)—— 分组累计净值和多空组合收益风险指标


  • 图7的净值曲线形象展现分组间差距,多空组合收益和波动均表现出良好风险调整收益。

- 表格给出累计收益达170%,年化收益26.35%,夏普比率接近4,突出策略优异性。
  • 月度收益颜色图证实获利月份占绝大多数,符合持续稳定表现。


图10(第8页)—— 多因子回归表


  • 详细列出多空组合及多头组合在回归Fama-French五因子和增强因子模型下的alpha和因子暴露。

- 数值显示模型产出因子显著的统计alpha,排除了历史风险因子的解释,体现模型独特选股能力。

图11 & 图12 & 图13(第9-10页)—— 月频换仓策略表现与风险指标


  • 图11累计收益曲线明显优于全A指数,说明策略超额收益可达。

- 图12年度收益差异,突出策略避开部分年份亏损或提升收益。
  • 图13风险指标对比表,综合体现策略较大收益背后的控制风险能力,最大回撤虽显著但年化收益弹性较大。


---

四、估值分析



本报告聚焦于量化机器学习策略的预测能力和实证检验,未涉及传统的公司估值模型(如DCF、市盈率等)。估值分析作为外部辅助未出现在本报告内容中。

---

五、风险因素评估


  • 本报告多次提示所有结果基于历史公开数据,导致部分数据的滞后风险和数据质量风险。

- 策略表现不构成未来收益保证。
  • 投资策略容易受到宏观因子、行业变化、风格转换、市场波动等因素影响,可能导致预期外的亏损或收益波动增大。

- 明示报告本身不构成投资建议,强调投资者应谨慎决策。
  • 风险缓释无明确策略,依赖研究严谨性和多因子验证降低模型过拟合风险。


---

六、批判性视角与细微差别


  • 潜在偏见

- 低价股样本选择可能带来样本偏差,高收益部分或受流动性风险和异常定价影响。
- 模型是否考虑过高频交易成本、滑点及市场冲击无明述,实际投资执行可能受限。
- 训练和推理均为公开历史数据,可能存在过拟合风险,尽管作者使用了验证和样本外测试。
  • 模型依赖与解释

- AI模型为“黑盒”,具体提取的图形特征难以解释,可能导致策略稳定性在不同市场环境下降低。
- 因子分析结合传统风险因子,已有一定的风险暴露,alpha虽显著但未必完全独立。
  • 策略的鲁棒性

- 虽有月频策略降低交易成本,但样本外表现已近4年,仍需关注更长周期、极端市场环境下的表现。
  • 报告内部一致性

- 报告逻辑严密,前后数据支持一致,没有明显矛盾。
- 风险提示充分,符合合规要求。

---

七、结论性综合



该报告通过详尽的数据和模型构建分析,展示了AI深度学习技术特别是卷积神经网络在传统图形技术分析中的革新潜力。研究设计从原始量价信息的图像化处理出发,建立了以K线图为输入,未来收益正负为标签的二分类预测模型。经过历史训练,并以2019年至2023年A股低价股为样本外测试,模型输出的预测概率被成功因子化,并表现在:
  • 因子IC均值和信息比率稳定,说明模型具有稳健预测能力和有效性(25%-30%的利润空间)。

- 排序法检验结果表明,投资策略通过多空组合实现年化超过26%的收益率,极佳的夏普比率和较低最大回撤印证风险调整后的优异表现。
  • 多因子回归分析揭示该策略alpha显著,非完全风险因子解释,反映策略具备增值空间。

- 将标签频率下调至月频换仓策略后,策略仍保持较高收益和风险控制,更贴近实际操作,胜率63%及扩展的风险收益指标表明策略具备较强实操价值。

报告辅以丰富的图表,从原始数据图、处理图像到因子表现、收益统计及风险分析,层层印证了机器学习在“看图选股”中的成效与潜力。此外,报告合规披露风险,严谨提醒投资者理性使用AI预测模型。

综上,本报告充分展示了深度学习CNN在金融量价二维图像分析的创新应用,不但验证了“看图”这一传统技术分析的智能升级版,也为低价股量价预测开辟了新的量化投资思路,表现出高信息含量和高投资实用价值。[page::0] [page::2] [page::3] [page::4] [page::5] [page::6] [page::7] [page::8] [page::9] [page::10]

---

结语



本次研究报告系统性地将金融时间序列的视觉图像与现代机器学习技术相结合,开创了将AI“看图”技术真正用于量化投资的实践探索。其优异的回测成绩和稳健的统计显著性,为包括公募基金、量化私募及智能投顾在内的投资机构,提供了新的策略研发思路和技术支持。未来,可期待该方向在数据规模、模型优化及跨市场推广中的进一步创新和成绩展现。

报告