`

【广发金工】2024精选深度报告系列之一:基于Visibility Graph-CNN创新架构的高效股价预测模型

创建于 更新于

摘要

本报告提出了一种基于Visibility Graph与卷积神经网络(CNN)结合的创新股价预测模型。该模型利用可见性图对股票20日和60日的价量数据进行低维特征提取,再通过轻量化CNN进行未来股价走势建模,实现对未来20个交易日的涨跌预测。实证回测结果显示,模型在全市场及多个细分板块表现稳健,多头年化收益率超越基准中证全指,均呈现显著的分档收益与稳定的RankIC,表明其具备较强的选股能力和泛化性能。[page::0][page::3][page::4][page::7][page::14]

速读内容

  • 可见性图算法将时间序列价量数据转换为二维整型矩阵,矩阵元素仅为0或1,有助于减少数据冗余和模型过拟合,提高特征的泛化能力。该方法具有仿射变换不变性,能有效识别相似走势形态 [page::0][page::1][page::2]


  • 基于可见性图输出的低维度特征矩阵(20日模型6×20×20,60日模型6×60×60),设计轻量级卷积神经网络进行多层特征提取,输出3类别涨跌概率以构建选股因子 [page::2][page::3]

  • 实证样本及回测设定:

- 股票池涵盖全市场及沪深300、中证500/800/1000、创业板
- 训练期为2005至2016年,验证期2017至2019年,回测区间2020至2023年
- 按预测涨幅概率分为10档,构建多空组合,20个交易日调仓周期 [page::3]
  • 20日模型与60日模型因子在全市场及各细分板块均表现出显著且单调递减的分档收益,表现如下:

- 全市场:20日模型多头年化收益率10.35%,超额9.57%;60日模型年化收益率10.24%,超额9.61%
- 中证500、1000及创业板多头年化收益率分别达到6.41%-8.79%(20日)和4.83%-11.79%(60日)

  • 相关性分析显示20日和60日模型因子与传统风格因子相关性较低,展现出新颖且拥挤度小的选股信号属性 [page::5][page::6]

- 回测详细数据(以20日模型为例):
- 全市场20日模型Q1档年化收益率10.35%,Q1-Q10多空年化收益率差16.67%,表现优于中证全指
- 各细分板块表现稳定且超额收益明显,创业板20日模型2023年Q1档超额收益达37.74%
- 60日模型表现类似,Q1档多头收益率及多空差均体现出良好的选股效果

  • 风险提示包括模型在非正常市场政策、市场环境及结构变化时可能失效,且本模型观点可能与其他量化模型存在差异。[page::15][page::16]

深度阅读

【广发金工】2024精选深度报告系列之一:基于Visibility Graph-CNN创新架构的高效股价预测模型——详尽全面深度解读



---

一、元数据与报告概览


  • 报告标题:《基于Visibility Graph-CNN创新架构的高效股价预测模型》

- 作者与发布机构:广发证券,广发金融工程研究团队
  • 发布日期:2024年9月2日

- 研究主题:采用可见性图(Visibility Graph)与卷积神经网络(CNN)结合的创新架构,构建高效的股价预测模型,主要应用于中国A股市场。
  • 核心论点

- 利用“可见性图”有效降维、提取时序价量信息,减少数据冗余并降低深度学习模型过拟合风险;
- 设计参数少且复杂度低的CNN结构,结合可见性图,实现对个股未来20个交易日股价走势的预测;
- 建立两个模型(分别基于20日、60日价量数据),回测显示显著优于基准的分档收益和因子表现,具备较强的样本外泛化能力;
  • 评级及目标价:无明确评级和目标价,报告侧重模型方法论及实证展示,强调量化模型优劣及风险;

- 作者意图:向市场展示一种基于图论与深度学习融合的创新量化策略框架,用实际回测数据论证其有效性,为投资者和量化研究人员提供新思路和工具参考。[page::0]

---

二、逐节深度解读



2.1 摘要与引言:可见性图与CNN结合构建股价预测模型


  • 关键论点

- 可见性图是一种图论方法,能将时间序列价格和成交量数据转化成图结构,表示为二维整型矩阵(仅含0和1);其优势在于降低数据冗余和复杂度;
- 然后将此矩阵输入卷积神经网络(CNN)提取更深层次特征,结合未来股价走势进行建模;
- 提出模型参数量小,减少过拟合,预测能力强。
  • 逻辑支撑

- 归纳自图论和时间序列的基础理论;
- 结合深度学习对图结构数据的优势;
- 重点在于“可见性图”对时间序列中有效形态的表征能力以及其仿射变换不变性,保证特征稳定;
  • 数据与模型展示

- 采用20日与60日价量数据分别建模;
- 模型输出为未来20个交易日内涨跌概率,通过分档(十档)实现多空组合构建;
- 回测收益和RankIC指标优。
  • 风险提示

- 量化模型依赖历史数据,市场政策和交易行为改变可能引致失效;
- 不同模型间结论不一致性风险。[page::0]

2.2 可见性图(Visibility Graph)构造及特性详解


  • 可见性图定义:将时间序列的每一时间点视为柱状图,两个时点间如果顶部连线不被中间柱阻挡,则其节点间有“可见”边,反之无边,用数字0/1矩阵表示。

- 构建方法示意
- 以20个时间点为例,图1说明如何判断相邻或非相邻数据点间可视性;
- 蓝色线代表可见边,红色线为不可见;
  • 仿射不变性意义

- 图2展示时间序列中同一价格形态,即使发生时间上的平移、价格水平缩放等变换,对应的可见性图结构不变;
- 这保障模型捕获形态而非绝对位置,有利于识别历史相似走势,提高泛化能力。
  • 优势总结

- 低维、高效,整型矩阵结构简化数据,减少冗余和噪声;
- 形态识别能力强,为后续深度学习建模奠定基础。[page::1, page::2]

2.3 可见性图与卷积神经网络的创新模型架构


  • 模型区别

- 传统深度学习模型直接基于标准化价量图表(3×200×200大小,数值范围0-255)输入CNN;
- 本报告颠覆传统,先通过可见性图转换价量时序数据为6×20×20(20日模型)或6×60×60(60日模型)的低维整型矩阵,元素仅0/1,降低复杂度和参数量。
  • 模型设计

- CNN结构包括4层卷积层,间以最大池化层(Max-Pool),最后全连接层加Softmax输出三分类概率(跌、平、涨);
- 输入通道6对应开盘价、最高价、最低价、收盘价、交易量、交易额六组数据的可见性图;
  • 训练细节

- 参数初始化采用Xavier方式;
- 优化器使用Adam,学习率1e-5,Batch Size512;
- 利用验证集早停防止过拟合;
  • 输出解释

- 得到未来截面日股票收益率的三分位概率,以“涨”概率作为选股因子。
  • 创新点突出

- 通过先验图论降维确保特征简洁且偏向形态表达;
- CNN参数少,训练和推断效率高,抗过拟合能力强。[page::2, page::3]

2.4 选股范围与数据处理


  • 样本包含

- 全市场及多个中国主流指数成分股:沪深300、中证500、中证800、中证1000、创业板;
  • 数据清洗标准

- 剔除非上市、摘牌、ST/*ST股票、涨跌停板、上市未满60交易日等非规范样本;
  • 训练与测试区间

- 训练集:2005年1月至2016年12月;
- 验证集:2017年2月至2019年11月,避免数据泄漏,间隔1个月空档;
- 回测区间:2020年1月至2023年12月;
  • 操作策略

- 根据模型预测沪深个股的涨幅概率分成10个因子档,组合Q1(高概率上涨)多头买入,Q10空头卖出;
- 调仓周期20交易日,买卖时以次日平均价执行。[page::3]

2.5 因子分档表现及各板块收益分析


  • 全市场表现

- 二十档因子分布收入表现单调递减;
- Q1档(高预测上涨概率组合)收益显著优于其它档组;
  • 各指数表现

- 沪深300、 中证500、 中证800、 中证1000与创业板均表现出类似的单调分层收益迹象;
- 20日、60日模型表现大致接近,均证明因子具备一定稳定的选股能力和分层效果;
  • 从图4至图15详细图表解读

- 每个指数的20日因子通常年收益表现优异,多头Q1档均显著正收益,空头Q10档均为负收益,表明模型判别能力;
- 60日模型同样表现稳健;
  • 市场细分层次的因子表现

- 创业板收益通常高于主流大盘和中小盘,表明模型对成长股波动的捕捉能力较强。
  • 定量说明

- 20日模型年化收益率多个板块均在4%-9%之间,60日模型则有些许差异但总体类似;
- 最大下行风险和回撤未详细报道,此处待后续说明验证。[page::4, page::5]

2.6 因子与传统风格因子的相关性分析


  • 关键发现

- 20日模型因子与多数传统风格因子相关性绝对值均低于0.1,部分存在弱正/负相关;
- 60日模型因子类似,且与流通市值有少许正相关;
  • 意义

- 低相关性表明模型捕获了不同于传统因子的市场信息,体现创新性;
- 这有助于投资组合多元化及降低拥挤度风险。
  • 具体风格因子举例

- 最高点距离因子与模型因子呈0.2左右弱正相关;
- 股价反转指标与模型因子呈弱负相关;
  • 总结

- 该因子组合是较为新颖、鲜有直接替代的量化信号体系,更具独立投资价值。[page::5, page::6]

2.7 20日与60日模型在多个股票池中的收益表现


  • 20日模型回测结果

- 全市场:Q1多头年化收益率10.35%,超同期中证全指9.57%,即超额年收益约0.78%;
- 中证500:多头收益6.41%,超额4.33%;
- 中证1000:7.56%,超4.06%;
- 创业板:8.79%,在2023年超创业板指数37.74%的高额超额收益,表明模型对成长股的强塑造力;
- 各指数组合的多空差收益十分可观,达16%以上。
  • 60日模型回测结果

- 全市场多头年化10.24%,超中证全指约0.67%;
- 中证500年化收益4.83%,超额3.0%;
- 创业板11.79%,2023年超额40.83%,更强于20日模型;
  • 图表分析

- 累计收益曲线整体平滑上涨,且多空价差稳步拉大;
- RankIC(因子预测有效性指标)表现稳健,累计值逐渐升高,表明模型因子稳定有效。
  • 指标说明

- RankIC正值表示模型能较准确预测未来股价排序;
- 多空组合年化收益率体现对冲效应下的因子实际收益率表现;
  • 数据清洗及样本外测试保障了模型稳定性和实际可行性。[page::7-14]


---

三、图表深度解读



图1:可见性图构建示意图(page 1)


  • 展示了如何将时间序列的柱状图映射为网络图,其中线条连接的可见与不可见关系用不同颜色区分,说明时间序列中的结构关系转化为图节点和边的逻辑;

- 将价量数据经过该转换后形成二维整数矩阵,极大简化输入数据的维度和复杂度;
  • 该图验证了基础可见性图算法的应用,奠定模型特征输入基础。


图2:可见性图的仿射不变性(page 2)


  • 演示各种变换(时间移动、缩放、仿射变换)不会改变可见性图结构,突出其对价格走势形态的鲁棒性;

- 此特性为量化模型带来了更强的泛化能力,有效避免“样本离散”带来的学习困难。

图3:模型结构示意图(page 3)


  • 详细呈现了价量数据经过可见性图处理,再进入4层卷积层,最终通过全连接和Softmax输出跌平涨的概率结构;

- 表现了模型设计的创新之处和参数量的节省,推理清晰,便于理解网络如何提取多通道低维图结构特征。

图4~图15:各指数因子分档收益表现(bar图, pages 4-5)


  • 每个图展示了模型按涨概率划分的10个档位收益,Q1为最高上涨概率,Q10为最低;

- 从收益明显的递减趋势验证了模型因子的分层能力和识别强弱股的有效性;
  • 细分市场或指数间细节略有差异,展现模型不同细分板块的适应性。


图16~图31:各指数因子累计收益与RankIC时序线图(pages 8-14)


  • 累积收益曲线(蓝色Q1,多空差橙色)持续上扬,表明因子实现了稳定的正向收益;

- RankIC图显示每日IC值波动但整体累积值稳定向上,验证因子的信号有效性和持续时间;
  • 不同指数间曲线走势充分体现市场结构和波动特征的差异。

- 创业板曲线尤其表现突出,60日模型累计收益优势更明显。
  • 结合回测指标可见模型预测稳定且对未来走势有较好领先指标性质。


---

四、估值分析


  • 本报告核心并非企业估值,而是量化策略模型构造与实证;

- 未涉及DCF、市盈率或其他传统估值方法;
  • 模型评估通过因子RankIC、年化收益率、最大回撤、超额收益等多维度回测结果评价;

- 强调模型的泛化、稳健和超额收益能力;
  • 有关参数如学习率、批大小等对模型训练有重要影响,体现了深度学习过程管控。


---

五、风险因素评估


  • 主要风险

- 市场环境和政策变化可能导致历史统计规律失效,进而影响模型表现;
- 市场结构及交易行为改变可能使模型策略失效;
- 不同量化模型可能得出截然不同的结论,模型比较和跑测试很重要;
  • 风险缓释

- 使用了训练/验证/回测的时间分层,减小数据泄漏风险;
- 采用了模型早停等训练技巧,减少过拟合;
- 多个板块、多指数背测,验证模型适用范围和稳健性。
  • 提醒

- 投资应用需结合市场动态调整,模型非万能;
- 研究结果仅供参考,不作为投资建议。

---

六、批判性视角与细微差别


  • 模型假设的稳健性

- 可见性图及CNN结合虽然创新,但仰赖过去历史数据的稳定特质,极端市场可能失效;
- 训练集较早(截至2016年),虽有验证与回测,但是否包含新兴市场结构变革影响尚不明确;
  • 模型泛化能力

- 采用仿射不变性的可见性图缓解价格尺度变动问题,但对市场噪声及非结构性变化的适应性未知;
  • 收益波动

- 图中因子收益和RankIC波动明显,短期不确定性高,尤其在宏观剧变时需注意风险;
  • 对比传统因子

- 虽然相关性低体现独立性,但未详细探讨该因子与其他机器学习模型因子的组合表现;
  • 估值与交易成本未计

- 模型回测未充分说明交易成本影响,特别是在高频或多调仓策略中,可能侵蚀收益;
  • 透明度和可复制性

- 模型结构展示简略,未披露具体超参数设置、训练时长或硬件条件,研究复现难度较大;
  • 综合而言,报告为一创新量化框架的有益探索,但投资应用需充分结合市场实际和风险管理。


---

七、结论性综合



本报告由广发金融工程团队原创,创新地将可见性图(Visibility Graph)的图论时序映射与卷积神经网络(CNN)相结合,提出了基于Visibility Graph-CNN的高效股价预测模型,模型极大地降低了输入数据的维数和冗余性,减少了过拟合风险。研究分别基于20日、60日价量数据构建两个模型,并通过2020至2023年的大规模历史回测,取得了显著的多头组合正收益及超额年化收益,并在沪深300、中证500、中证1000、创业板等多个子市场均展现了良好的因子分层表现和稳健的RankIC指标,显示出较强的样本外预测能力和适用性。

具体来说,模型利用可见性图的仿射不变性和表示稀疏图结构的二元矩阵作为CNN低维输入,有效提取了时间序列价格成交量的形态特征,利于预测未来股价走势。回测结果显示,两种时段的模型(20日和60日)收益接近,但60日模型在创业板板块表现尤为优异,最高涨幅年化达11.79%。模型因子与传统风格因子相关性低,代表新颖且拥挤度低的选股信号。

图表解读清晰展示了模型在不同市场的分档收益强烈递减、多头组合累计收益稳步上涨、RankIC正向累积增长,强烈支持模型有效性。模型训练细节、参数设定及风险提示增强了研究的科学严谨性。本报告虽未涵盖传统估值方法,但从量化策略角度提供了一套高效且可复制的股票选择框架。

总体而言,报告主张并验证了基于图结构与深度学习融合的创新量化方法,能够为投资者提供高信噪比的股票预测信号;同时强调了策略在市场环境和政策变革下的潜在失效风险,体现出审慎与务实态度。此模型为金融工程领域结合图论与机器学习的成功典范,值得关注与推广。

---

附:关键图表Markdown格式展示


  • 图1 可见性图构建示意图


  • 图2 可见性图的仿射不变性


  • 图3 Visibility Graph-CNN模型结构图


  • 图4-15 因子分档表现图(示例图4与图5)



  • 图16-31 因子累计收益率与RankIC表现图(示例图16与图17)




-----

全文溯源引用页码:[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]

---

总体评价:



该研究形成了基于图论与深度学习结合的新型高效股价预测架构,理论基础坚实,实证表现稳健,创新且适用。其将复杂价量时间序列转化为图结构再由专门设计的轻量CNN训练与预测的策略具有较强推广价值。报告清晰、系统,且图文丰富,风险提示明确,体现了广发金融工程团队严谨的研究态度与创新能力,值得金融量化领域重点关注和后续深化研究。[page::0-14]

报告