`

基于 Visibility Graph-CNN 创新架构的高效股价预测模型

创建于 更新于

摘要

本报告提出基于可见性图与卷积神经网络融合的Visibility Graph-CNN架构,通过将时间序列价量数据转换为低维度二值矩阵作为输入,设计低参数复杂度卷积网络进行股价未来走势预测。采用历史20日和60日数据训练两个模型,预测未来20个交易日的股价上涨概率,构建分档投资组合。样本外回测显示,20日和60日模型在全市场及细分板块均表现稳健,20日模型多头年化收益率达10.35%,超额市场收益9.57%,且因子与传统风格因子相关性低,展现较好的泛化与分层选股能力 [page::0][page::4][page::5][page::6][page::7][page::11][page::19]

速读内容


可见性图(Visibility Graph)技术简介 [page::4][page::5]


  • 可见性图通过柱状图相互间“可见性”判定转换为二值矩阵表示时间序列的结构特征。

- 该方法具有仿射不变性,能捕捉形态相似性,提升时序特征提取质量。

Visibility Graph-CNN模型架构与训练细节 [page::5][page::6]


  • 输入为6组(开盘价、最高价、最低价、收盘价、成交量、成交额)价量数据对应的可见性图低维整数矩阵。

- 设计4层卷积层+全连接+SoftMax结构,输出跌、平、涨3类别概率,用涨的概率构建选股因子。
  • 训练使用Xavier参数初始化,Adam优化器,学习率1e-5,Batch Size512,使用提前停止防止过拟合。


因子分档表现与市场覆盖 [page::7][page::8]


  • 20日和60日模型因子在全市场及主要指数板块展现单调递减的分档收益,Q1档多头明显优于Q10档空头。

- 多档收益分布证明因子具备较强分层选股能力,尤其在中证500、中证1000、创业板均取得阶段性超额收益。

20日模型因子与传统风格因子相关性分析 [page::9]


| 风格因子名称 | 相关性 | 风格因子名称 | 相关性 |
|---------------|----------|--------------|---------|
| 最高点距离 | 0.2387 | ROE增长率 | 0.0031 |
| 六个月股价反转| -0.1190 | 换手率 | -0.1549 |
| 三个月股价反转| -0.1867 | 容量比 | -0.2238 |
| 一个月股价反转| -0.3007 | | |
  • 与多数传统风格因子的相关性绝对值均低于0.1,表明20日因子具有创新性和低拥挤度。


60日模型因子与传统风格因子相关性分析 [page::10]


| 风格因子名称 | 相关性 | 风格因子名称 | 相关性 |
|---------------|----------|--------------|---------|
| 最高点距离 | 0.1929 | 流通市值 | 0.1282 |
| 六个月股价反转| -0.1194 | 换手率 | -0.2298 |
| 三个月股价反转| -0.2320 | 一个股价反转 | -0.2756 |
  • 60日模型因子亦呈现与传统风格因子低相关性,支持因子的独立性与多样化。


收益表现详解:20日模型全市场回测结果 [page::11]



  • 2020-2023年Q1多头年化收益率为10.35%,最大回撤17.85%,Sharpe比率0.6。

- 多空组合年化收益16.67%,大幅超越中证全指,信息比率和收益回撤比均表现优良。

20日模型细分板块收益表现 [page::12][page::13][page::14]

  • 中证500年化收益率6.41%,超额4.33%;中证1000年化收益7.56%,超额4.06%;创业板年化收益8.79%。

- 各板块均显示稳定的因子RankIC和累计收益曲线,表明模型在不同市值及成长性标的中有效。

60日模型收益表现及细分板块表现 [page::15][page::16][page::17][page::18]


  • 全市场Q1多头年化收益10.24%,最大回撤19.51%,表现与20日模型相近。

- 中证500、中证1000、创业板分别取得4.83%、6.08%、11.79%年化收益,创业板表现尤为突出。

模型优势及风险提示 [page::19]

  • 该模型低维稀疏输入减少训练复杂度及过拟合,且结合CNN深度提取时序形态特征。

- 因子与传统风格因子弱相关,具有较好差异化。
  • 报告同时提醒模型存在因市场政策、环境变动导致失效风险,投资需谨慎。


深度阅读

报告详尽分析报告:《基于 Visibility Graph-CNN 创新架构的高效股价预测模型》



---

一、元数据与概览


  • 报告标题:《基于 Visibility Graph-CNN 创新架构的高效股价预测模型》

- 发布机构:广发证券发展研究中心
  • 撰写团队:包括罗军、安宁宁、史庆盛、张超、陈原文、李豪、周飞鹏、张钰东、季燕妮等资深及首席分析师

- 发布日期及范围:以2020年至2023年为主要样本外回测期,训练数据覆盖至2016年。
  • 研究主题:股票价格的预测,尤其是基于深度学习技术中融合“可见性图(Visibility Graph)”与卷积神经网络(CNN)的创新股价预测模型。


核心论点与主要信息

报告提出并实证了一种结合了图论前沿技术“可见性图”与卷积神经网络的混合模型框架(Visibility Graph-CNN),用于高效提取股票时间序列数据(价量数据)的特征,以提升股价未来走势预测的准确性与泛化能力。报告指出该模型通过对20日和60日历史数据分别建模并预测未来20个交易日走势,结合因子分档形成多空组合,整体表现优于市场基准指数,尤其在创业板及中证1000板块展示出较高的年化收益率和正向信息系数(RankIC)。通过多维度实证检验表明该模型即使在市场结构变化期间依然具备较高的稳定性和预测能力[page::0,4,5,6,11,19]。

---

二、逐节深度解读



1. 报告摘要


  • 介绍可见性图将时间序列转换为二维二维整型矩阵(0/1)以提取形态信息,减少数据冗余及过拟合。

- 结合卷积神经网络(CNN)设计专门的低参数网络,实现高效特征抽象和股价预测。
  • 采用20日和60日价格-交易量数据,预测未来20个交易日个股的股价涨幅概率。

- 根据预测概率分成10档,构建多空投资组合,回测结果较中证全指有明显超额收益,尤其细分市场如创业板和中证1000表现突出。
  • 风险提示强调策略基于历史数据,策略可能因市场环境和政策变化失效[page::0]。


2. Visibility Graph-CNN股价预测模型



(一)可见性图(Visibility Graph)


  • 通过图1示意,明晰了可见性图构造逻辑:时间序列柱状图中两点顶部连线是否穿过中间柱状决定是否“可见”。

- 转换结果为二维矩阵,元素为0或1,能够抽象时间序列中结构信息。
  • 其关键优势为:有效降低数据维度和冗余,减少神经网络过拟合,提升泛化能力。

- 另提及该图具有仿射变换不变性(图2),即时间序列的平移、缩放等不影响得到的可见性图,有助于识别不同位置但形态类似的走势[page::4,5]。

(二)可见性图与卷积神经网络


  • 本模型利用可见性图对6组价量指标(开盘价、最高价、最低价、收盘价、交易量、交易额)进行20日和60日数据特征提取,形成 $6 \times 20 \times 20$ 或 $6 \times 60 \times 60$的整型特征矩阵。

- 设计了参数量小、深度适中的四层卷积神经网络结构(图3),结合全连接层和SoftMax输出三个百分位的涨跌概率等级(跌、平、涨)。
  • 训练细节采用Xavier初始化、Adam优化器,学习率$1 \times 10^{-5}$,批量512,使用早停机制防止过拟合。

- 通过概率预测输出上涨概率作为投资因子以指导股票选取和建仓,构建未来20日涨幅的预测模型[page::5,6]。

3. 实证分析



(一)数据说明


  • 研究覆盖主要A股市场指数成份股,含沪深300、中证500/800/1000及创业板。

- 股票数据清洗包括剔除退市、ST股票、涨跌停、流动性过低及上市不足60日等情况。
  • 训练集覆盖2005年1月到2016年12月,验证集到2019年11月止,回测期2020年至2023年。

- 选股逻辑为根据未来上涨概率排序分为十档,信号每20个交易日调整一次。
  • 数据来源于Wind和天软科技[page::6]。


(二)因子分档表现


  • 20日和60日两模型因子在全市场、各指数板块均呈现分档收益单调递减趋势,Q1(最强多头)整体收益显著领先其他档位。

- 各板块(沪深300、中证500、中证800、中证1000、创业板)均体现因子良好的分层能力,显示有效捕捉股票未来涨跌概率的能力。
  • 细节见图4至图15,显示分档平均收益率趋势和部分微弱异动,整体维持清晰分层界限[page::7,8]。


(三)20日模型与常见风格因子的相关性


  • 结果显示除了与“最高点距离”“六个月股价反转”“换手率”等具备中度相关外,整体与大多数常见风格因子相关性低(绝对值<0.1)。

- 表示该因子捕获的特征新颖,拥挤度低,具有一定独立性和补充价值,增加模型的多样性和风险分散效用[page::9]。

(四)60日模型与常见风格因子的相关性


  • 与20日模型类似,60日模型因子与主要传统风格因子相关性较低,但相关性略有提升,尤其与流通市值和最高点距离相关性稍高。

- 依然体现模型因子新颖且具一定独立性,但60日模型的因子可能更擅长捕捉某些市场阶段的风格特征[page::10]。

(五)至(十二)模型因子具体表现(全市场及核心细分板块)


  • 全市场(图16、17和表3、7)

- 20日模型Q1头寸年化收益10.35%,超额全指9.57%,最大回撤17.85%,信息比率0.79,表现稳健;
- 60日模型Q1头寸年化收益10.24%,超额9.61%,最大回撤19.51%,稍逊于20日模型;
- 两者Q1-Q10多空组合均显著优于中证全指,表现出色;
  • 中证500、中证1000、创业板(对应表4-6及8-10,图18-23,26-31)

- 20日模型多头年化收益分别为6.41%、7.56%、8.79%,均较对应指数显著超额;
- 60日模型多头年化收益分别为4.83%、6.08%、11.79%;
- 创业板收益尤其突出,60日模型甚至达到近12%,显示模型对成长型资产相对优势;
- RankIC值稳定为正,累积趋势向好,验证了因子的有效性和持久性;
  • 标准偏差、最大回撤率和夏普比率也均反映模型较好的风险控制能力[page::11-18]。


4. 总结


  • 本报告对Visibility Graph-CNN模型的介绍全面细致;

- 通过回测验证了模型在多个主流板块的超额收益能力和较好的风险调整表现;
  • 20日和60日模型表现相仿,实际应用可根据需求选择;

- 因子与传统风格因子的低相关性增强了选股策略的多样和抗风险能力;
  • 风险提示明确指出模型依赖历史数据的限制,尤其市场结构及政策环境变化可能带来表现风险[page::19]。


---

三、图表深度解读



图1 可见性图构建示意图(page:4)


  • 显示利用柱状图以上部连线的“可见”或“不可见”关系,形成图论结构。

- 蓝色线表示“可见”,红色“不可见”,下方转换为节点空间的边连接。
  • 该图解释了Visibility Graph算法的核心逻辑,是时间序列数据向二维0/1矩阵转化的基础。


图2 可见性图的仿射不变性(page:5)


  • 展示时间序列经过时间位移(图b)、缩放(图c,d)、其他仿射变换(图e)后,可见性图保持不变。

- 该性质保证模型能够识别不同时间段相似形态走势,不受尺度和位移影响,增强模型稳健性。

图3 Visibility Graph-CNN模型结构图(page:6)


  • 右侧表示用可见性图依次作为输入特征矩阵。

- 包含卷积层、池化层、全连接层和SoftMax输出。
  • 输入为6个价量指标构建的图序列,输出涨/平/跌三类概率。


图4-15 因子分档表现(pages:7-8)


  • 各图均展示因子按照预测涨幅概率分为十档时,各档收益的条形图。

- 20日与60日模型二者均表现出从Q1档(最强多头)到Q10档(最强空头)收益逐步下滑的趋势,符合预期的分层能力。
  • 细分板块均呈类似分布,说明模型适用不同市场环境。

- 需注意部分板块尤其沪深300在低档中存在负收益,更体现模型优异选股能力。

表1-2 模型因子与常见风格相关性(pages:9-10)


  • 表格详细列举与数十种传统财务及股价风格因子相关系数。

- 大部分系数绝对值明显低于0.1,反映新颖且拥挤度低。
  • 相关度较高的因子多为股价反转、换手率等短期动量相关指标,提示模型部分捕获市场短期波动信息。


图16-31及表3-10 各模型具体表现(pages:11-18)


  • 图16、24、18、26、20、28、22、30展示不同脚本下20日/60日模型的因子累计收益走势。

- 图17、25、19、27、21、29、23、31为对应RankIC曲线,均正向累计上升,说明因子具有一致性预测能力。
  • 表格详细披露年化收益率、最大回撤率、波动率、信息比率、夏普比率指标,均优于对应指数。

- 创业板60日模型表现最优,年化收益达12%以上,最大回撤控制较好。
  • 风险调整收益指标(如信息比率、夏普比率)均表现稳健,验证模型风险收益较优[page::7-18]。


---

四、估值分析


  • 本报告重点在于模型架构与预测能力分析,无传统意义上公司的估值部分。

- 模型输出为未来股价上涨概率,作为选股因子服从概率分布,无直接估值,而是量化因子层面运用。
  • 使用RankIC、回测收益率、信息比率等评价指标衡量“隐含价值”表现,体现投资组合绩效,而非贴现现金流或市盈率估值方法。


---

五、风险因素评估


  • 报告明确指出模型基于历史数据的统计与建模,面临市场政策变化风险,可能导致模型规律失效。

- 市场结构及交易行为的改变或产生策略失效风险,如市场流动性骤变或交易规则变化。
  • 量化模型间可能存在观点和结果差异,提示投资者需多元视角综合评估。

- 无详细的缓解措施,但提示投资者关注市场环境演变,保持模型动态调整的重要性[page::0,19]。

---

六、批判性视角与细微差别


  • 数据依赖与风险容忍:尽管报告采用了较长时间跨度的数据,但股价预测本质上受噪声影响较大。模型预测未来20交易日涨跌概率,仍存在未来极端行情无法预判的风险。

- 模型复杂度与过拟合控制:报告强调通过低维度整型矩阵和少参数CNN减少过拟合,然而极端市场可能仍存在预测偏差,报告未披露更细粒度的模型监控结果。
  • 指标解释与外部关联:模型因子绝大多数与传统风格因子相关性低,显示创新性,但这是否带来额外风险或识别偏差,报告未深入探讨。

- 回测表现波动:回测期间尤其2022年表现有较明显负收益,提示模型适应某些宏观或行业环境有限,风险管理需加强。
  • 没有具体的实时交易成本、冲击成本模拟,实际应用中可能滑点、手续费影响收益,未来应补充。

-
可见性图虽具有仿射变换不变性,但对极端行情及结构性跳变的敏感性未详细验证,略显不足。

---

七、结论性综合



本报告系统地提出并实现了基于“可见性图-卷积神经网络(Visibility Graph-CNN)”的创新股价预测模型框架。通过将时间序列转换为图结构矩阵,成功降低数据冗余与过拟合风险,并利用设计合理的CNN架构提取深层价量特征。基于历史20日和60日价量数据的两类模型均表现出较稳定的预测能力,在2020年至2023年回测期间,相较主要市场指数均实现显著超额收益,特别是在创业板和中证1000等细分市场表现尤为优异。

因子与主流财务及风格因子相关度低,新颖且拥挤度低,增强了策略的多样化和抗风险能力。模型在各大板块均体现出良好的分档选股能力,RankIC值为正且呈累积趋势上升,表明模型具备一致的预测力。

报告重视风险提示,指出模型面临政策、市场环境变化带来的潜在失效风险,强调需动态调适与风险控制。虽然报告未涉及传统的估值方法,但通过回测收益、信息比率等金融指标充分验证了模型的实用价值与投资潜力。

图表支持方面:
  • 图1、2清晰展示了可见性图的构造理念及其不变形态的特性,为打法创新性埋下理论基础;

- 图3形象描述了CNN模型结构,帮助理解其如何从图结构特征映射到涨跌概率;
  • 图4-15的分档条形图表现显示因子的分层回报效果,验证了方法有效性;

- 图16-31的累计收益及RankIC曲线反映模型的持续预测能力和相对收益优势;
  • 表1、2揭示因子新颖性,相关性较低,增强模型独特性及组合多样性;

- 表3-10详细回测统计全面阐述年化绩效及风险指标,展示模型稳健性。

综上,该研究成果为量化投资领域引入了基于复杂网络的表征学习思路,结合深度学习提供了一条提升股价走势预测精度的新路径。其严谨的实证验证与广泛的市场应用测试,表明模型在未来策略构建及智能投研方面具有广阔的应用前景。

---

参考来源:本文所有结论及数据均来源于广发证券发展研究中心报告正文第0-19页内容及相关附图[page::0-19]。

报告