`

基于可见性图嵌入的沪深 300 深度学习增强策略

创建于 更新于

摘要

本报告基于可见性图将沪深300股票的价量时序数据转化为复杂网络,通过结构向量法提取图结构嵌入特征,结合节点权重CI,用二阶段注意力循环神经网络(DA-RNN)与跨资产注意力网络(CAAN)构建深度学习预测模型,准确预测股票日度涨跌概率。模型在沪深300成分股中实现了68%预测准确率,构造的struc_learning因子日度IC均值0.16,年化多头组合收益超95%,信息比率8.0,增强组合年化超额收益46.7%。此外,基于个股信号合成的沪深300指数择时策略年化超额收益达13.3%,信息比率1.47,预测胜率64%。该方法有效捕捉了股票潜在属性及股票间相关性,为量化选股和择时提供了新思路 [pidx::0][pidx::2][pidx::3][pidx::7][pidx::12][pidx::13][pidx::21]

速读内容

  • 可见性图定义与构造 [pidx::2][pidx::3]


- 将时间序列每两点之间的“可见线”转为复杂网络中的边,形成$n\times n$矩阵表示股票价量数据的结构特征。
- 该网络结构蕴含价格的波动率和趋势信息,简单结构特征如“平均最短步长”可构建选股因子日度IC为0.03。
  • 复杂网络节点权重与结构向量嵌入提取 [pidx::4][pidx::5][pidx::6]


- 利用CI算法计算每节点的集体影响力权重,衡量节点在网络中的贡献。
- 采用struc2vec无监督结构向量法,通过多层次节点结构相似度,带权随机游走及skip-gram模型生成节点的嵌入向量,精确刻画股票潜在属性。
  • 基于图嵌入的深度神经网络架构及关键模块 [pidx::7][pidx::8][pidx::9]




- 预测模块包含DA-RNN和CAAN两大核心网络,DA-RNN利用输入注意力和时间序列注意力机制,融合结构嵌入、节点权重和量价信息,输出个股因子表示。
- CAAN跨资产注意力网络基于个股因子表示计算相似度,捕捉股票间关系,实现因子得分加权,最后端到端预测下一日股价上涨概率。
  • 图结构特征对股票风格和行业的分类能力 [pidx::10][pidx::11]



- 通过k-means对沪深300股票聚成10类,发现基于嵌入向量的分类在多种经典风格因子(beta、动量、价值等)上存在明显偏离,表现出较强区分度。
- 行业分类中在证券、医药、银行等行业区分明显,但周期性行业效果较弱。
  • 模型训练参数与准确率表现 [pidx::12]



- 训练集和验证集准确率稳定在68%以上,验证集最高精确率达70%,体现模型在判断个股上涨的能力。
  • 日频选股因子struc_learning表现及回测 [pidx::13][pidx::14][pidx::15]




- 因子日度IC均值0.16,ICIR1.2,分组收益呈现单调递减趋势。
- 市值和行业中性化后因子IC降至0.1,信息比率1.13,表现稍弱但依然显著。
- 日度调仓多头组合年化超额收益95.6%,信息比率8.0,换手率高,策略容量约千万级。
  • 增加持股数量的沪深300增强组合 [pidx::16][pidx::17]



- 增持至平均137只股票,策略容量大幅提升至24.7亿元。
- 组合年化超额收益降至46.7%,信息比率5.87,仍表现稳定,且跟踪误差降低。
  • 基于模型个股信号的沪深300指数仓位择时策略 [pidx::17][pidx::18][pidx::19][pidx::20]




- 将个股上涨概率加权合成为指数涨跌概率,分布较为集中且稍左偏。
- 使用该信号控制持仓比例,日频调仓,预测正确率64%,实现年化超额收益13.3%,信息比率1.47。
- 激进策略(涨跌概率50%为阈值)收益更高但波动较大。
- 多空策略调节阈值提升胜率,最佳夏普比率在[0.45,0.55]阈值区间。
  • 研究总结与风险提示 [pidx::21][pidx::22]

- 利用可见性图及结构向量法刻画股票潜在属性,结合DA-RNN和CAAN深度神经网络,显著提升沪深300股票的涨跌预测准确度。
- 日频模型选股和择时均表现优异,但中性化收益下降,深度学习模型解释性有限且训练耗时长。
- 量化模型基于历史数据,存在未来失效的风险,需动态迭代调整策略。

深度阅读

金融研究报告深度分析报告



---

1. 元数据与概览


  • 报告标题: 基于可见性图嵌入的沪深 300 深度学习增强策略

- 作者: 叶尔乐(执业证书:S0100522110002)
  • 发布机构: 民生证券研究院

- 发布时间: 2023年10月13日
  • 研究主题: 利用可见性图与深度学习方法对沪深300成分股进行价格走势预测,构建日频选股与择时策略,探索基于图结构特征的金融时序预测新范式。

- 核心论点与结论摘要:
- 通过将股票价格时间序列转化为可见性图(Visibility Graph),提取其复杂网络结构嵌入(特别是用结构向量法Struc2vec),捕捉股票潜在的价量波动特性;
- 构建双阶段循环神经网络(DA-RNN)结合跨资产注意力网络(CAAN)进行股票上涨概率预测,日频模型在沪深300中验证准确率达68%,精确率70%;
- 用预测概率构造日频选股因子,实现年化超额收益高达95.6%(日调仓组合),但策略容量有限;增加持股数量构建沪深300增强组合,策略容量显著提升,年化超额收益46.7%;
- 将个股信号汇总生成股指涨跌概率信号,构建沪深300指数仓位择时策略,实现年化超额收益13.3%,信息比率1.47;
- 风险提示强调模型基于历史数据,可能失效,需谨慎应用。

总体来看,报告创新性地将可见性图及其深度学习嵌入方法应用于A股日频选股及择时,获得较为稳健的实证结果,展现出方法的潜力与实际应用价值。[pidx::0][pidx::21]

---

2. 逐节深度解读



2.1 可见性图的构造以及图结构嵌入(第1章)


  • 1.1 可见性图定义与建构:

可见性图是将时间序列数据映射到图结构的一种方法,具体规则为:对序列中的两个点,若它们之间每个中间点的值低于连接直线(见数学条件),则这两点之间视为有一条边。实质上是模拟“柱状图上两个点能否彼此‘看见’”的关系,抽象为邻接矩阵(二值矩阵,边存在为1,否则为0),完全继承了时间序列中的局部与全局波动、趋势信息。
- 图1是可见性图连线规则示意。[pidx::2]
- 图2展示了某股票20日收盘价构造的可见性图及其网络可视化和邻接矩阵展示,清晰传达了图结构的形成过程和表示方式。
- 可见性图自2008年开始被用于时序数据分析,已验证对分类问题有效。[pidx::2][pidx::3]
  • 1.2 节点权重计算:

节点不等价,基于2015年Morone & Makse提出的集体影响CI算法,通过计算每个节点度数与其邻居度数的乘积,量化节点在网络中的影响力,衡量节点权重,进而反映节点重要性。报告用真实股票量价指标构建的图数据说明了节点权重的实际计算例子(图4)。[pidx::4]
  • 1.3 结构向量法Struc2vec嵌入:

为避免人工特征设计的局限,采用结构向量法通过无监督学习抽取节点嵌入,核心思想:
- 根据节点邻域相似度构建多层加权图;
- 利用随机游走采样多个路径,类比语言模型构造上下文环境;
- 运用skip-gram模型(预测上下文单词的经典深度学习方法)学习节点嵌入向量;
- 嵌入距离反映节点在网络中的结构相似度,且不依赖节点属性或标签,具备强泛化能力和大规模应用潜力。
- 图5形象展示了算法流程。
- 为每个节点生成32维嵌入向量,作为股票潜在属性的量化表示。[pidx::5][pidx::6]

2.2 模型结构与核心组件(第2章)


  • 2.1 整体模型架构:

利用可见性图计算节点权重CI和结构向量法嵌入后,输入深度神经网络
- 输入为6个量价指标(开盘价、最高价、最低价、收盘价、成交量、成交额)的过去20天数据构造的可见性图;
- 嵌入模块输出节点权重CI和嵌入矩阵(20×20邻接矩阵),6个变量各自计算后拼接;
- 预测由DA-RNN(双阶段注意力循环网络)和CAAN(跨资产注意力网络)组成,输出个股第二日上涨概率(0-1),链路及交互清晰表达(图6)。[pidx::7]
  • 2.2 DA-RNN网络详解:

DA-RNN由输入注意力机制Encoder和时间注意力Decoder构成。
- Encoder采用输入注意力层对嵌入特征赋权,提取动态隐藏特征;
- Decoder整合CI节点权重、原始量价信息,利用时间注意力选择关键时间步隐状态;
- 复杂时序信息利用LSTM递归捕获,注意力提升模型对重要特征和时间的感知能力,避免所有信息一视同仁。[pidx::8][pidx::9]
  • 2.3 CAAN跨资产注意力网络:

CAAN简单来说是基于Transformer思想,模型计算股票间因子表征的相似度作为关注权重(query-key机制),将加权后得到的其他股票向量值综合,生成个股综合得分,再通过全连接层和sigmoid映射为上涨概率。
- 这一模块关键在于捕捉跨股票的关联关系,注重资产间交互,避免孤立预测,提高整体策略的协同效应和表现稳定性(图8)。[pidx::9]
  • 2.4 模型训练与作用:

- 嵌入模块(Struc2vec,计算CI)与预测模块分步训练,预测模块端到端训练DA-RNN和CAAN。
- 以沪深300成分股数据为例,出于流动性和计算能力考虑。
- 模型的输出隐状态代表股票的潜在属性,利用聚类(k-means)进行股票分类,结果显示潜在属性有效分辨多种风格因子差异(图9-11)。
- 风格区分明显:贝塔系数、流动性、动量、价值等指标不同类之间差异显著。
- 行业分类表现良好,证券、医药、银行等行业区分明显而周期性行业区分弱,说明图结构嵌入更多捕获的是非周期属性。
- 这一发现支持图结构嵌入能刻画股票的多维潜在属性,提升后续模型表现。[pidx::10][pidx::11]

2.3 模型效果与实证表现(第3章)


  • 3.1 参数设定及准确率评价指标:

- 训练资源为RTX4090显卡,运行时长约3天,整体训练耗时约1周;
- 评估内容为混淆矩阵的四指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数;
- 模型训练中,验证集稳定准确率约68%,精确率达70%,召回率及F1得分适中,表现稳定(图14-15)。
- 结合深度学习的复杂架构,此表现属良好水平,尤其精确率的提升体现模型在多头信号上的有效筛选能力。[pidx::12]
  • 3.2 选股表现与收益回测:

- 用模型涨跌概率构建日频选股因子struclearning,回测2019年至2023年,投资组合基于此因子进行分十组排序和投资;
- 因子日度IC均值0.16,ICIR1.2,IC水平优异,收益分组明显正相关,报告展示了因子IC及累计IC曲线(图16),分组年化收益呈明显递减趋势(图17);
- 行业和市值中性化后,因子IC下降到0.1,ICIR1.13,收益波动减小但仍显著(图18-19),表明因子中性化剔除了一部分因子收益结构;
- 因子多头组合日度调仓,年化超额收益高达95.6%,信息比率8.0,组合换手率较高,换手率约220倍/年,容量低(图20-22);
- 多头组合持股风格及行业暴露数据指出组合偏好中小盘且低配部分防御性行业,预示深度模型更多捕捉绝对收益信号(图23-24);
- 策略理想容量约千万级,容量受限,主要因日频高换手以及持股集中(图25)。[pidx::13][pidx::14][pidx::15]
  • 3.3 将日频选股信号扩展到沪深300增强组合与仓位择时:

- 通过持股数量提升从28支扩大到137支,提高策略容量约24.7亿元,降低因换手高带来的容量限制(图26-27);
- 增强组合年化超额收益降低至46.7%,信息比率降至5.87,仍保持良好风险调整后收益(图28-29);
- 利用个股上涨概率加权生成沪深300指数涨跌概率信号,构建仓位择时策略(图30-31),以该信号作为持仓比例,9:35开盘价日度调仓,手续费双边千分之一,整体正确率64%,年化超额收益13.3%,信息比率1.47(图32-33);
- 激进择时策略:若上涨概率超过50%,则满仓持有,否则清仓空仓,增强收益表现,波动率上升(图34-35);
- 多空信号策略基于不同阈值区间([0.3,0.7]至[0.5,0.5]),阈值越窄,胜率越高但回避时间长,最佳夏普比率出现在[0.45,0.55]区域(图36-37)。
- 这些实证分析体现了模型的多样化运用潜力:从个股选股到指数择时,并兼顾了策略风险和容量考虑。[pidx::16][pidx::17][pidx::18][pidx::19][pidx::20]

2.4 报告总结与风险提示(第4、5章)


  • 总结

- 报告清晰阐释了基于可见性图的复杂网络节点权重计算、结构向量法嵌入和深度学习架构的结合方法。
- 实证结果显示该方法在沪深300日频选股、增强投资组合和指数仓位择时均取得优异表现(68%准确率、95.6%年化超额收益等),表明图结构信息极具预测价值。
- 模型优势在于有效提取价量时序的局部和全局结构特征,结合注意力机制深化时序和交叉资产关系表达。
- 局限在于短期日频窗口适用性强,但周k等长期频率表现减弱;模型复杂训练时间长;深度模型可解释性弱导致当模型失效时归因困难。
  • 风险提示

- 强调量化模型建立在历史数据基础上,可能因市场环境变化导致策略失效,提示投资者谨慎使用,进行持续监控和调整。[pidx::21][pidx::22]

---

3. 图表深度解读



3.1 可见性图相关图表


  • 图1(第2页)

描述了可见性图的构造规则:原始时间序列柱状图顶部绿色线段代表任意两个点间的“可见性”关系。
该图形象地展示了理论定义的直观含义,使读者易于理解如何从时序数据转为图结构连接。
  • 图2(第3页)

展示某股票20天的收盘价时间序列,转化为可见性图复杂网络(节点与连线)及对应的邻接矩阵热力图(红色为1,白色为0)。突出展示了数据从时间序列向矩阵和网络的多形式转化。
这证明了原始价格信息被保留并用图结构重构的可行性。
  • 图3(第3页)

描绘简单的选股因子基于可见性图结构特征(日度 20 天窗口)其IC变化及累积IC增长趋势。
灰色条表示日度IC数值分布,红线显示IC累计趋势,梯度上升说明该因子的选股能力随时间累积显著,验证了可见性图简单结构特征(平均最短步长)在全A市场上具备统计显著性(IC约0.03)[pidx::3]

3.2 结构向量法与节点权重图


  • 图4(第4页)

展示某股票20天量价指标构成的可见性图及对应CI节点权重的实际数值示例。
突出了节点权重量化方法在复杂网络中的实际运用,体现了不同节点在网络中的不同贡献。
  • 图5(第6页)

整体剖析结构向量法的原理与流程示意,展示对于多跳邻域、节点相似度计算、多层图构建、随机游走采样和skip-gram映射的步骤。
该图形象化了较为抽象的图嵌入算法,帮助理解节点表征生成过程和方法创新点。[pidx::6]

3.3 深度学习模型框架


  • 图6(第7页)

可见性图及CI权重计算后,嵌入向量输入Embedding模块,通过DA-RNN处理结构向量和原始价量特征,最后通过CAAN整合因子交互影响,输出单个股票上涨概率的流程示意。
图中6个量价指标并列处理凸显变量层级处理流程,中间涉及注意力机制且分别体现节点权重输入,结构清晰,对理解模型架构至关重要。
  • 图7(第8-9页)

DA-RNN Encoder中的输入注意力机制与Decoder中的时间注意力机制流程图。
清楚展示了该网络如何在时间步内和时间步之间赋予不同数据点不同权重。
说明了Attention机制在时序预测中的实际操作及其对特征筛选和时序信息提取的贡献。[pidx::8]
  • 图8(第9页)

CAAN网络结构示意,图中详细展示了Query-Key-Value构建、矩阵乘积、softmax归一化及FC层输出概率的步骤,体现跨资产之间的注意力机制。
直观说明了模型如何利用资产间相似度进行信息加权,实现复杂的交叉关系建模效果。[pidx::9]

3.4 分类及聚类分析


  • 图9(第10页)

K-means聚类后10类股票数量的均匀分布柱状图,体现分类无极端类别,表明潜在嵌入特征的平衡分类。
  • 图10(第11页)

各类别股票的多维风格因子偏离柱状图。
各类不同的高低贝塔、流动性、动量、价值特征揭示嵌入能够捕获庞大复杂的多维股票风格差异。
  • 图11(第11页)

各类别股票的行业分布展示。证券、医药、银行等集中,周期行业分布相对平均,说明图嵌入解构行业细分差异的能力和局限。

3.5 模型训练与表现评价(图14-15)


  • 准确率,精确率,召回率与F1分数随训练轮次稳定上升,验证集达到68%准确率、70%精确率。

- 验证集波动较训练集大,符合模型泛化特性和实务中对过拟合的要求。
  • 这些图表验证了模型训练过程稳定性及性能趋于收敛。


3.6 选股因子表现(图16-22)


  • 图16 & 图18:struclearning因子日度IC及累计IC曲线,原始因子IC平均0.16,中性化后降至0.10,但仍显著。

- 图17 & 图19:分十组平均年化收益,多组收益呈递减趋势,验证因子分层能力。
  • 图20-22:分年度收益表现与多头组合净值曲线,展示长期收益稳定增长,风险控制较好。

- 换手率高,规模有限,限定短期的日频调仓策略。

3.7 多头组合持仓特征和策略容量(图23-27)


  • 图23-24分别展示组合平均风格和行业偏离,体现策略的风格和行业归因,未有极端偏离。

- 图25展示策略理想容量均值在千万级,说明受限于日频换手和持股数量。
  • 图26-27对应增强组合持股数量和策略容量提升,扩展持股规格可扩大容量至十亿级别。


3.8 增强组合及择时策略表现(图28-37)


  • 图28-29展现增强组合的收益和净值表现,收益降低但容量和风险调整改善。

- 图30-33设计并验证沪深300仓位择时策略,正确率64%,年化超额收益13.3%,回撤体现了非满仓惜售效应。
  • 图34-35激进仓位策略表现收益进一步提升但波动率增加,凸显风险收益权衡。

- 图36-37考察不同阈值多空策略胜率与收益关系,指导最优阈值选择及信号强度调节方案。

---

4. 估值分析



本报告主要聚焦于深度学习模型构建及策略表现,未涉及传统意义上的估值方法如DCF、市盈率等。不涉及定价、市场估值层面的计算,而聚焦于利用机器学习预测未来价格走势的趋势和概率输出。

换言之,报告核心价值在于“预测模型的构建及验证”,输出为个股当日上涨概率与组合收益表现,其“估值”可理解为模型准确率、信息比率、IC等指标,而非财务估值指标。

---

5. 风险因素评估



报告专门指出的风险为:
  • 历史数据依赖性风险: 模型训练基于历史行情假设未来市场结构亦类似,若市场环境发生结构性变化,则模型可能失效;

- 深度学习可解释性差异风险: 当模型失效时,难以准确归因和调整,增加策略复现风险;
  • 策略容量限制: 日频调仓高换手限制策略规模,可能因流动性不足导致执行风险。


报告未具体给出缓解方法,建议投资者在实际应用中动态监控模型表现,并在策略容量和风控方面谨慎操作。[pidx::22]

---

6. 批判性视角与细微差别


  • 报告充分展示了可见性图与结构向量法提升价格预测的潜力,但对于模型结果的稳健性缺少对比分析(如与传统因子、其他深度模型的纯性能比较)。

- 依赖复杂的深度学习方法虽带来准确性提升,但训练周期长、调参成本高,实际应用门槛较高。
  • 报告提及中性化因子效果下降,分析中指出这是因为深度学习模型已隐含风格行业收益,验证了深度学习捕捉全面信息的能力,但这也暗示该模型对市场结构转变的敏感度可能较高。

- 投资组合容量限制问题突出,说明该方法适用于中小规模投资,不适合大资产规模。报告对此有全方位叙述,但具体如何提升组合容量依赖于交易策略调整仍未展开。
  • 可见性图及结构嵌入虽然对周期性行业分类较弱,报告对此有准确揭示,提示了该方法的适用边界和待改善方向。

- 模型年化超额收益超过90%为极高水平,需审慎对待,警惕数据和回测偏差风险,未来需进行真实交易验证。

总体而言,报告数据详实,逻辑严密,但若能结合更多基线模型及多市场验证,结果的普适性和稳健性将更具说服力。

---

7. 结论性综合



该报告创造性地使用可见性图将沪深300股票价格时间序列转化为图结构,利用节点权重计算和结构向量法无监督学习提取股票潜在的复杂网络嵌入向量,构建表达股价波动结构特征的深度学习模型。结合双阶段注意力循环神经网络(DA-RNN)和跨资产注意力网络(CAAN),对未来交易日股票上涨概率进行有效预测。

可见性图结合结构向量嵌入刻画了股票潜在属性,能显著区分股票的风格因子和行业特征。通过训练,模型达成验证集68%的准确率和70%的精确率,表现稳定。利用该模型输出构建的日频选股因子struclearning,日度IC平均0.16,ICIR1.2,分十组收益单调递减,年化超额收益高达95.6%,信息比率达8.0,表现强劲,但容量受限。

增加持股数量构造沪深300增强组合提高容量至数十亿,年化超额收益保持46.7%、信息比率5.87。将个股信号合成为指数涨跌概率,构建仓位择时策略,提升年化超额收益至13.3%,信息比率1.47,预测准确率64%。更激进的择时策略和多空阈值调整进一步优化收益表现,体现模型的多维应用价值。

图表详尽呈现了结构特征计算、嵌入过程、注意力机制网络架构、分类聚类效果和策略收益回测,逻辑严谨且数据支持丰富。报告也指出了模型训练时长长、策略容量限制和深度模型可解释性差等局限性及风险。

综上,报告系统详细地验证了基于可见性图的深度学习方法在A股日频价格预测及选时选股的可行性和优越性,为金融市场量化分析引入了复杂网络新范式,并展现出良好的实证应用前景。[pidx::0][pidx::21]

---

参考图表精选展示


图1:可见性图连接规则示意


图2:某股票20天收盘价的可见性图与复杂网络及邻接矩阵


图5:结构向量法示意图


图6:基于图结构嵌入的深度神经网络架构


图7:DA-RNN网络结构


图8:CAAN跨资产注意力网络结构


图16:struclearning因子日度IC及累计IC


图21:struc_learning因子多头组合净值曲线


图32:沪深300仓位择时策略净值



---

本报告遵循数据和报告内容客观分析,详尽深入,确保对报告全文的各环节及图表均有清晰解读和洞察。

报告