`

江海潮涌,星辰引航:量化因子掘金系列(二)— 应用神经网络 AlphaNetV3 构建的可转债因子

创建于 更新于

摘要

本报告围绕深度学习模型AlphaNetV3在可转债领域的应用,构建了可转债选债因子,经过优化的网络架构及超参数调整后,分组回测显示第三组因子表现最佳,收益率和超额收益均显著优于基准,且因子稳定性和相关性较好,适合在震荡牛市中使用。模型采用GRU结构保留时序信息,引入ReLU激活和批量归一化优化训练效果,整体模型在样本外测试中表现良好,具有较强预测能力。但因子解释性较弱,且模型对2024年转债表现较弱存在局限[page::0][page::2][page::4][page::8][page::16][page::17][page::19][page::20][page::3][page::5][page::9][page::13][page::15].

速读内容


深度学习模型AlphaNetV3及其改进 [page::2][page::3][page::4]

  • AlphaNetV3基于改进的AlphaNet结构,采用双步进特征提取层结合GRU池化层,保留特征时序信息。

- 模型引入比率类特征增强学习能力,适应可转债资产特性,进行迁移学习和超参数调优。
  • 输入层采样数据经过批量归一化和ReLU激活,全连接层线性合成最终输出。


模型设计与训练机制 [page::5][page::6][page::7][page::9][page::10][page::11][page::13][page::15]

  • 采用GRU门控单元解决梯度消失问题,细节包括重置门及更新门的门控机制及激活函数原理。

- ReLU激活函数用于隐藏层,提升非线性表达能力并缓解梯度消失,结合批量归一化稳定训练。
  • 权重及偏置采用Xavier均匀初始化和正态分布,优化器选择RMSprop,学习率1e-4,动量0.9。

- 训练时防止梯度累积,每轮训练前调用optimizer.zero_grad()清零梯度。
  • 训练集为2018.1.1-2021.10.31,测试集2021.11-12,样本外回测2022.1-2024.7,迭代10次,批次为10000。


因子构建与样本池设定 [page::4][page::5]

  • 样本选取剩余期限超120天的可转债,剔除正股近期出现ST或退市数据。

- 特征池包含开盘价、收盘价、最低价、最高价、交易量、转股溢价率、涨幅以及多个比率指标。
  • 采用滑动窗口30日数据按日预测下一日收益。


样本外回测表现及因子评价 [page::16][page::17][page::18][page::19][page::20]



| 组别 | 收益率 | 超额收益率 | 年化收益率 | 年化超额 | 贝塔 | 阿尔法 | 夏普 | 胜率 | 日胜率 | 盈亏比 | 最大回撤 |
|-----|--------|------------|------------|----------|-------|--------|--------|--------|--------|--------|----------|
| 3 | 8.5% | 19.9% | 3.3% | 8.0% | 1.36 | 0.11 | 0.02 | 52.3% | 53.1% | 1.04 | 14.2% |
| 基准 | -11.5% | — | -4.7% | — | 1.00 | — | -0.96 | 50.7% | — | 0.90 | 15.3% |
  • 分组因子价值与收益相关性良好,IC为0.1,IR为0.75,显示预测能力出色且稳定。

- 基准中证转债相比,全因子组贝塔均>1,构造组合更具市场系统性风险,偏进攻性。
  • 2022-2024年间组3始终表现最好,适合波动较大市场环境。2024年因转债市场调整影响表现。


因子应用限制及未来展望 [page::20]

  • 深度学习模型解释性不足,未涉基本面及分类特征。

- 模型表现存在随机性,训练种子变动导致结果差异。
  • 未来可结合多因子策略提升组合稳定性。


深度阅读

金融工程研究报告:《江海潮涌,星辰引航:量化因子掘金系列(二)— 应用神经网络 AlphaNetV3 构建的可转债因子》详尽剖析



---

一、元数据与概览


  • 报告标题:《江海潮涌,星辰引航:量化因子掘金系列(二)— 应用神经网络 AlphaNetV3 构建的可转债因子》

- 分析师:刘晓杰(执业证书编号:S1410523120001),梁俊炜(执业证书编号:S1410124020010)
  • 发布机构:江海证券研究发展部

- 发布日期:2024年7月11日,该报告为量化投资组合管理研究系列中的第二篇,针对可转债市场因子构建和测试。
  • 研究主题:基于深度学习模型 AlphaNetV3,研究可转债领域的量价因子构建和性能表现。


核心论点及目标:本报告致力于通过神经网络模型 AlphaNetV3 优化、迁移学习,建立针对可转债的量价因子。通过样本外回测验证因子表现,并对模型架构与特征选择进行细致论述。同时指出模型的局限性和风险,提供投资者一个量化因子多维度评估框架。组合回测结果体现优异的超额收益和相对稳健的风险指标,为可转债投资提供了量化决策支持。[page::0]

---

二、逐节深度解读



1. 研究背景与模型发展(第1章)


  • 关键点总结

- AlphaNetV3 在此前版本(V1)基础上改进,加入比率类特征,替换池化层为 GRU 保留时序特征,提升模型泛化和预测能力。
- 可转债融合权益与固收特性,关联性强,模型需适应特殊资产属性。
- 依托开源框架 PyTorch 进行复现优化。
  • 推理依据

- 引入时序网络GRU,克服早期池化导致时序信息丢失的不足。
- 增加多类型特征,丰富模型输入,提高对市场异质性的捕捉。
  • 相关数据/事实

- 对可转债剩余期限、正股状态严格筛选,确保样本数据有效,且在训练集删除包含缺失值(NA/Inf)的数据。
  • 解释与链接

AlphaNetV3 模型在卷积神经网络(CNN)和递归神经网络(RNN)之间融合创新,采用了双特征提取层和门控循环单元(GRU)替代池化层,较好地适应了可转债价格的时序变动和复杂关联。[page::2][page::3]

2. 模型架构与训练(第2章)


  • 模型架构

- 四层结构:输入层(采样分批),特征提取层(7函数生成二维特征矩阵),池化层(GRU保留时序,ReLU激活),全连接层(线性合成输出)
- 输入特征涵盖价格、成交量及比率类变量,针对转债特性调整特征池。
  • GRU机制详解

- 与传统RNN不同,GRU通过更新门与重置门控制隐状态信息的遗忘与保留,解决梯度消失和长期依赖问题。
- 激活函数使用 sigmoid 和 tanh,赋予节点非线性表达能力,输入输出均映射至合适区间。
  • 激活函数优化

- 抛弃V3中的线性函数,采用ReLU激活,优点为非线性、稀疏激活、缓解梯度消失。但需注意ReLU的“神经元死亡”现象。
  • 权重初始化与优化

- Xavier 均匀分布初始化参数,结合正态分布偏置初始化,有效支持深度网络训练,减少梯度消失或爆炸。
- 使用 RMSprop 优化器,支持自适应学习率和动量,搭配L2正则化权重衰减控制过拟合。
  • 训练设计

- 训练集时间跨度2018年1月至2021年10月,测试集2021年11月至12月,样本外2022年到2024年7月15日。
- 迭代次数10次,批次大小10000,窗口期30天,日调仓预测。
  • 损失函数

- 采用均方误差(MSE)作为回归目标,方便反向传播梯度计算。
  • 模型表现

- 图5显示训练和测试的拟合损失随迭代下降趋于稳定,表明模型收敛良好。

模型设计全面考量时间序列特性,激活函数带来非线性表达,GRU有效捕获长短期依赖,训练策略严密且充分保证了模型拟合能力。[page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16]

3. 因子评价(第4章)


  • 回测设计

- 采用分组回测方法,将因子根据预测值排序分成十组(组1因子值最高),构造多头均仓组合,不考虑交易成本,每日调仓。
  • 表现概述(图6)

- 净值曲线明显分化,前三组表现领先基准,中间部分接近基准,后三组表现较低。
  • 具体数字(表5)

- 组3表现最佳:总体收益率8.5%,超额收益率19.9%,年化3.3%,年化超额8.0%。
- β值均高于1,表明组合对市场敏感,偏进攻型。
- 组3阿尔法最大(0.11),夏普比基准提升至0.02,表现稳健。
- 最大回撤14.2%低于基准15.3%。
- 组8、9、10出现显著负超额收益和负阿尔法。
  • 年度表现

- 组3在2022-2024年年化收益分别4.4%、8.5%、-10.1%,超额收益分别14.7%、9%、-8%。
- 最大回撤在三年间分别约为11.9%、6.2%、9.5%。
- 贝塔和阿尔法稳定,因子特性时间演变不大。
  • IC、RankIC和IR分析(表6)

- 组3在样本外IC约0.1,IR约0.75,表明因素排序和量值与日收益高度相关且稳定。
- 负向IC集中于组8、组10,反映某些分组可能存在反转效应。
  • 联系与推断

- 因子在震荡且牛市环境中表现最佳(波动率较高时更活跃)。
- 2024年表现下降或因整体转债数据量较少及市场调整等外部因素。
  • 多因子组合应用:报告建议结合其他因子,增强组合在各种市场环境的稳定性与表现。


该章节数据完整详实,清晰描绘了因子各分组的收益和风险特征,验证了研究模型在实际投资中的有效性和潜在局限。[page::17][page::18][page::19][page::20]

4. 总结与风险提示(第5章)


  • 总结

- AlphaNetV3 在可转债量价数据上的迁移学习有效,因子表现优异于中证转债指数。
- 识别模型的解释难度大,不能清楚揭示因子内部机制。
- 未引入基本面或分类特征,且结果受随机种子影响明显。
- 适合在震荡牛市中使用,贝塔较高,适合偏进攻策略。
- 结合多因子提升稳定性是未来方向。
  • 风险提示

- 模型假设、参数估计、模型构建方法等多因素可能影响预测准确性。
- 历史数据未必能准确预测未来,市场环境变化可能使模型失效。
- 信息仅供参考,不构成投资建议,需结合专业意见谨慎操作。
  • 投资评级说明与分析师声明

- 评级框架基于相对基准指数涨跌幅度进行“买入”、“增持”等分类。
- 分析师保证研究方法专业独立,薪酬无利益冲突。
  • 免责声明

- 详细述明报告信息来源、适用范围、责任限制及版权使用规范。
- 强调投资风险,停止盲目依赖量化模型预测。

报告态度谨慎,强调风险,体现专业调查精神,符合法规及行业良好规范。[page::20][page::21][page::22]

---

三、图表深度解读



图1:模型架构示意图(第4页)


  • 描述:展示了AlphaNetV3整体模型流程,包括输入层、双特征提取层(步进10、5)、GRU池化层、ReLU激活和全连接层输出。左侧输入为30天×13个特征×时间步长的矩阵,经过两层特征提取得到类似图像特征后通过GRU处理。

- 趋势与意义
- 清晰展示数据处理和层次转化,反映模型在时间序列和多变量特征提取的设计。
- 双特征提取层不同步进设计加强不同时间尺度信息捕捉能力。
  • 文本关联:对应章节对模型架构的详细描述,强调GRU层替代池化层保持时序连续性。

- 潜在局限
- 输入仅限量价类特征,无基本面。
- 模型复杂度需足够训练数据支撑,否则可能过拟合。



图2:单个GRU单元内部结构(第7页)


  • 描述:展示GRU中三大门控机制——更新门 \(zt\),重置门 \(rt\),以及候选隐藏状态 \(\tilde{h}t\) 的计算流程及组合。

- 解读
- 门控机制赋予网络记忆更新和遗忘能力,解决传统RNN长期依赖及梯度消失问题。
- 通过逐元素乘法和非线性变换激活,捕捉复杂的时间序列动态。
  • 文本联系:数学公式及概念完备支撑GRU的机制实现,提高模型的表达能力。




图3:多个GRU单元的时间序列传递(第8页)


  • 描述:展示了时间序列维度上连续GRU单元的状态传递过程,展示 \(h{t-2} \to h{t-1} \to ht \to h_{t+1}\) 的连续信息流。

- 解读
- 多个时序单元连接体现模型长期记忆能力。
- 有助减少梯度消失,提高深层网络训练效率。
  • 文本关联:体现RNN处理序列数据的特点,强化因子对连续时间段的理解。




图4:ReLU函数图像(第9页)


  • 描述:直观显示ReLU激活函数形态,负区间输出0,正区间为线性递增。

- 解读
- ReLU激活引入非线性,同时减少梯度消失,提升训练速度。
- 负区间神经元死亡风险需注意,但整体效果优于线性激活。
  • 文本联系:强调模型对激活函数的选择改善了深度学习表现。




图5:迭代次数与拟合损失变化(第16页)


  • 描述:绘制训练集和测试集上的MSE损失随迭代次数下降曲线,训练损失(浅色线),测试损失(深色线)。

- 趋势
- 迭代初,模型快速降低损失。
- 约第8次迭代后,损失趋于平稳,表明模型已经收敛。
- 测试损失低于训练损失,说明未出现过拟合,模型泛化较好。
  • 文本联系:支撑模型训练效果优异和参数设定合理。




图6:因子分组样本外净值表现(第17页)


  • 描述:展示十个因子分组从2022年1月至2024年7月的累计净值走势,中证转债指数底线比较。

- 解读
- 组3(红色粗线)表现最佳,累积回报明显优于基准。
- 组8-10表现最差,远低于基准。
- 净值曲线分化显著,验证因子对投资组合盈利能力的区分度。
  • 文本联系:视觉支持了分组回测优秀的收益率和风险指标。




---

四、估值分析



本报告侧重点为量化因子模型构建及其投资组合表现,未涉及传统估值模型(如DCF、PE、EV/EBITDA等)的具体应用,故无估值分析部分。

---

五、风险因素评估


  • 报告明确指出模型参数、构建方法及假设可能影响预测准确度。

- 历史数据局限导致模型对未来适应性不足,可能导致预测失真。
  • 可转债特殊性(如剩余期限、正股ST情况)影响模型稳定性,需剔除异常样本。

- 深度学习模型解释性弱,无法从本质解读预测因果机制。
  • 随机性带来结果间波动,同一超参数下不同随机种子表现差异显著。

- 市场环境动态变化,模型需动态调整,风险难以完全规避。
  • 投资者应结合市场实际、专业意见谨慎决策,避免机械应用模型结果。


报告在风险提示部分内容详尽,全面介绍对模型适用性和投资实践潜在风险的认知及注意事项,强调信息参考性。[page::0][page::20]

---

六、批判性视角与细微差别


  • 潜在偏见和不足

- 量价型因子虽然捕捉市场动态,但未融合多维度数据(基本面、宏观政策等),限制了因子稳健性及解释力。
- 模型训练依赖于历史样本,未来突发变量或市场结构性变化可能导致预测失灵。
- 模型超参数和结构虽然经过调优,但10次迭代较少,可能未能充分训练到极致。
- 虽有加入正则与批量归一化,但未详述防止过拟合的多重措施(如交叉验证、早停等)。
- 有必要评估模型在极端市场(熊市、流动性危机)中的表现,当前报告侧重震荡牛市。
  • 内部矛盾

- 组3在2024年收益大幅下滑,与此前年化正收益形成较大波动,说明模型稳定性仍受限。
- 报告强调因子适应多市场,但实际样本数据覆盖及产业分布不明,可能影响泛化。

整体而言,报告逻辑连贯、方法先进,但模型及结论在实盘应用时仍须保持审慎态度,结合多维数据验证,防范黑天鹅或参数敏感性风险。

---

七、结论性综合



本报告由江海证券研究发展部深度剖析了基于AlphaNetV3神经网络模型的可转债量价因子构建及其投资表现。报告系统介绍了模型从传统CNN/RNN到GRU门控机制、激活函数的优化过程,及对样本、特征池的科学筛选和模型训练流程。模型训练表现优秀,损失函数有效收敛,展现出良好的泛化能力。

样本外回测显示,组3因子组合在收益率(8.5%)、超额收益(19.9%)、阿尔法(0.11)、最大回撤(14.2%)等方面表现突出,显著优于基准中证转债指数,且因子预测质量(IC=0.1,IR=0.75)稳定。多因子组合建议明确表达了该因子在震荡牛市和高波动环境中的潜在优势。

图表具体阐释了模型结构(图1)、GRU原理(图2、3)、激活函数(图4)、训练效果(图5)以及组合净值表现(图6),支持文本论述。风险提示部分严谨指出了深度学习模型的内在局限性和实际应用风险,敦促投资者及决策者结合更多因素审慎判断。

总体来说,报告在理论与实践结合上表现突出,利用先进的深度学习手段为可转债因子挖掘提供了有价值的工具和思路。其应用价值在于提升量化投资决策的精准度和效率,但投资者需关注该模型的局限性,避免过度信赖历史数据的预测能力。

---

以上分析全面囊括报告结构、数据和图表,深入解读模型技术细节与投资回测表现,为量化投资、金融工程及资产管理相关从业者提供系统且精确的参考框架。[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22]

报告