基于风险注意力的因子挖掘模型
创建于 更新于
摘要
本文提出了基于风险注意力(Risk-Attention)的因子挖掘模型,通过结合风险因子构建查询与键矩阵,实现股票间自适应的关联关系,融合量价时序特征。模型在2018-2024年周频数据回测中表现优异,RankIC达0.106,年化超额收益40.3%,夏普比率5.23,显著优于传统GRU和拼接风险因子的MLP模型,验证了基于风险驱动的注意力机制提升股票因子预测能力的有效性[page::0][page::10][page::12][page::15]。
速读内容
研究背景与问题阐述 [page::0][page::3][page::4]
- 传统异构图神经网络基于行业、分析师覆盖、基金持仓等先验关系构建显式关联图,存在稀疏性、对称性、主观性、滞后性和类别过多等缺陷,限制了模型性能。
- 需求引入数据驱动的自适应、有向、稠密的股票关联关系表征方式,提升因子挖掘效果。
Risk-Attention模型设计与技术细节 [page::5][page::6][page::7]
- 融合了图注意力机制与基于风险因子的跨注意力结构:风险因子生成查询(Q)和键(K),行情时序数据经过GRU生成值(V),在注意力矩阵上进行加权聚合。
- 输入采用30天OHLCV行情数据,39个风险因子(含10个Barra类风险和29个行业因子)。
- 使用多层感知机(MLP)对融合后特征非线性拟合未来收益,训练采用滚动窗口,Adam优化器,早停和学习率调度机制。
回测框架及结果 [page::8][page::9][page::10][page::11]
- 样本使用中证全指成分股,周频因子打分,打分对应下周买卖收益计算。
- 测试区间2018-2024年,风险注意力模型RankIC0.106,ICIR6.30,夏普5.23,多头超额年化收益40.3%。
- 因子分组显示良好单调性,空头组年化收益-56%,多头组40%。
- 多头超额净值和分组年化收益稳步提升,体现因子有效。



模型对比分析 [page::12][page::13][page::15]
- 对比Raw GRU(仅时序特征提取)、Cat MLP(时序特征与风险因子简单拼接)和Risk-Attention。
- Risk-Attention模型净值增长显著领先,尤其2020年以来优势明显,年化超额收益超出Cat MLP近10%,超Raw GRU近20%。
- 结构有效性体现在利用风险驱动的注意力传播显著增强了因子预测能力。


注意力权重矩阵解读与市场风格观察 [page::14]
- 注意力矩阵揭示了股票间的隐含“影响”机制,市值因子体现为不同市值区间间差异性关联。
- 2024年初市场反弹期间,微盘股对大市值股的影响增强,表现为非对称的权重矩阵高亮区域,反映市场风格转变。

结论与未来展望 [page::15]
- Risk-Attention模型融合图神经网络和Transformer点积注意力机理,有效提升因子选股的预测能力和稳定性。
- 模型克服了传统显式关联图的不足,动态捕捉风险相关性和量价信息传播路径。
- 未来可拓展更丰富特征、多层堆叠结构,深化对微盘股缺失样本环境的研究。
风险提示 [page::16]
- 量化模型基于历史数据,存在失效风险。
- 极端市场环境可能造成模型表现剧烈波动。
深度阅读
金融研究报告深度分析 ——《基于风险注意力的因子挖掘模型》
---
一、元数据与概览
- 报告标题:《基于风险注意力的因子挖掘模型》
- 作者及发布机构:东方证券研究所,分析师杨怡玲、薛耕
- 发布日期:2024年5月29日
- 研究主题:该报告聚焦于股票选股的因子挖掘,基于风险因子和行情数据的量价特征,提出并验证了一个名为Risk-Attention的因子挖掘模型,融合了图注意力网络(GAT)和Transformer式的乘性注意力机制,实现了股票间风险关联的时序和空间信息挖掘,显著提升了因子的预测与收益效果。
- 核心论点与结论:
- 传统基于先验关系的异构图模型存在稀疏性、对称性、主观性、滞后性等限制,无法充分捕捉股票间真实动态关系。
- Risk-Attention模型通过对于风险因子构造的QK点积注意力矩阵实现股票间隐式、时变、方向性的连续关联权重,进而引入行情的量价特征(V)做传播和聚合,有效提升了因子表现。
- 实证证明,该模型在2018年至2024年周频数据中,RankIC达到0.106,ICIR为6.30,夏普率5.23,多头超额年化收益率达40.3%,较传统方法大幅提升,尤其在2020年后表现更为突出。
- 该成果实现了图神经网络和注意力机制的深度融合,为因子投资和量化选股提供了新思路和工具。
---
二、逐节深度解读
1. 研究引言与背景(第3页)
该部分回顾了此前报告中的异构图神经网络模型,利用行业关联、分析师覆盖和基金共同持仓构建的显式股票关系,采用图卷积网络(GCN)传播和聚合个股因子特征,取得了RankIC 0.122,多头收益20.7%的中频表现。图中展示的模型框架和过去年度绩效指标(含节点特征传播架构及收益表现)为后继研究奠定基础。
关键推理:
- 先验关系构建的邻接矩阵存在显著稀疏性,且缺乏方向性,难以准确刻画股票间影响权重。
- 先验关系高度主观,滞后于实际市场,且多关系造成模型参数庞大,训练复杂。
- 现有模型虽有效,但因内容限制只能提升有限,迫切需要改进关联方式以获得更好的因子表现。
2. 先验图缺陷详述(第3-4页)
五大主要缺陷分析:
- 稀疏性:许多股票未被分析师覆盖或基金持仓关注,造成关联网络稀疏,限制信息传播。
- 对称性:实践中,股票间影响常常非对称(大市值股票对小市值影响更大),而先验关系通常强制对称。
- 主观性:行业划分、持仓池定义等人为构造先验关系带来偏见,影响泛化。
- 滞后性:基金持仓数据披露延迟2-4个月,降低时效性和预测准确度。
- 类别众多:关系种类多带来模型参数量激增,计算和泛化负担加重。
逻辑说明:上述问题强调了迫切需求"自适应图结构"和"数据驱动的关系学习",即由模型根据实时数据动态学习关联权重,避免人工先验依赖。
3. 图与注意力机制基础(第5页)
报告详细介绍了两类注意力机制并行的图信息传播方式:
- 加性注意力 (Graph Attention Network,GAT):
- 将目标节点和源节点特征拼接经过非线性变换,计算归一化权重。
- 优点是灵活性高,但计算复杂度较大,维度较高时候较难并行。
- 乘性注意力(点积注意力,Transformer 自注意力基础):
- 通过Query(Q)和Key(K)向量点积得到权重,利用Softmax归一化。
- 具备高度并行能力和数学紧凑性,更适合大规模、深层模型。
二者均以得到的关联权重矩阵对Value(V)节点特征进行加权聚合,完成信息的图上传播和更新。
洞察:选择乘性注意力更符合高效、可解释和灵活模型设计趋势。
4. Risk-Attention模型设计(第6-7页)
模型架构独特之处:
- 输入:
- 风险特征R(39维,包括10类类Barra因子和29行业哑变量)
- 行情特征O(30天OHLCV价格量数据)
- 过程:
- 风险因子R线性投影为Q和K,构建风险因子驱动的注意力权重矩阵;
- 行情数据O经过GRU抽取时序隐藏态(H),经线性变换得到V;
- 利用风险构建的注意力权重矩阵A,计算加权聚合Z = A × V;
- 拼接自身时序隐藏态H和聚合结果Z,输入MLP拟合未来收益率。
- 训练及数据:
- 中证全指成分股,2009年-2024年样本,标签为未来第1到第11交易日收益率。
- 标准化行情和风险因子数据,样本频率为周频。
- 训练采用滚动窗口10年训练+1年验证+1年测试,每年独立训练三次取平均。
创新点:风险因子驱动的QK注意力矩阵使模型能够自适应学习股票之间的动态、隐式关联结构,弥补先验图缺陷。同时将时序行情信息有效融合。
5. 回测与测试策略说明(第8-10页)
- 回测时间:2018年1月至2024年3月
- 因子打分频率:周频,每周最后一个交易日更新
- 测试样本:中证全指成份股,未进行中性化处理
- 绩效指标:
- RankIC:因子排序与未来收益率排名的相关性,衡量预测有效性
- ICIR:IC的年化夏普比率,反映因子稳定性
- 夏普率:风险调整后的收益指标
- 多头超额年化收益率:因子多头组合相对基准的年收益超额
- 持仓逻辑:因子分组划分20组,最高分组构成多头组合,每周一以成交量加权平均价买入,周五卖出,不考虑交易成本。
此策略体现典型基于风险因子量化CTA或量化选股模型的评估方法。
6. 回测表现解读(第10-11页)
- 整体表现:
- RankIC平均为0.106,ICIR 6.30,夏普率5.23,多头超额年化收益40.3%,最大回撤仅-7.6%,显示出模型优秀的预测能力和风险控制。
- 2018年表现最好(收益52%),之后波动但整体表现稳健,2023年约34%,2024年初12.4%。
- IC时序和累积分析:IC累计稳步提升,2020年短暂下滑但恢复后达到高位,显示因子适应市场周期。
- 分组收益分析:
- 多头组Top年收益达40%,空头组Bottom年收益-56%,体现因子分组单调性良好,能有效区分优质和劣质因子打分标的。
- 超额净值趋势:多头超额净值持续上涨且回撤较小,表明组合收益的稳定性和可持续盈利特征。
7. 不同模型对比(第12-13页)
对比三种模型结构:
- Raw GRU:仅用行情时序数据通过GRU+MLP做预测
- Cat MLP:行情时序GRU提取特征与风险因子拼接后用MLP拟合(加风险因子信息)
- Risk-Attention:风险因子做QK注意力权重矩阵,行情GRU做V,在注意力图上聚合后拼接MLP拟合
结果:
- Risk-Attention净值增长远超其他两模型,2020年后优势进一步明显,年化超额收益分别领先Cat MLP近10%、Raw GRU近20%。
- 典型2024年回撤虽有发生,但幅度有限且迅速回补。
- 因子表现指标RankIC、ICIR、夏普率全面领先。
- 以上体现了Risk-Attention模型通过结构设计有效整合时序和风险空间特征,提升了因子信号质量。
8. 注意力权重矩阵解析(第14页)
对2024年前十周的注意力权重矩阵进行热力图分析,横纵坐标均为股票样本,排序按市值降序。
- 矩阵每个元素$a_{ij}$代表股票j对股票i的“隐式影响”权重,权重经过softmax归一化。
- 市值排序划分4象限:
- 右下象限:表示小市值股票影响小市值股票,2024年2月6日市场反弹后该区权重增强,反映微盘股特征向中盘溢出,有效提升因子IC。
- 左下象限:大市值股票对小市值股票的影响,反映大盘股“借鉴”小盘股行情特征进行特异度构建。
- 中上方区:小盘股对大市值股票的平滑影响,作用有限。
- 左上角:大中市值股票内部影响随时间由暗转亮,预示成长与价值风格轮动。
- 该解析结合2024年市场的深V反弹行情阐释了模型在不同市值股票间动态影响的经济意义。
9. 总结与讨论(第15页)
总结全文:
- 采用Risk-Attention模型,用风险因子QK点积注意力自动学习股票间有向隐式关系,结合GRU提取行情时序特征做V传播聚合,克服了先前先验邻接矩阵稀疏、对称、主观等缺陷。
- 训练采用滚动窗口,基于中证全指数据,模型表现优异,稳定性强,收益和夏普率远超传统先验图模型和无风险注意力结构的模型。
- 结构优势显著,特别在疫情后2020年及以后市场环境中表现突出,具备实用价值。
- 注意力权重矩阵解读揭示了模型对市场动态及风格变迁的敏锐捕捉能力。
- 研究仍有可提升空间,包括数据量扩展、更深层次模型设计及样本选择稳定性验证。
---
三、图表深度解读
1. 三模型回测超额净值对比(首页图,page 0)
图示2018年至2024年1月期间,Raw GRU、Cat MLP和Risk Attention三模型的多头超额净值走势。
- Raw GRU最为平缓,曲线最低,反映仅行情特征模型的效果较弱。
- Cat MLP略优Raw GRU,2021年以后净值涨幅明显,但增长趋势平缓。
- Risk Attention净值增长最快,线型陡峭,回撤明显少于Cat MLP,2020年后优势显著扩大,最终净值约为Raw GRU的2倍。
该图为模型性能的直观体现。
2. 前序报告异构图模型框架(page 3)
包含多种显式关联(行业、分析师覆盖、基金持仓)的GCN框架图及历年绩效表。
- 业务流程清晰:输入量价截面因子,通过多层GCN融合多重关系,输出因子值。
- 历史绩效数据表呈现模型在2015-2023年度及多指标(RankIC、ICIR、Sharpe、年化收益等),整体表现良好,最高年化收益约20.7%。
显示先验图模型的中频效果,为新模型提供对比基准。
3. 加性与乘性注意力机制图示(page 5)
展示GAT(加性注意力)与Transformer自注意力(乘性注意力)模块结构和数据维度变化。
- GAT通过拼接两节点特征后MLP计算权重,维度高,计算复杂。
- 乘性注意力通过Q、K线性变换后点积,并Softmax归一化,计算效率更高,且具有天然的相关性度量。
为后续Risk-Attention模型选择乘性注意力方法提供理论基础。
4. Risk-Attention 模型结构图(page 6)
说明风险因子生成Q、K矩阵,行情的GRU提取隐藏态生成V,通过QK权重计算加权V做图卷积的整体流程。
维度标注明确,图中区分线性、非线性变换步骤,帮助理解跨时间和跨股票的特征融合过程。
5. 大类风险因子列表(page 7)
罗列10大类类Barra因子(大小市值、流动性、价值、国企股比重、波动率、成长等)和29个行业哑变量。
每类因子都附带具体计算说明,体现风险因子的多样性和代表性。
此部分阐述了风险因子数据基础,确保模型输入的合理性。
6. 训练与回测策略说明表(pages 8-9)
两张表详细列明模型滚动训练策略,训练-验证-测试窗口划分,每年三次训练取均值,早停机制、学习率调度等超参数说明。
回测细节如因子打分频率、收益计算方法、分组测试方式内外明晰,保证实验的可重复和严谨。
7. 因子整体表现与IC时序图(page 10)
- 表格展示RankIC 0.106,ICIR 6.30,Sharpe 5.23,年化超额收益40.3%等核心指标及年度分解。
- 条形图显示IC维持正值,长周期累积IC升高,表明因子稳健有效。
- 歷史多头超额收益呈现阶段性波动但整体向上,验证策略有效。
8. 因子分组超额净值与年化收益图(page 11)
- 净值曲线颜色分级反映因子强弱,Top组净值明显优于其他组,多头空头收益差异巨大(40% vs -56%年化收益),展示卓越单调性和区分力。
9. 三模型表现对比图(page 13)
- 多头净值对比图与分组年化超额收益直方图清晰表明Risk-Attention在所有分组收益均领先。
- 表格列出三模型年度表现和总体RankIC、夏普率等指标,Risk-Attention表现最优。
10. 注意力权重矩阵热力图(page 14)
- 十个时间点对应2024年初的注意力权重矩阵,市值降序排列。
- 颜色区分不同影响强弱,明显可见市值大小影响权重分布。
- 反映恢复期中小市值到中市值影响增强,大市值内部分组影响动态变化。
此图结合现实行情走势揭示模型如何捕捉市值间复杂的风险传播路径。
---
四、估值分析
报告重点在模型开发、回测及因子表现,未涉及固定收益或权益类估值模型。估值方法聚焦于因子风险溢价的量化能力及收益表现衡量,没有传统的P/E或者DCF分析。
---
五、风险因素评估
报告明确提示两个主要风险:
- 量化模型失效风险:模型基于历史数据和统计规律,有可能因市场结构变动或行为异常而失去预测能力。
2. 市场极端环境冲击:极端行情会导致模型收益急剧波动甚至亏损。
报告未提供专门的缓解策略,但其采用滚动训练与实时验证机制部分缓解了模型失效风险,读者需密切跟踪模型动态。
---
六、批判性视角与细微差别
- 模型假设局限:
- 虽然Risk-Attention模型融合了风险因子与时序行情信息,但依赖历史数据的Transformer/GRU架构仍可能面临数据非平稳的挑战。
- 报告中训练数据较长(2009-2024),但实际是否含有完全独立的市场环境分布尚未明确。
- 参数选择与复杂度:
- 模型细节未深度讨论多头头数、调参细节是否最优,可能影响实际应用表现。
- 风险因子选用:
- 风险因子仅包含39个较为传统的指标,尚未覆盖全部可能影响股票的深层次风险。
- 交易成本未考虑:
- 回测收益未扣除交易成本,实际策略净收益可能缩水。
- 对股价流动性冲击无显式纳入:
- 风险权重虽然考虑量价信息,但未提及对大交易量冲击或流动性不足的约束。
- 图中部分结论推测带有一定假设色彩:
- 注意力矩阵区域影响力推断基于市场行情结合,模型内部机制尚有不确定性。
---
七、结论性综合
该报告创新性地提出了基于风险注意力机制的因子挖掘模型——Risk-Attention,成功解决了传统异构图基因网络在构建股票关联矩阵时的稀疏性、对称性和主观性问题。
通过将风险因子转化为乘性注意力的QK矩阵,实现了风险关联的动态、方向性和连续权重的计算,结合GRU提炼的行情时序量价特征(V),优化了个股因子的传播和聚合流程。
模型以中证全指股票为测试对象,采用系统严格的滚动训练和三次重复训练取平均策略,保障模型结果的稳定性和鲁棒性。在2018年至2024年周频数据回测中,RankIC达0.106,ICIR 6.30,夏普5.23,多头超额年化收益40.3%,表现优异,且相较于未经风险融合和无交互结构的Raw GRU与Cat MLP模型具有明显的收益优势。
此外,通过对2024年前十周的注意力权重矩阵的热力图解读,报告揭示了不同市值股票间风险特征的动态传播路径和经济内涵,展示了模型对市场风格切换和风险联动的敏感捕捉能力。
尽管回测未考虑交易成本,且模型基于一定假设及历史数据稳定性假定,报告已明确指出量化模型潜在失效风险和极端市场冲击风险,建议投资者密切跟踪。
总体而言,《基于风险注意力的因子挖掘模型》为量化股票研究提供了一个理论严谨、实证充分且具有较强创新性的框架,代表了因子挖掘领域将图神经网络与Transformer注意力机制深度融合的前沿趋势,具备较高的研究与应用价值。
---
参考文献
报告引用了图注意力网络(GAT)和Transformer的经典论文:
- Veličković等,Graph Attention Networks (2018)
- Vaswani等,Attention is All You Need (2017)
---
总结
本报告通过详尽的模型设计说明、严谨的数据说明、清晰的训练与测试策略、丰富的回测指标展示以及多维度的模型比较与注意力权重解析,完整呈现Risk-Attention模型的理论基础、算法实现及应用效果,内容深入全面、数据充分支撑结论,体现了东方证券研究所在因子选股领域的技术领先与创新能力。[page::0,1,3,4,5,6,7,8,9,10,11,12,13,14,15,16]