人工智能系列之69:注意力机制应用于量化选股多类场景
创建于 更新于
摘要
本报告系统研究了注意力机制在量化选股中的多场景应用,包括任务间注意力、股票间注意力和时序注意力。测试显示,任务间注意力提升稳定,股票间注意力主要提升因子多头表现,时序注意力则在合成因子及放宽组合约束时展现优势。集成多个注意力模型进一步提升性能,验证了注意力机制的广泛有效性,为量化选股提供新的技术路径和理论支持 [page::0][page::1][page::17]。
速读内容
注意力机制与量化选股结合背景 [page::0][page::1]
- 注意力机制本质为权重分配,自注意力通过相似度衡量实现信息聚合。
- 华泰金工前期研报用于时间序列编码和股票间图神经网络,本文扩展应用范围。
任务间注意力模型设计与表现 [page::4][page::10]

- 引入多头自注意力编码任务共享层与特异层间关系。
- 模型合成因子RankIC均值、组合年化超额收益率均表现稳定提升,提升反映在多子任务预测和集成上。
- 回测期内10日和20日预测均有正向效果。
股票间注意力Transformer结构与实证 [page::5][page::6][page::10][page::11]

- 采用Transformer编码器替代MLP任务共享层,提取截面股票间关系。
- 股票间因子多头加权RankIC均值显著优于基线模型,Top组年化收益提升明显,但组合回测结果多任务集成表现更佳。
- 股票序列长度动态补齐,舍弃位置编码,使用缩放点积注意力。
时序注意力模型(ALSTM与Transformer)对比分析 [page::6][page::7][page::12][page::13][page::14][page::15]

- 利用因子日频时间序列数据,比较LSTM、ALSTM与Transformer编码性能。
- Transformer在RankIC均值(12.3%)、Top组年化收益(29.0%)等指标全面领先,显示注意力在时序信息提取中优势明显。
- 原始组合约束下LSTM表现最佳,放宽约束后Transformer年化超额收益率达20.16%,领先其他模型。
- 放宽约束提升组合表现,提示组合优化约束影响因子优势体现。
模型集成提升效果与相关性分析 [page::1][page::15][page::16]

- 四类模型预测值等权集成,集成模型RankIC均值和对冲收益均高于单模型。
- 集成模型指数组合年化超额收益率提升至20.1%,信息比率3.0高于各单一模型。
- 模型相关性依次为:任务间注意力 > 股票间注意力 > 时序注意力,显示不同注意力模型提供互补信息。
核心结论与研究展望 [page::17][page::18]
- 注意力机制在多任务、多截面及时序三大领域均有效提升量化选股表现,Attention is indeed all you need。
- 研究指出未来可探索多模态学习中的多源信息融合、Transformer变体改进以及深度学习网络架构与损失函数中嵌入组合约束机制。
深度阅读
华泰金工 | Attention is indeed all you need 研究报告详尽解析
---
1. 元数据与概览
报告标题: 华泰金工 | Attention is indeed all you need
作者: 林晓明、何康
机构: 华泰证券金融工程
发布时间: 2023年8月23日
主题: 人工智能领域的注意力机制在量化选股中的多场景应用研究
核心论点与目标:
本报告系统展示了注意力机制(Attention)在量化选股领域不同应用场景的表现,结合多任务学习、股票间关系挖掘和时间序列因子编码,具体提出任务间注意力、股票间注意力和时序注意力三类模型,并深入比较其性能表现。结果表明,注意力机制在多数场景均有效提升选股效果,且不同注意力形式在提升稳定性、因子多头和合成因子表现上的作用各具特色,模型集成进一步增强性能。核心结论为“Attention is indeed all you need”,强调注意力机制的普适价值与效用。[page::0,1,17]
---
2. 报告章节详解
2.1 导言与背景介绍
报告首先介绍了注意力机制的发展背景,指出自注意力(Self-Attention)及其代表结构Transformer已经成为自然语言处理(NLP)和计算机视觉(CV)领域的核心技术。注意力的本质是通过权重分配突出信息中关键部分,以更有效提取代表性特征,从而提升模型性能。尽管注意力机制在AI其他领域热度高涨,但在量化投资中主要局限于时间序列编码和图神经网络,尚缺乏系统且多场景的应用探索。[page::1]
2.2 注意力机制基础与表现形式
本章节系统阐述了注意力系数的数学本质——两个向量的归一化相似度,常用相似度函数包括点积、缩放点积、加性和乘性等多种形式,经过softmax归一化形成注意力权重。自注意力结构通过对Query、Key、Value不同线性变换实现元素间交互的权重分配,多头注意力进一步通过多套参数并行衡量多维度相似度,增强模型对复杂关系的表达能力。
自注意力计算流程图(图表1)和多头注意力示意(图表2)直观表达了信息流转和加权过程。值得注意的是,因子选股中元素定义灵活,可是时间序列的时刻、截面的股票,或网络结构的模块。[page::2,3,4]
2.3 多任务学习中的任务间注意力
报告引入多头缩放点积自注意力层嵌入多任务学习框架的任务共享层和任务特异层之间,捕捉任务间关系信息。经典多任务学习采用硬参数共享,任务间独立学习,不考虑关联;任务间注意力模型则通过注意力机制动态调节两个任务间信息传递。结构对比见图表3,任务间注意力层置于特征全连接层和任务特异层之间。
实证结果显示任务间注意力显著提升了合成因子加权RankIC均值、信息比率及指数增强组合超额收益的稳定性,提升效果在10日、20日及两者集成都有效。[page::4]
2.4 股票间注意力与Transformer编码器
为克服传统因子选股视股票为独立样本模型的局限,报告引入Transformer编码器替代多任务学习模型中的MLP部分,挖掘股票间的相互关系。
问题关键在于如何处理序列维度:视当天所有股票为序列元素,因子维度为词向量,batch维为交易日数量。为了适应股票日内数量不一,采用填充掩码对短样本补齐,且舍弃了无意义的位置编码。
利用标准Transformer编码器结构(图表4),包含多头自注意力、LayerNorm和Feed-Forward层的堆叠。[page::5,6]
2.5 因子时序数据中的时序注意力
输入扩展至因子日频时间序列,采用LSTM、加性注意力LSTM(ALSTM)、以及Transformer三种模型构建,分别捕捉纯循环结构、带时序注意力的循环结构和全注意力时序结构。
ALSTM结构图和Transformer结构图(图表5、6)展示了单头注意力与多头注意力的集成方式。时序注意力在捕获长期依赖的同时,借助Transformer的并行计算优势和位置编码机制,提升时序信息表达的能力。
报告指出,Transformer在所有评价指标上覆盖LSTM和ALSTM,尤其表现出时间序列表达的显著优势。[page::6,7]
2.6 实验设置与数据概况
实验覆盖全A股,剔除上市未满63天和停牌等股票,采用当季股票池中成交额和市值两维度排名前60%的股票。
特征集包含42个面向基本面和量价的因子(图表9),标签为未来11日和21日相对收益率。训练采用加权均方误差损失,批量大小为一个交易日截面(或多日序列),训练集持续迭代切分至2023年7月。组合优化约束设定详见图表8、多标配限制;放宽和原始约束条件的组合分别测试,对应场景验证模型鲁棒性。
整体流程严谨,保证结果可靠性与可推广性。[page::7,8,9]
2.7 任务间与股票间注意力实验结果
合成因子评价指标
(图表10-15)
- 任务间注意力模型在加权RankIC均值、加权信息比率和年化超额收益等指标全部稳定领先多任务学习基线,尤其强调稳定提升;
- 股票间注意力模型主要体现在因子多头加权RankIC均值和Top组收益的显著提升;
- 股票间注意力在10日收益预测组合回测表现略逊一筹,但20日以及集成预测表现良好;
- 任务间注意力提升总体更稳定,而股票间注意力突出于多头场景。[page::9,10,11]
组合回测绩效
指数增强组合的年化超额收益率、信息比率及Calmar比率均体现出任务间注意力较基线模型略有提升,股票间注意力表现起伏较大,但整体优于基线。
净值曲线(图表16-21)显著展示了三模型的累积超额收益成长趋势,尤其股票间注意力Top组相对净值领先,其次为任务间注意力。[page::10,11,12]
2.8 时序注意力实验结果
合成因子表现
(图表22,25)
因子时间序列输入下,LSTM基线已优于多任务基线,说明时序信息对合成因子有天然贡献。
ALSTM提升较小,Transformer全面胜出,RankIC均值、Top组年化收益率均领先明显。
指数增强组合绩效
- 原始组合优化约束(图表23,26-28)下,Transformer合成因子的优势未完美传递至组合超额收益,LSTM以微弱优势领先;
- 放宽组合约束条件后(图表24,29-31),三模型中Transformer超额收益、信息比率均实现提升并领先,表明约束条件削弱了模型alpha信息的作用。
- 该结果揭示,合成因子的效用受优化约束机制影响,放开限制有利于时序注意力模型优势的体现。[page::12,13,14,15]
2.9 多模型集成效果
4类模型(多任务学习基线、任务间注意力、股票间注意力、时序注意力Transformer)预测值等权集成,综合收益及风险指标均优于单一模型。
任务间注意力和股票间注意力与基线相关性较高,时序注意力与基线相关性最低,意味着时序注意力贡献的增量信息最大。
集成模型RankIC均值较所有子模型更稳健,信息比率、Top组年化收益有明显优势。累计RankIC差值与基线持续扩展,但组合层面优势未完全放大,反映合成因子优势在组合优化中仍受限。
集成被视为“免费的午餐”,提升模型性能的常用策略。[page::15,16]
2.10 研究总结
总结反复强调注意力机制通过权重再分配活跃表征了因子、股票和任务之间复杂关系,提升了多项关键指标:
- 任务间注意力提升最为稳定且适用于多任务集成;
- 股票间注意力在因子多头表现尤为突出;
- 时序注意力中Transformer超越传统LSTM与ALSTM,尤在放宽组合限制情景显著提升;
- 多模型集成策略结合了各模型优点,助力整体效能的进一步提升。
报告也坦言限制,如注意力形式未尽、Transformer结构与参数尚无深度优化,合成因子表现与组合绩效的不完全匹配依然是未来研究难点。[page::17,18]
---
3. 图表深度解读
3.1 自注意力结构图(图表1,3)
展示了Query、Key、Value三种线性变换如何计算归一化的点积注意力系数,并结合所有元素的值加权形成元素的新表示。矩阵形式的softmax$\big(\frac{QK^{T}}{\sqrt{d_k}}\big)V$运算揭示了自注意力的并行计算效率和对长序列依赖的建模能力。图形帮助理解了输入维度、权重矩阵及影响机制,为后续任务间、股票间和时序注意力模型构建奠定基础。
3.2 多头注意力示意(图表2)
多组参数并行衡量不同相似度视角,拼接输出并线性映射,提升了模型捕捉多方面关系的能力。示意说明多头注意力比单头更灵活、更具代表性,对复杂金融特征的建模更有利。
3.3 模型结构图(图表3-7)
各注意力模型结构清晰地定义了数据流行路径和网络层级配置,从MLP线性层加注意力模块,到基于Transformer编码器替换MLP,实现对任务、股票截面、时序数据的层次式建模。时序注意力模型细节包括位置编码、多层Transformer堆叠、激活函数与dropout防止过拟合。
参数细节(如head数、维度大小、dropout比例等)一目了然,有助复现和理解模型复杂度。
3.4 关键绩效指标表格和图表(图表10-37)
- RankIC(秩相关系数)与RankICIR(信息比率)为衡量因子效果的指标。数据明确展现,三类注意力模型均不同程度优于基线,其中任务间注意力稳定性突出,股票间因子多头表现最佳,时序Transformer最为全面。
- 组合回测收益率、夏普比率、Calmar比率和最大回撤数据佐证了模型在真实资金层面风险收益权衡(图表11、23-26、34-35)。
- 净值增长趋势图(图表16-21、27-28、31、34、37)直观体现长期策略稳健性和超额收益累积。
- 组合约束调整(从严格到宽松)对模型效益影响深刻揭示了组合优化对因子表现的“淹没效应”,提示策略设计时需考虑优化限制。[page::10-16]
---
4. 估值分析
本报告主要聚焦模型算法性能提升与量化选股模块的回测表现,未涉及股票或资产估值的传统财务估值方法(如DCF、市盈率等),故无典型估值分析章节。
---
5. 风险因素评估
报告谨慎指出可能的风险提示:
- 人工智能挖掘市场规律基于历史数据,未来市场规律可能失效;
- AI技术有过拟合风险,模型效果对随机数初始值等敏感;
- 受限于调仓频率、成交价假设(vwap),忽略部分市场交易摩擦因素;
- 组合优化约束影响alpha因子价值有效传导,当前模型尚未将此风险显式纳入损失函数或架构设计。
风险识别具体、符合实际量化策略运作限制,对风险管理具有指导意义。[page::18]
---
6. 审慎视角与细微差别
- 观点偏强但严谨: 报告多次强调“Attention is indeed all you need”,展现对注意力机制强烈信心,但同时详细对比多种注意力形式,客观披露优势与不足,体现科学态度。
- 场景覆盖和假设限制: 报告聚焦三类注意力,未包括多模态、图神经网络与Transformer变体潜力,承认模型细节如超参数和位置编码未充分探索,后续改进空间明显。
- 合成因子与组合表现不完全匹配: 报告多次提示这一矛盾,指出组合约束“淹没”了因子信号,引发潜在对模型效果估计的偏差,应作为未来研究重点。
- 数据覆盖范围广,周期长,保证实验稳健性,但批量大小设计(单交易日或股票的分布)与模型训练稳定性存在潜在影响,未深度讨论。
整体审慎评价为,报告理论基础扎实,实证详尽,但模型实用与复杂性权衡仍需逐步深入,尤在算法和组合约束交互这部分。
---
7. 结论性综合
本报告系统性阐释注意力机制——一个以权重分配表征数据内在多维关系的AI核心技术——在量化选股领域的多角度应用,创新点包括:
- 任务间注意力在多任务学习框架中有效捕捉任务间关系,实现稳定提升,适用多目标组合优化。
- 股票间注意力基于Transformer编码截面股票因子,突出提升合成因子多头表现,说明模型能挖掘股票间复杂隐藏关联。
- 时序注意力基于ALSTM和Transformer编码因子时间序列,Transformer明显优于传统LSTM,尤其在放宽优化约束后组合绩效有显著改善,展现其强大的时序模式挖掘能力。
- 多模型集成整合各类注意力模型输出,低相关性带来较大增量信息,进一步提升因子及组合表现,验证集成为提高量化模型表现的可靠手段。
通过丰富的实验结果和详尽的图表支撑,报告不仅证明了注意力机制在量化投资中的广泛适用性和效果优势,也指出其现阶段限制与未来潜力。特别是模型表现的稳定提升及长期超额收益表现,展示了AI与金融深度融合的前沿成果。
总结而言,该研究提供了注意力机制应用于量化选股的框架与实证路径,表明“Attention is indeed all you need”不仅是AI理论的总结,更是量化投资创新的重要内涵。未来深入探索注意力机制变体、多模态融合及约束优化一体化,有望进一步释放量化模型潜力。[page::0-18]
---
重要附录
主要测试模型及实现参数(图表7):
任务间注意力基于MLP+多任务学习,增设多头缩放点积自注意力层;
股票间注意力将任务共享层MLP替换为含4头Transformer编码器;
时序注意力则基于LSTM、ALSTM和含2个Transformer块的模型,多头数2,dropout 0.1等细节参数。
样本与优化约束(图表8、29):
交易日范围2011年至2023年,股票池严格筛选,组合仓位和权重约束详细,如放宽约束为个股[-2%,2%]等。
42个因子列表(图表9): 涵盖估值、预期反转、波动率、换手率、日间技术指标等多维度财务与技术指标。
---
以上为该报告的全面深入解读,力求透彻理解其技术原理、实验设计与结果分析,助力专业人士把握注意力机制在量化选股领域的自然科学与投资价值。