指数门控在 LSTM 中的应用— 一 eLSTM
创建于 更新于
摘要
本报告介绍了基于指数门控改进的eLSTM模型理论与选股应用,基于全A及多个细分股票池的量价数据训练模型,构建相同结构的eLSTM/LSTM/GRU选股因子。验证显示,eLSTM因子在多头组年化收益、超额收益及回撤控制上均优异,并体现更强的泛化和不同股票池适应性,表现稳健领先基准模型[page::0][page::3][page::15][page::16][page::20][page::38]。
速读内容
eLSTM模型设计与原理概述 [page::4][page::8][page::9][page::10][page::11]
- eLSTM基于传统LSTM,通过将输入门和遗忘门从Sigmoid 激活函数改为指数函数,实现记忆权重的加法和修正,解决LSTM长步信息遗失缺陷。
- 引入稳定器对指数函数的数值波动进行控制,确保模型训练的数值稳定性。
- eLSTM保持原有结构,改进隐藏层计算过程,支持更灵活的记忆信息混合与修正,有效提升长期依赖信息挖掘能力。


选股模型搭建及训练方案 [page::12][page::13][page::14]
- 训练数据涵盖2012年至2024年间的全A股日频量价数据,60天窗口输入,标签为未来10日超额收益。
- 网络结构包括RNN层(eLSTM/LSTM/GRU)、LayerNorm、Dropout和Linear输出层。
- 统一超参数设置,采用Adam优化器和MSE损失函数,训练周期固定200 epoch,batch size为256。

全A股票池因子表现对比 [page::15][page::16][page::17][page::18][page::19][page::20]
- eLSTM因子周频RankIC均值为7.53%,ICIR为1.00,多头组年化收益18.24%,夏普比率0.87,超额收益19.96%,超额最大回撤4.29%。
- 对比LSTM因子(RankIC均5.84%,年化收益11.29%)和GRU因子(RankIC均6.76%,年化收益13.88%),eLSTM表现明显领先。
- 三因子多头组收益及超额收益对比如图,eLSTM回撤控制优于LSTM,接近GRU。


沪深300股票池因子表现对比 [page::21][page::22][page::23][page::24][page::25][page::26]
- eLSTM因子RankIC均值4.74%,多头年化收益18.49%,夏普比率0.96,超额年化17.49%。
- LSTM和GRU因子表现稍弱,年化收益分别为12.40%和13.72%,eLSTM在回撤控制上稍胜一筹。
- 三因子多头组收益对比清晰,eLSTM回撤比GRU更优。


中证500股票池因子表现对比 [page::26][page::27][page::28][page::29][page::30][page::31]
- eLSTM因子RankIC均5.60%,多头年化13.00%,超额年化14.03%,表现稍领先GRU因子,明显优于LSTM。
- LSTM因子表现显著落后,回撤及收益均较低。
- eLSTM因子在回撤控制及分离度方面均表现良好,收益表现略逊于其他股票池。


中证1000股票池因子表现对比 [page::32][page::33][page::34][page::35][page::36][page::37]
- eLSTM因子RankIC均6.39%,多头年化收益12.25%,超额年化16.94%,远超LSTM和GRU因子。
- LSTM和GRU因子表现均较弱,明显落后于eLSTM。
- eLSTM模型展现出更强泛化能力和不同股票池的适应性,回撤控制亦较优。


结论 [page::38]
- eLSTM模型以指数门控替代传统Sigmoid门控,显著改善了长期记忆保持和模型表现。
- 全面回测显示eLSTM因子在收益率、回撤控制及泛化稳定性方面均优于LSTM及GRU基线模型,尤其表现于全A及中小盘股池。
- 不同股票池测试均验证了eLSTM模型在量价序列特征提取上的优势,适用于多种股票池的选股因子挖掘。
深度阅读
证券研究报告深度分析报告
一、元数据与报告概览
- 报告标题:指数门控在 LSTM 中的应用—一 eLSTM(人工智能系列之四)
- 发布机构:东北证券股份有限公司
- 分析师:王琦及团队
- 发布时间:2024年9月(推断,根据报告时间线)
- 报告主题:深度学习模型LSTM的扩展改进——提出eLSTM模型,并用其构建选股因子模型进行实证测试,比较eLSTM、传统LSTM及GRU模型在中国A股市场中的表现差异。
核心论点及目标
本报告核心在于介绍以指数门控替代传统Sigmoid门控的eLSTM模型,解决传统LSTM长步记忆遗失问题。通过在全A股及沪深300、中证500、中证1000四个不同股票池的数据上进行因子挖掘和实证测试,验证eLSTM显著优于传统LSTM和GRU模型,特别是在特征提取能力与收益稳定性控制上拥有明显优势。
总结主要结论:
- eLSTM模型多头组年化收益和超额收益均大幅领先LSTM和GRU。
- eLSTM模型在基于不同股票池的子集测试时表现稳定,退步幅度远小于LSTM和GRU。
- 该模型能更完整地提取股票序列的关键信息,基础性能有显著提升。
风险提示指出测试结果基于历史数据,存在模型失效风险,属于模型能力探索报告范畴。[page::0,38]
---
二、逐章深度解读
1. 引言
该章节首要提出LSTM在序列数据处理中的核心地位及其克服传统RNN梯度消失、爆炸问题的优势。随着Transformer等大模型兴起,量化投资因训练数据规模不足,仍需沿用循环神经网络(LSTM、GRU)模型。报告指出近年来量化领域对模型结构创新较少,更多聚焦于特征工程,eLSTM通过指数门控创新,明显提升LSTM序列特征提取能力。
核心逻辑:
- LSTM记忆能力强,适合处理时间序列金融数据。
- 量化投资数据规模与自然语言预训练不匹配,大模型难以落地。
- eLSTM基于xLSTM灵感改进门控机制,性能提升作为主线。
本节为后续模型理论和实证验证铺垫技术背景。[page::3]
---
2. 指数门控长短期记忆网络 eLSTM
2.1 LSTM 局限 — 长步信息遗失
- 介绍了传统RNN难以解决梯度消失爆炸的问题,LSTM通过引入记忆单元和三个门控(输入门I、遗忘门F、输出门O)缓解此问题。
- 详细数学定义了门控计算公式,均采用Sigmoid激活函数使门控取值(0,1),表示信息保留比例。
- 但LSTM仍有偏弱长序列保留能力,原因在于Sigmoid限制了门控取值跨度,意味着对过去记忆只能减弱不能增强。
- 训练过程中一旦遗忘门选小,早期信息权重丢失不可逆,导致长步信息遗失。
- 图2形象示意了LSTM记忆遗失过程。
此部分为eLSTM设计提供了理论基础,强调传统LSTM门控局限性必须突破。[page::4-7]
2.2 eLSTM 模型设计与原理
- 创新点在输入门和遗忘门由Sigmoid换成指数函数exp,门控取值从(0,1)扩展到(0,+∞),允许权重放大过去记忆,也可修正早期遗忘的决策。
- 图3对比Sigmoid与Exponential曲线,展示exp对正区间输入快速放大特征及负区间对另一项记忆的保留。
- 图4示意指数门控如何修复之前遗忘的记忆,使模型更灵活地调整记忆混合比例。
- eLSTM定义门控及记忆单元计算公式,引入稳定器Nt以对抗因exp变动过大导致的数值爆炸,实现数值范围稳定。
公式形式:
\[
It = \exp(Xt W{xi} + H{t-1} W{hi} + bi), \quad Ft = \exp(Xt W{xf} + H{t-1} W{hf} + bf)
\]
\[
Ct = Ft \odot C{t-1} + It \odot \tilde{C}t, \quad Ht = Ot \odot (Ct / Nt)
\]
- 稳定器Mt引入保数尺度,对指数门控进行数值溢出控制,公式证明了其对梯度计算无影响,仅作用于数值稳定。
- 图5展示整个eLSTM网络结构,差异明显标色,清晰体现设计变化。
整体来看,eLSTM技术核心是指数门控赋予模型动态调整历史记忆权重能力,优化长序列信息传递,数学严谨且考虑数值稳定性。[page::8-11]
---
3. 基于 eLSTM 构建选股模型
3.1 数据集及预处理
- 以2012年至今全A股(除北交所)日频量价数据为样本。
- 样本输入为单只股票最近60个交易日包含开盘、最高、最低、收盘、成交均价、成交量6个特征构成的时序二维矩阵[60*6]。
- 标签为买入后10天相对全A的超额收益,计算方式用t+2交易日买入价,t+10卖出价,以等权指数做基准。
- 数据清洗:样本完整无缺失视为有效样本。
- 数据划分为8个年度数据集:前4年训练,第5年验证,第6年测试,分别对应2017至2024年多期样本。
- 输入进行时序z-score标准化,标签在各数据集内标准化分布,确保数据均衡,消除量价的尺度问题。
3.2模型架构及参数
- 模型结构包括RNN层(可选eLSTM, LSTM, GRU)、归一化层LayerNorm、Dropout防止过拟合以及最后一层线性投射层输出预测值。
- 各模型RNN层参数统一,输入维度6,隐藏单元64,单层结构,Dropout率0.3。
3.3训练参数
- 优化器选用Adam,损失函数均为均方误差(MSE Loss)。
- 初始化采用Xavier均匀分布,保证参数数值合理。
- 训练批次大小256,学习率0.0001,训练200轮,采用early stopping监控,耐心20轮防止过拟合。
本章节以严谨统一参数设置确保模型差异仅基于RNN层结构,提升对eLSTM效果的对比公信力。[page::12-14]
---
4. 模型测试结果
4.1 全A股票池实证结果
- 回测区间2017-2024年7月,周频调仓,无交易费用,分层分组10组,等权加权策略,基准为等权股票池。
eLSTM因子表现:
- 周频RankIC均值7.53%,ICIR 1.00,显示较强的预测能力和稳定性。
- 多头组年化收益18.24%,超额收益19.96%,夏普比率0.87,较高的风险调整后收益。
- 超额最大回撤较低4.29%,卡玛比率显著高达4.66。
- 分层回测显示各组分离良好,表现稳定且优异。
LSTM因子表现:
- RankIC均值5.84%,ICIR 0.64,低于eLSTM。
- 多头组年化收益11.29%,超额收益12.90%,夏普比率0.52。
- 最大回撤36.41%,高于eLSTM,回撤控制较弱。
GRU因子表现:
- RankIC均值6.76%,ICIR 0.86,介于eLSTM和LSTM之间。
- 多头组年化收益13.88%,超额收益15.53%,夏普比率0.67。
- 最大回撤29.8%,回撤控制较好,稍劣于eLSTM。
整体对比(图13、表9)
eLSTM因子表现最优,收益、稳定性和超额表现均明显领先对比模型。GRU优于传统LSTM但不及eLSTM。[page::15-20]
---
4.2 沪深300成分股
- 高频RankIC下降,eLSTM 4.74%,LSTM 3.10%,GRU 4.37%。
- eLSTM多头组收益18.49%,超额收益17.49%,夏普比0.96。
- 最大回撤10.84%,回撤控制较全A略差。
- LSTM多头收益12.40%,超额收益11.45%,表现较弱。
- GRU收益13.72%,超额收益12.77%。
- eLSTM在多头收益和风险控制上均优于其他两组因子(图20、表16)。
回撤表现整体下降,原因是沪深300规模小于全A,分层稳定性下降,并且训练数据为全A数据,导致分行业表现有一定偏差。[page::21-26]
---
4.3 中证500成分股
- RankIC均值eLSTM 5.60%,高于LSTM 4.27%和GRU 4.85%。
- eLSTM多头收益13.00%,超额收益14.03%。
- LSTM多头收益7.54%,超额收益8.53%。
- GRU多头收益11.94%,超额收益12.96%。
- 回撤方面,eLSTM最大回撤26.36%,优势明显(表17-23)。
- eLSTM的优势在于收益和风险并重,且表现稳定。
相比前两组,eLSTM模型对中证500表现退步较小,突显其更强的泛化能力;LSTM和GRU收益有明显落差,体现了它们对不同股票池适应性的不足。[page::26-31]
---
4.4 中证1000成分股
- RankIC均值:eLSTM 6.39%,GRU 5.79%,LSTM 5.05%。
- 多头年化收益率eLSTM为12.25%,明显高于LSTM 5.86%和GRU 7.13%。
- 超额收益率eLSTM 16.94%,夏普比率2.60,回撤5.49%优于其他模型。
- LSTM和GRU在收益率和风险控制表现不佳。
- eLSTM因子在中证1000上表现稳定,模型泛化性更好。(图29-34,表24-30)
此部分验证了eLSTM的模型优势在更小盘、更多股票池的多样性条件下依旧有效,体现了eLSTM对量价序列深层特征提取能力的广泛适应性。[page::32-37]
---
5. 总结
报告点明创新点,基于xLSTM提出通过指数门控替换Sigmoid门控,解决长步信息遗失的问题。
实证测试设计严谨,数据量充足,参数公平,比较详实。
核心成果:
- eLSTM在全A及多类股票池下,多头组收益与超额收益均领先LSTM和GRU,且回撤控制更优。
- eLSTM表现对不同池子表现稳定退化小,体现出了更强的泛化能力和深层序列特征提取能力。
- LSTM因子表现最差,传统门控机制的缺陷在实证中显现。
风险提示明确,报告属于模型能力探索,历史表现不代表未来,存在模型失效风险。
总体,报告系统说明eLSTM在金融序列建模上的具体突破和实证优势,具备较强的学术与实务指导价值。[page::38]
---
三、重要图表深度解读
图1 LSTM 网络示意图(Page 5)
- 展示了标准LSTM的结构,输入层、隐层、输出层及每时间步的计算流程。
- 记忆单元Ct受输入门(It)、遗忘门(Ft)控制,输出门(Ot)控制隐状态Ht输出。
- 门控均使用Sigmoid激活函数(取值0-1),候选记忆采用tanh激活保持稳定的值范围。
- 该图帮助理解LSTM依赖门控调节记忆状态的基本机制。
图2 LSTM记忆遗失示意图(Page 7)
- 通过时间步示意记忆信息从t到T的流失过程。
- 遗忘门决定记忆A的遗失率,早期信息可能被完全遗忘,导致后期预测无用该信息。
- 对比eLSTM能动态修正的优势,强化报告技术创新的必要性。
图3 Sigmoid与Exp函数对比(Page 8)
- 上半图Sigmoid函数平滑将输入映射至0-1,有助控制噪声但限制门控比例调整幅度。
- 下半图指数函数exp在正轴呈快速增长,对正输入敏感可大幅放大信息权重。
- 形象说明改用指数门控对增强记忆调节范围的理论支持。
图4 指数门控修复记忆示意图(Page 9)
- 指数门控能适时修正以前因遗忘产生的记忆损失,使输出结果与依赖信息偏差减小。
- 图通过时间步递进清晰展现指数门控对早期信息复苏的作用。
- 生动诠释eLSTM技术核心价值。
图5 eLSTM网络示意图(Page 10)
- 与LSTM示意图相比,输入门与遗忘门用Exp替代Sigmoid。
- 增加计算稳定器Nt对记忆单元Ct值范围进行标准化,减小隐状态Ht振荡。
- 虚线标示稳定器相关计算,异色突显改进部分。
- 提供视觉对比,便于直观理解eLSTM结构创新。
表1 模型参数设置(Page 13)
- eLSTM/LSTM/GRU均设定输入特征6,隐藏层单层64个单元,Dropout率0.3。
- 同样输出层为单神经元线性层。
- 确保实验公平性,模型结构参数一致,功能对比纯粹依赖门控机制差异。
表2 训练参数设置(Page 14)
- 优化器采用Adam,指标为MSE Loss。
- 初始化均为Xavier均匀分布,学习率0.0001,训练批次256,epochs 200,提前终止20。
- 全参数统一控制变量实验设计,提升实证结论的可信度。
图7、8及表3、4 eLSTM 因子于全A的表现(Page 15、16)
- 图7中蓝色柱状为RankIC,右轴红色线为累计RankIC,统计显著且表现稳定。
- 图8分层回测显示10分组净值曲线整体依次递增,说明因子构造有效,分层清晰。
- 表3数值显示多头年化收益18.24%,超额收益19.96%,最大回撤均显著优于基准。
- 表4展示各年份详细结果,表现稳定且统计学意义充分。
- 该因子显著超越市场基准和传统模型。
图9-12及表5-8 LSTM与GRU因子对比(Page 17-20)
- LSTM 图9、10显示RankIC及净值分层低于eLSTM,收益与风险指标表现较差。
- GRU表现优于LSTM,图11、12及表7、8体现更高收益且风险更低,但仍低于eLSTM。
- 充分反映eLSTM优异性能。
图13及表9因子多头组对比(Page 20)
- 因子多头净值走势清晰显示eLSTM最高,GRU次之,LSTM最低。
- 表9收益、波动、最大回撤、夏普等指标均证实此结论。
- 直观且量化显示eLSTM全面领先。
4.2-4.4各股票池相关图表(Page 21-37)
- 各股票池RankIC均值普遍有所下降,表明规模与流动性限制对模型表现有影响。
- eLSTM多头收益普遍领先,尤其中证1000体现更明显泛化优势。
- LSTM和GRU表现起伏较大,波动性和回撤均较高。
- 各图(14-34)和表(10-30)详尽展现趋势数据及年度细节,呈现全面对比。
- 重要观察是eLSTM在不同细分市场仍保持较强活性和稳定性,体现模型真正技术进步。
---
四、风险因素评估
- 本报告明确提示为模型能力探索,基于历史数据验证,未来可能存在失效风险。
- 指数门控引入指数运算带来数值不稳定风险,虽然报告设计了稳定机制,实际使用仍需防范意外数值爆炸或梯度相关异常。
- 训练数据样本均基于中国A股历史数据,是否完全适用其他市场尚存验证空间。
- 回测仅模拟无费用交易,实盘执行时可能面临交易成本、滑点等实际问题。
- 报告未详细讨论过拟合风险,尽管有early-stopping,但过度调参风险不可忽视。
整体风险掌控措施有,但模型以及结果存在典型的历史数据依赖和样本外泛化风险。[page::0,38]
---
五、批判性视角与细节
- 指数门控替代Sigmoid提供更大记忆调节范围,符合直觉且理论合理,但指数函数带来潜在数值爆炸风险,虽设计稳定器,具体设计细节复杂度高,是否影响训练效率和稳定性报告未详述。
- 报告强调eLSTM泛化性高,但对GD过程梯度消失爆炸的细节影响、训练收敛速度、计算开销等未作具体比较,有待补充。
- 训练均采用相同超参数配置,可能未充分挖掘LSTM/GRU模型潜力,略显偏向eLSTM设计。
- 模型表现虽优于基准,依赖大量历史量价数据,该数据特性和市场变动对模型适应能力影响未深入量化。
- 各分组回测数据无交易费用,未来模型实盘效果可能受限。
- 投资评级与分析师资格信息完善,提升报告权威性。
总之,报告偏重正向验证,讨论稍显局限,建议后续研究丰富模型训练细节和实盘对比。
---
六、结论性综合
本报告系统创新提出了eLSTM模型,通过指数门控机制赋予LSTM网络突破传统Sigmoid限制的记忆调节能力,显著缓解了长步信息遗失问题。基于中国A股海量历史量价序列构建选股因子并与传统LSTM以及GRU模型因子进行系统回测比较。
关键发现包括:
- 模型结构创新:引入指数函数替代Sigmoid门控,允许门控范围变更至(0,+∞),使得模型可以对早期记忆加权补偿,修正遗忘决策,理论上增强序列长期依赖能力。
- 数值稳定设计:通过引入稳定器Nt和M_t,控制指数门控和隐状态的数值范围,保证训练过程稳定性,防止数值溢出。
- 严谨实证设计:在数据预处理、模型参数、训练设置严格统一的条件下,通过2017-2024年多个时间窗口的历年滚动训练+回测,比较三种模型表现。
- 显著优异的实证结果:
- eLSTM因子在全A、沪深300、中证500、中证1000四大主流股票池中均实现了多指标优于LSTM和GRU的业绩表现。
- 在全A市场,eLSTM多头因子年化收益18.24%,超额收益率19.96%,累计RankIC均值7.53%,稳定性与回撤控制显著优越。
- 细分市场沪深300、中证500、中证1000中,eLSTM同样表现优异且泛化力强,特别是中证1000,体现出对更多样化股票特征的优良提取能力。
- 风险提示合理,模型基于历史数据构建,存在失效风险,需谨慎应用和持续跟踪。
图表数据深刻揭示eLSTM因子在收益、风险调整后收益和分层有效性上的进步。该模型突破了传统LSTM在金融时序数据上的长期依赖提取瓶颈,具备成为量化投资领域深度学习核心模型的潜力。
综合来看,eLSTM的设计与实证表现具有较高的理论价值与实务应用潜力,为金融量化策略的深度神经网络设计提供了新的路径。
---
全文参考页码:[page::0,1,3-40]
---