`

深度学习赋能技术分析 | 开源金工

创建于 更新于

摘要

本报告基于深度学习方法对技术分析中的因子挖掘进行研究,采用LSTM结合遗传算法提取技术指标因子与基于状态划分的K线形态因子,构建了多个技术因子并进行回测验证。两大类因子具有较低相关性,合成因子表现显著提升,10分组多空对冲年化收益最高达39.85%,同时覆盖不同市值域表现优异,验证了深度学习在技术分析选股中的有效性与前景[page::0][page::1][page::8]

速读内容


研究背景及方法简介 [page::0][page::1]

  • 利用股价数据及相关技术指标,以两种方式挖掘因子:直接用LSTM和遗传算法+LSTM组合。

- 基于图形识别的形态因子通过人为划分状态变量进行深度学习训练,避免CNN算力瓶颈。
  • 重点探讨技术指标因子与形态因子在深度学习架构中的构建与融合。


技术指标因子挖掘与表现 [page::2][page::3][page::4]


  • 传统LSTM技术指标因子$LSTM{tech}$年化收益24.02%,RankIC为7.42%。

- 遗传算法挖掘技术因子样本外表现依然稳健,RankIC6.76%,年化收益20.28%。
  • 遗传算法有效因子结合原技术指标再用LSTM训练,形成$LSTM{deap\tech}$,年化收益提升至32.44%,RankIC9.27%。

  • $LSTM{deap\tech}$净值走势优于传统技术因子,选股效果显著优异。


人工定义图形状态及历史相似度因子构建 [page::4][page::5][page::6]


  • 人为定义K线及技术指标状态,划分为有限状态空间,方便状态化序列输入LSTM。

- 构建历史相似度因子:基于技术指标状态(Tech
similarity)和K线状态(Ksimilarity)分别计算并等权合成技术形态相似度因子。


  • Techsimilarity、Ksimilarity相关性低(25.49%),合成因子表现更优,年化收益达25.97%。


深度学习结合图形状态的因子性能 [page::6][page::7]


  • 使用1至20日K线及技术指标状态向量,输入LSTM得$LSTM{graph}$因子。

- $LSTM{graph}$因子年化收益32.25%,RankIC9.01%,表现优异于TechKsimilarity因子。
  • $LSTM{graph}$与$LSTM{deap\tech}$相关性仅51.48%,两者残差仍具择时表现,结合效果显著提升。


深度因子合成与多样样本检验 [page::7][page::8]


  • 等权合成$LSTM{deap\tech}$和$LSTM{graph}$后,年化收益37.28%,多头超额收益9.40%。

- 在不同市值区间测试:中证800表现较弱,中证1000及国证2000表现优异,多头超额收益分别达12.67%和11.01%。
| 样本空间 | RankIC | RankICIR | 多空收益 | 多头超额收益 |
|---------|--------|----------|----------|--------------|
| 中证800 | 4.51% | 1.90 | 10.23% | 2.09% |
| 中证1000 | 9.76% | 4.34 | 37.47% | 12.67% |
| 国证2000 | 11.79% | 4.82 | 41.17% | 11.01% |

与丰富因子$LSTM{pro}$结合表现 [page::8][page::9]


  • $LSTM_{pro}$包含基础量价、资金流、分钟频及财务指标等,因子元素更丰富。

- 与合成深度技术因子相关性38.61%,等权合成后年化收益提升至39.85%。
  • 多头超额收益由9.40%升至11.34%,收益波动比提升至2.80,表现显著优化。


风险提示 [page::9]

  • 本报告模型基于历史数据,未来市场环境可能变化,投资需谨慎。

深度阅读

深度学习赋能技术分析报告详尽解析



---

一、元数据与报告概览


  • 报告标题:深度学习赋能技术分析 | 开源金工

- 作者与机构:魏建榕(开源证券金融工程首席分析师),开源证券金融工程团队
  • 发布日期:2025年6月26日

- 研究领域与主题:报告围绕深度学习技术与传统技术分析结合,重点探讨机器学习(特别是LSTM与遗传算法)在技术指标和图形识别维度的选股因子挖掘,应用于A股市场的股票选股策略。
  • 核心信息

- 研究两大主线——基于技术指标和基于图形识别的因子构建。
- 基于两者分别构建LSTM挖掘因子,并通过遗传算法优化因子变量。
- 混合多因子模型进一步提升因子效能。
- 因子指标主要通过RankIC(秩相关系数)、RankICIR、10分组多空对冲年化收益等指标检验绩效。
- 综合因子$LSTM{deep\tech\graph}$在2019年至今的RankIC为10.89%,年化收益达37.28%,显示出较优的投资价值。
- 报告除技术指标和图形两路并重外,将其与更加丰富的$LSTM
{pro}$因子结合,实现了进一步的绩效提升。
- 强调数据输入端对深度学习成果的显著影响。[page::0,1]

---

二、逐节深度解读



2.1 摘要与技术指标因子挖掘部分



2.1.1 直接使用LSTM模型挖掘技术指标因子 ($LSTM{tech}$)


  • 报告利用日常股价基本数据(开盘价、最高价、最低价、收盘价、成交量)和基于talib批量生成的技术指标,不加入财务信息,通过LSTM模型进行深度因子挖掘。

- 训练框架为6年训练集+2年验证集的滚动式训练。
  • 结果显示:

- RankIC为7.42%,RankICIR(信息比率)为4.25,10分组多空对冲的年化收益为24.02%。
- 多头分组效果表现稳定性不足,表示在某些区间选股收益不够单调优秀。
  • 图表(图1~3)展示了LSTM流程示意和因子收益曲线与净值成长趋势,说明该模型具备较强的持续盈利能力。

- 该方式是传统技术指标输入深度学习的基础模式。[page::1,2]

2.1.2 利用遗传算法挖掘有效技术因子


  • 采用遗传算法优化因子筛选,结合定制算子(如切割算子),完成从原始技术指标向精选有效因子的进化。

- 遗传算法的挖掘区间为2010–2016年,挖掘出的因子随后固定应用于后续训练。
  • 遗传算法因子表现:

- 2019年至今,RankIC为6.76%,RankICIR为2.64,年化收益20.28%,略逊于直接LSTM技术指标因子。
  • 说明遗传算法因子独立效果较好,且在样本外表现稳定(图5)。

- 遗传算法因子后续作为LSTM的输入之一,用以上基础优化深度学习表现。
  • 算法框架如图4展示清晰,强调“个体重复度阈值”和“互相关系数控制”,确保因子间非冗余且持续进化。

- 该做法通过进化搜索提升了因子信息含量,对于复杂的技术多维度数据可有效剔除无用特征。[page::2,3]

2.1.3 遗传算法有效因子与原始技术指标合并输入LSTM ($LSTM{deep\tech}$)


  • 结合遗传算法筛选出的因子和原始技术指标,输入LSTM进行深度挖掘。

- 得到的新因子$LSTM
{deep\tech}$表现明显优于$LSTM{tech}$:
- RankIC达9.27%,RankICIR4.54,年化收益32.44%(比基础模型提升约8个百分点收益)
  • 相关回归分析显示,$LSTM{deep\tech}$已几乎包含$LSTM{tech}$的全部alpha信息,残差选股效果微弱,说明新因子信息增量显著。

- 图6~8清晰揭示多空10分组年化收益及净值曲线优势。
  • 该节内容有效验证了结合传统技术指标和遗传优化因子的深度学习模式更优。[page::3,4]


2.2 基于图形识别的因子挖掘部分



2.2.1 CNN图形识别的挑战与转变思路


  • CNN原理:通过图像识别K线及技术指标状态,输出涨跌预测。

- 实践中发现CNN训练计算消耗巨大,内存压力大,且对特定细节(涨跌停状态)捕捉不足、技术指标数量有较大限制。
  • 报告转向“人为状态划分法”,以更轻量、结构化方式将图形信息转换为状态变量(如实体大小、上下影线、均线相对位置)。

- 这一转变体现了深度学习技术在实际金融数据处理中的工程化权衡策略。
  • 图9数据界面示范,上证指数K线及指标状态划分核心说明,明确了研究抓手。

- 该思路将原始图像信号定性为有限状态集,减少数据维度,便于LSTM学习序列信息。[page::4,6]

2.2.2 人工构造历史相似度因子(Techsimilarity与Ksimilarity)


  • 通过历史形态相似度匹配,推断当前形态的未来超额收益表现。

- 两类因子:
- Tech
similarity:基于技术指标状态、涨跌停和成交量状态,月频形态匹配,超额收益均值计算。2013年至今RankIC约4.97%,年化收益20.22%。
- Ksimilarity:基于日、周、月K线及成交量形态状态相似度匹配,收益近似。RankIC5.10%,年化收益19.25%。
  • 两者相关性很低(25.49%),暗示信息互补性强。合并后因子RankIC提升至5.89%,年化收益约26%。

- 图10~12展示对应多空收益曲线,均体现较稳定的分组收益提升趋势。
  • 该方法体现形态学角度的传统技术分析数学表达,结合量化周期收益窗口链接为因子。[page::5,6]


2.2.3 LSTM模型挖掘基于状态的图形因子 ($LSTM{graph}$)


  • 将人为划分的K线和技术指标状态变量输入LSTM进行深度挖掘。

- K线频率拓展至1日至20日区间,提高信息细粒度。
  • 实验结果显示,$LSTM{graph}$从2019年至今RankIC高达9.01%,年化收益32.25%,信息比率4.70,表现及风险调整优于人工相似度因子合成。

- 回归分析表明$LSTM
{graph}$基本包含人工因子alpha信息,但二者仍存在差异度,促成后续的合成提升。
  • 图13~15展示因子多空对冲收益及净值趋势,清晰体现优越表现。

- 该步骤实现了传统技术指标向高级抽象状态变量的深度表达,为图形因子提供了科学数据支持。[page::6,7]

2.3 因子协同与综合模型构建


  • 因子相关性仅为51.48%,且相互回归残差残留有效alpha,说明$LSTM{deep\tech}$与$LSTM{graph}$有显著互补性(图16)。

- 两者等权合成得到复合因子,绩效进一步提升:
- 2019年至今RankIC为10.89%,RankICIR4.99,年化收益37.28%,表现全面优异。
- 多头分组效果相对弱,超额年化收益仅为9.40%,说明收益驱动或有改进空间。
  • 综合因子净值曲线(图17)体现稳健增长,且在小市值股票(中证800、1000、国证2000)中表现逐步增强,尤其在中证1000和国证2000表现突出。

- 表1量化了复合因子在不同市值子集内的表现,展现因子在成长型与小盘股中的适用优势。
  • 这部分验证了多维度异质信息融合提升选股效果的普适性和市场适配性。

- 因子核心均基于量价数据,后续可考虑引入其他异构数据进一步优化多头效能。[page::7,8]

2.4 与更丰富因子$LSTM{pro}$的结合


  • $LSTM{pro}$因子在此前报告中构建,基于基础量价、资金流、分钟交易指标以及财务因素,指标维度更丰富。

- $LSTM
{pro}$与本报告因子相关性低,仅38.61%,显示了差异化信息维度。
  • 等权合成两者产生的复合因子效果优异,2019年至今RankIC达到11.93%,多空年化收益39.85%。

- 多头超额收益从9.40%提升至11.34%,尽管波动率也由2.01升至2.80,整体风险收益状况优化明显(图18)。
  • 该结果强调了多源异构数据融合在智能选股系统中的价值。

- 表明本报告侧重的技术因子可作为其他类型因子的有效补充,形成多层次配置思路。[page::8,9]

---

三、图表深度解读


  • 图1(开源金工LSTM流程图):示意从技术指标与交易数据经过预处理、时序标准化、缺失填充到LSTM和输出层,揭示深度因子训练全流程,突出模型对自注意力机制的应用。(page::2)

- 图2~3($LSTM{tech}$年化收益与净值):年化24%,净值曲线平稳上扬,说明模型有效捕捉技术指标信息。(page::2)
  • 图4(遗传算法框架):从初始化种群到交叉变异再到权值控制,确保因子优化过程科学严谨。(page::2)

- 图5(遗传算法因子10分组净值):样本外数据同样呈现多空分组分化,确认因子泛化能力。(page::3)
  • 图6~8($LSTM{deep\tech}$收益图):年化达到32%,净值曲线领先基础模型,回归残差无选股效果,显示因子有效性。(page::3-4)

- 图9(上证指数行情状态示例):展示技术指标和K线状态划分原理的实际界面截图,体现状态划分逻辑。(page::4)
  • 图10~12(Techsimilarity和Ksimilarity因子多空收益):均显示良好的多空对冲年化收益及净值曲线,二者低相关便于合成提升。(page::5-6)

- 图13~15($LSTM
{graph}$因子表现):年化收益32%,领先人工因子,说明深度学习对状态特征挖掘有效。(page::6-7)
  • 图16($LSTM{graph}$与$LSTM{deep\tech}$残差回归):残差依旧保持一定alpha,证明二者包含不同部分信息。(page::7)

- 图17(两因子合成多空净值):复合因子超过单因子表现,资金曲线稳健上扬。(page::8)
  • 表1(不同样本空间绩效):细分中证800/1000/国证2000中指数因子表现呈现小市值优势,市场定位清晰。(page::8)

- 图18($LSTM
{deep\tech\graph}$与$LSTM{pro}$合成净值):最高收益及多头表现明显提升,风险收益比更优。(page::9)

---

四、估值分析



本报告未涉及传统意义上的公司财务估值,如DCF、市盈率等模型;而是着重于机器学习技术在选股因子构建中的有效性及表现。核心“估值”是模型对历史数据拟合验证及机器学习算法优化过程中对因子质量的定量评判,如RankIC、RankICIR和多空年化收益。因而估值部分结合深度学习模型训练效果和因素回测数据理解即可。

---

五、风险因素评估


  • 模型基于历史数据,可能无法完全涵盖未来市场环境的变化,带来业绩波动或回撤风险。

- 数据与模型参数限制:例如遗传算法挖掘频率受限于算力,技术指标种类有限,可能导致信息遗漏。
  • 技术指标及图形状态定义的稳定性风险:人为划分存在抽象不足或过度简化的风险。

- 深度学习模型过拟合风险:虽然采取了训练-验证集滚动训练,仍需警惕未来样本外表现下降。
  • 报告未显著提及缓解策略,暗示实际策略中仍需绩效动态监控与更新。

- 看似整体表现优良但存在收益波动性上升的隐忧(多头超额收益波动比由2.01升至2.80)。
  • 投资者应关注因子在不同市场情境下的稳定性以及深度学习模型可解释性的不足。

- 市场微观结构变动、政策监管变化也可能影响模型表现。[page::9]

---

六、批判性视角与细微差别


  • 报告作者极力推崇遗传算法+深度学习组合与图形基于状态划分的LSTM,整体论调积极。

- 由于算力限制,使遗传算法只进行了一次因子挖掘,使得模型可能尚未达到最优。
  • 人为状态划分虽解决CNN算力瓶颈,但可能剥离细节微妙信号,影响因子捕捉深度。

- 多空对冲平均收益突出,但多头分组的单独优异表现仍有待提升,表明潜在量价因子在趋势捕捉时可能不足。
  • 报告强调因子合成效果,但往往合成因子信息解释复杂,潜在实现难度或策略稳定性挑战。

- 对于图形识别、技术指标挖掘二者优势对比定位明确,但在实际市场走势非线性特征下的泛化能力有进一步验证空间。
  • 报告未详细披露模型训练具体参数(层数、隐藏单元)及正则化手段,也未详细说明风险管理策略。

- 总体逻辑清晰,数据指标齐全,体现出扎实的量化研究基础,适合作为机器学习应用参考文献。

---

七、结论性综合



本文系统完整地展示了利用深度学习技术(主要为LSTM)结合遗传算法优化,对传统技术分析的技术指标和图形两个维度实施因子挖掘的研究过程与成果。通过多模型方案测试:
  • 基于技术指标的LSTM挖掘因子在充分利用原始及遗传算法优化因子后,显著提升了因子绩效,体现了遗传算法在变量筛选与进化优化中的重要作用,RankIC提升至9.27%,年化收益超过32%;

- 基于图形状态划分的LSTM模型有效突破了CNN训练资源瓶颈,通过人工划分技术指标和K线状态实现高效深度学习,取得9.01% RankIC和32.25%年化收益,提升了非线性和时序信息的挖掘能力;
  • 两种因子相互之间有显著互补性(相关性约51%),复合后2019年以来RankIC近11%,年化收益超37%,显示综合利用不同信息维度的显著优势;

- 结合此前包含更多基础和高频资金流、财务指标的用户因子$LSTM
{pro}$,实现了跨领域因子信息融合,令综合因子效益达到历史最高,其中多头收益和波动性均有提升,体现因子多样化扩展带来投资组合优化;
  • 具体图表和数据全面展示了因子构建、回测和策略实现的全过程,算法框架较为清晰,结果稳健,具有很强的实用和参考价值;

- 因子在不同市值层次中表现差异明显,尤其在小盘股中效果更佳,为投资组合配置提供了具体应用政策;
  • 风险提示中提醒投资者因模型依赖历史数据,未来可能市场环境变化导致优效难以持续,需持续模型监督与风险管理。


综上,报告系统地验证了深度学习技术赋能技术分析选股的可行性和高效性,尤其通过遗传算法进行因子优化并结合图形状态深度挖掘,实现了选股因子的高信息含量和丰富性,提升了实际策略的选股效果和风险收益表现。

---

备注


  • 本文中的RankIC(Rank Information Coefficient)是因子预测排序和股票期望收益相关性的排序相关指标,越高表示因子预测越有效。

- RankICIR是RankIC的稳定性指标,即信息比率,表现因子预测的持续有效性。
  • 10分组多空对冲是业内常用的分层回测方法,是指按因子分为10组,买入表现最好的组,卖空表现最差的组来进行多空对冲收益测算。

- LSTM(长短时记忆网络)是一种适合时序数据的深度学习模型,善于捕捉时间依赖性。
  • 遗传算法属于进化计算范畴,用以优化变量组合,防止模型过度拟合并提升泛化能力。

- 报告严谨采用回归残差分析验证不同因子间信息含量冗余及互补,提升了分析的科学性。

---

溯源标注


涉及结论及数据均来自报告正文与图表内容,详细页码如下:
[page::0,1,2,3,4,5,6,7,8,9]

---

总结



开源证券金融工程团队的该报告为深度学习赋能技术分析提供了系统方案和实证案例。通过精细的量价技术指标、拟态图像的状态划分、遗传算法筛选,以及LSTM深度学习方法的整合,展现了深度学习技术在技术分析领域的实际选股潜力和改进空间。报告不仅对传统技术指标进行创新处理,也突破图形形态识别的计算局限,开创了结构化状态变量+深度序列模型的全新路径。综合因子的持续优异表现充分体现模型的应用价值和未来的发展潜力。

该报告是机器学习投资研究的成熟范本,值得金融量化分析师与模型研究者深入研读和借鉴。

---

报告