`

基于深度组合的选股策略

创建于 更新于

摘要

本报告借鉴深度组合理念,使用自编码网络从沪深300及中证500股票的历史价格序列中提取非线性特征,实现基于深度学习的选股策略构建。实证表明该策略在2010-2017年期间,最大回撤8.33%下获得18.37%的年化收益,优于传统动量策略。报告还引入损失函数指标用于策略置信度检验,有效提升策略稳定性和收益表现,验证了深度组合处理股票价格序列挖掘因子的实用性和优势 [page::0][page::8][page::9][page::12][page::13][page::14]

速读内容

  • 深度组合基本架构与理论基础 [page::0][page::1][page::3][page::4]:


- 使用深度神经网络从股票过去价格序列提取非线性因子,替代传统线性多因子模型。
- 该方法兼容Markowitz均值-方差模型、CAPM、Black-Litterman模型,多因子风险管理及信息论视角。
- 通过自编码网络减少数据维度并提取有效特征,克服传统因子提取难题。
  • 自编码特征学习与分类预测构建过程 [page::5][page::6][page::7]:



- 自编码网络编码解码股票120日收益率序列,损失函数delta(W)衡量信息损失,作为置信度指标。
- 利用学习特征对未来一期 $\intercal{+}1$ 收益率是否超过基准构建分类模型,转化为二分类问题。
- 损失函数指标用于剔除置信度低股票及判断策略整体有效性。
  • 选股策略实证及性能表现 [page::8][page::9][page::10]:




- 沪深300股票池回测,采用69-90-5-10-100-3深度网络结构,实现等权及概率配权两种权重分配方式。
- 策略年化收益达18.37%(等权)及19.69%(配权),最大回撤分别为8.33%和8.64%,显著优于传统动量策略。
- 在中证500股票池同样取得19.03%年化收益和9.61%最大回撤,验证适用性和稳健性。
  • 策略归因与风格特征分析 [page::11]:



- 策略偏向小市值、高盈利、动量和高流动性股票。
- 行业倾向配置电子元器件、医药、房地产和机械,较低配传媒、银行和国防军工。
- 使用统一模型导致一定行业与风格偏好。
  • 损失函数指标应用及优化回测 [page::12][page::13]:



- 损失函数与策略月度收益负相关且无滞后特性,相关系数绝对值达0.378。
- 利用该指标动态剔除置信度低时间段,放弃该策略采用基准投资,提升稳健性。
- 该优化策略回测显示最高年化收益19.99%,最大回撤下降至6.14%。
  • 深度组合策略优势与未来展望 [page::13][page::14]:

- 具有学习非线性复杂特征的能力,可利用高频和海量数据挖掘更多信息。
- 特征维度可控,且严格训练回测分离缓解过拟合问题。
- 缺陷主要是“黑箱”难解释,但引入置信度指标提升风险管控能力。
- 未来重点应用于高频及日内交易层面,结合更多数据提高表现和策略复杂度。

深度阅读

报告名称:基于深度组合的选股策略


报告作者:刘富兵、殷明
发布机构及时间:留富兵法,2017年7月11日15:50
研究主题:应用深度学习构建非线性选股策略,尤其基于沪深300及中证500股票池的实证研究。

---

1. 元数据与报告概览



本报告聚焦于将深度学习中的“深度组合”理论应用于金融选股领域,具体通过深度神经网络提取复杂非线性因子,构建股票组合策略。报告指出传统线性多因子模型因市场风格变化等因素出现逐渐失效,深度组合在某些传统策略表现不佳的年份具有较优表现。该策略通过自编码网络挖掘价格序列特征,并通过分类模型输出股票未来相对收益的置信度,从而实行组合构建。报告实证回测结果显示,沪深300股票池中策略在2010年至2017年期间取得约18.37%的年化收益,最大回撤仅8.33%,表现优于传统动量策略。今年策略也表现出7.11%的超额年化收益,最大回撤降至1.33%。报告旨在探讨实现非线性选股的新路径,并解决神经网络“黑箱”及过拟合问题,提升策略可解释性和稳定性。[page::0]

---

2. 报告内容逐章节详细解读



2.1. 引言:传统因子问题与深度组合的提出



量化选股的核心在于从股票池中识别稳定的因子以构建优质组合。随着时间推移,传统线性因子逐渐难挖掘且表现不稳定,甚至失效。深度组合借助深度神经网络提取复杂非线性特征,尝试突破传统因子瓶颈。报告指出此非线性组合虽稳定性不及传统多因子,但在部分年份超额收益优异,展现良好的补充效果。体现了深度组合跨越线性假设,探索更复杂市场结构的创新尝试。[page::0]

2.2. 深度组合的基本理念与方法论



深度组合最早由Heaton(2016)提出,用深度神经网络提取因子并构建组合,核心区别在于引入了多层非线性结构。报告深入浅出介绍了深度神经网络结构,包括“输入层—多个隐含层—输出层”的架构。增加隐含层数可学习更复杂非线性特征,非线性激活函数赋予模型强表达能力。该过程与传统基于因子的线性组合截然不同,因子不经过手工筛选和正交化,而由网络自动提取。通过示意图(图1),报告形象展示了数据如何作为输入,经过多层变换后输出分类标签(例如股票未来涨跌概率)。[page::1]

2.3. 深度组合的构建步骤


  • 数据输入:输入为选股池中各股过去T期收益率,本报告以120日收益率序列为样本。

- 自编码器提取隐含模式:应用自编码网络处理输入序列,提取蕴含价格的非线性隐含特征,这一步实质为降维和去噪,挖掘共同市场模式。
  • 分类预测:将输出目标转为分类任务,例如定性股票未来表现是超越市场还是落后,并计算对应概率置信度,进而用于权重分配。


这里隐含一个强假设:历史价格包含全部可预测因子信息。此假设虽较强,但为模型的理论支撑。实际操作中,通过损失函数等指标判断模型稳定度及失效。[page::2]

2.4. 深度组合的理论基础:兼容传统金融理论视角



报告分别从金融经典理论(均值-方差、CAPM、Black-Litterman)和信息论、传统多因子模型角度解释深度组合合理性。实质上,深度组合是对市场特征的复杂编码与抽象:
  • Markowitz模型通过均值向量及协方差矩阵体现特征,深度组合通过神经网络的隐含层节点抽象出更多复杂特征。

- 以信息论角度看,神经网络实现信息的编码与最小损失传递,避开高维噪音数据,提炼有效信号。
  • 传统多因子模型中的“因子”与深度组合中隐含层节点捕抓的“模式”异曲同工,均视为不随短期改变的价格规律或风险因素,区别在于深度组合非线性表达能力和自动构造方式。


总体来看,深度组合非颠覆性创新,而是对传统理论的扩展与深化。[page::3] [page::4]

2.5. 自编码器在特征学习中的应用与策略设计



报告深入解读了自编码网络的结构(图2),包括输入层(过往收益率序列)、中间隐含层(特征表示Z向量)、输出层(复原输出Y),以及编码和解码权重矩阵。利用最小化数据重构误差的损失函数(\(\Delta(W)\))训练神经网络,损失函数越小则特征表示越准确。通过该指标,可以剔除编码解码误差高的股票,优化样本选取,同时对整体模型有效性进行量化监控。
损失函数充当策略有效性检验指标,指导采用何时聚焦信号何时放弃信号,防范策略失效导致的负效应。
之后,利用提取的特征完成经典的股票二分类问题(未来是否跑赢基准),采用交叉熵损失进行优化。示意图(图3)辅助说明了这一流程。
这种转化简化了复杂非线性预测为概率分类任务,使得策略构建更直观,更具解释力。[page::4] [page::5] [page::6] [page::7]

---

3. 实证分析与策略表现



3.1 数据准备及模型架构确定



报告选用A股2000年至2017年5月的日度价格数据,时间上分为训练集(2000-2008年)、验证集(2009-2010年)和测试集(2011-2017年)。输入特征包括近60日和9个月的累计收益率共69维。数据处理应用停牌剔除、Z-Score标准化。模型结构调参通过验证集确定多层深度神经网络架构,例如最终选取69-90-5-100-3等参数组合结构。[page::7]

3.2 策略构建及换仓逻辑


  • 换仓周期设为月度,考虑交易限制。

- 换仓当日,针对沪深300成分股计算编码损失和分类概率。对损失过大(>30)的股票剔除。
  • 选取排名前20%(约50只)的高置信股票,采用等权或概率权重方式做多。

- 不进行行业或风格中性处理,利用深度网络本身能力学习市场风格。[page::8]

3.3 沪深300实证结果



图6(等权策略)和图7(权重配比策略)显示,深度组合策略净值明显跑赢沪深300基准及传统动量策略(浅蓝色线),并且在2013至2015动量效应强烈时期表现尤佳,整体表现更为稳健。回撤方面最大为8.33%,年化收益约18.37%-19.68%。说明非线性特征学习有效增强选股能力,提升了策略稳定性和收益水平。不同配权方法净值走势差异较小,验证深度组合本身结构优势。[page::9]

3.4 中证500股票池验证



类似策略框架在中证500股票池也取得优异成绩,年化收益19.03%、最大回撤9.61%(表5)。说明深度组合非线性信号在不同规模及市场板块均具有较强推广性。[page::10]

3.5 归因分析:策略风格与行业偏好



由于采用统一模型,策略更多捕获价格模式共性,难以针对单一股票差异精细建模。使用Barra八大风格因子及行业仓位回归归因(图9、图10),策略偏好小市值、高盈利、动量强和高流动性股票,行业偏向电子元器件、医药、房地产、机械,低配传媒、银行等。归因显示策略虽然基于纯价格信息发掘模式,但仍显示明确风格与行业偏好,与传统因子体系有一定交叉与互补。[page::11]

3.6 损失函数指标的预测能力验证



图11展示了月度策略收益率与损失函数的反向相关性,大损失对应策略低收益,小损失时策略表现优异。损失函数作为“置信度指标”领先于策略收益的特点,为动态调整仓位或策略切换提供了量化依据。两者相关性达0.38(绝对值),体现了该指标的显著预测能力和非滞后性。[page::12]

3.7 利用损失函数优化策略稳定性



通过设置损失函数阈值,当指标高于100时放弃当天策略使用基准仓位,显著提升了策略稳定性。图12展现该“高置信度过滤策略”的净值,最大回撤从8.33%降到6.14%,年化收益从18.37%增至19.98%,风险收益表现双双改进,验证了预测指标的实用性与有效性。[page::13]

---

4. 图表深度解析



图1:深度神经网络示意图(第1页)



展示多层隐含层间密集连接的拓扑结构,形象显示如何通过多层非线性变换抽取深层特征。输入层为历史股价数据,隐含层体现多层非线性因子,输出层输出分类结果(如涨跌概率)。帮助读者直观理解深度组合的非线性因子构造机制及数据流转过程。[page::1]


图2:简化自编码网络示意(第5页)



三层结构展示编码和解码过程,输入层为120日收益率向量X,隐含层为压缩特征Z,输出层为恢复数据Y。公式明确说明编码权重W1与解码权重W2如何利用线性变换和激活函数抽取和还原信息。自编码网络的损失函数则用来评价编码解码过程信息保留程度,作为策略有效性指标使用。[page::5]


图3:利用特征分类示意(第7页)



自编码阶段隐含层特征Z保留下来,并附加分类任务,即根据下一期是否战胜基准指数分类输出Y,转化为经典二分类问题。说明从非线性特征到投资决策的映射过程,优化目标为交叉熵,模型更复杂但示意图简明直观。[page::7]


图6:沪深300等权做多选股策略收益曲线(第9页)



深蓝线为深度组合策略净值走势,明显优于灰色沪深300基准和浅蓝色动量策略。黄色代表对冲指数后的净值。图示反映深度组合在不同市场环境下均能稳健跑赢其他基准且回撤较低。重要特征是2013-2015年动量强时段的显著超额收益及2015年股灾期间回撤控制能力较佳。[page::9]


图7:按输出概率权重配比策略收益曲线(第9页)



类似图6,权重配比方式相比等权略提升收益,最大回撤稍高,但总体走势一致,说明非线性输出的概率为权重赋值提供有益信息,两种配权方法对策略整体属性无显著差异。[page::9]


图8:中证500成分股深度组合策略表现(第10页)



净值曲线显示策略同样在中证500具有良好效果,明显优于基准,表现稳定。对不同市场规模及结构有一定普适性。[page::10]


图9-10:风格及行业偏好(第11页)



柱状图清晰展示策略偏好和回避的风格与行业因子。风格上偏好小市值、动量、流动性高及盈利能力强的股票;行业偏向电子、医药、房地产,回避传媒、银行等。表明深度组合尽管无手动风格中性,但内含风格表现,说明模型具备自动风格学习能力。[page::11]



图11:月度策略收益与损失函数关系(第12页)



柱状图(收益)与折线图(损失)反向波动,损失函数领先收益变化。说明损失函数不仅能有效反映特征抽取效果,还能作为控制策略风险的预警指标,具备现实投资指导意义。[page::12]


图12:损失函数过滤后的策略收益曲线(第13页)



在置信度低时放弃策略,持仓基准结果收益稳健且最大回撤大幅降低。展示了指标优化策略后稳定性的显著提升,体现损失函数指标实际操作价值。[page::13]


---

5. 估值分析



本报告主要关注策略构建及实证,未涉及传统公司的财务估值模型(如DCF、市盈率分析),故无相关估值分析章节。报告重点在模型结构、训练、风险管理指标及策略表现。

---

6. 风险因素分析



报告指出深度组合策略存在以下风险:
  • 黑箱问题:神经网络隐含非线性特征难以用传统金融指标直观解释,难以完全洞察因子风险。

- 策略失效风险:策略依赖价格序列包含全部有效因子信息的强假设,市场风格突变或数据特征变动可能导致模型失效。
  • 过拟合风险:深度模型庞大参数量可能导致过拟合,造成回测良好但实盘表现差。

- 报告中引入损失函数作为风险控制指标和策略有效性判断工具,实时检测和规避失效时段,减少风险暴露。
  • 未对市场风格或行业做中性化,导致策略风格和行业偏好较为明显,增加风格集中风险。


报告承认深度组合策略在稳定性及风险控制上仍不及传统多因子策略,未来研究方向需强化风险处理,缓解黑箱疑虑。[page::13]

---

7. 审慎观点与潜在不足


  • 报告强调深度组合非线性特征的重要性及其对传统因子选股的补充效果,表现出作者对深度学习在量化策略中的应用持乐观态度,某种程度上有期望未来深化挖掘的倾向。

- 策略构建完全依赖价格序列数据,忽略财务、基本面等多源信息,假设过强,现实市场或不满足,模型鲁棒性存疑。
  • 采用统一模型框架处理所有个股,虽然提升训练效率,但导致风格与行业偏好显著,对个股特色挖掘不足。

- 损失函数指标虽被证明有较好相关性,但绝对相关系数仅约0.38,预测强度有限,后续需结合更多指标共同使用。
  • 策略未进行风格及行业中性调整,可能导致收益波动较大,降低策略组合稳定性。

- 报告未详细披露模型训练过程中的数据泄露、样本外检验等机器学习风险防范细节。
  • 指标阈值(如30、100)选择方式未具体明示,缺少敏感度分析,存在潜在的经验主义风险。


整体而言,报告内容科学严谨,结合大量机器学习方法与金融理论,创新性强,但风险与假设限制较大,需谨慎应用。[page::0-14]

---

8. 结论性综合



本报告系统地提出并实证验证了基于深度组合理念的选股策略,核心亮点包括:
  • 利用深度神经网络实现对价格序列的非线性隐含因子提取,转化为股票未来超额收益的分类概率预测,替代传统多因子线性组合模型。

- 自编码网络结构有效降噪和抽象价格信息,损失函数既作为优化目标又作为策略有效性检测指标,创新性地解决了投资中的“黑箱”与过拟合风险。
  • 实证覆盖沪深300与中证500两个典型中国股票池,结果显示年化收益接近18%-20%,最大回撤均控制在9%以内,表现明显优于传统动量策略,且能较好适应不同市场环境。

- 策略表现非线性因子在传统选股体系失效年份表现突出,体现不同年份与传统因子模型互补,具有较好的多策略整合潜力。
  • 通过指标动态过滤低置信度周期,有效减少回撤并提升收益稳定性。

- 风格与行业偏好明显,暴露策略统一建模带来的归因缺陷,未来需细化个股模型以提升稳定性和风格均衡。

综合来看,报告深入阐释了机器学习与金融因子研究的有机结合路径,基于深度组合的非线性选股策略既不完全取代传统方法,也不会成为孤立存在,而是为量化投资研究增强思路、丰富手段,拓宽了因子提取和投资策略设计的视野。报告对相关图表和数据的细致解读增强了结论的说服力,体现了该方法在实务中具有较强的应用潜力及创新价值。未来随着日内高频数据的引入,模型复杂度及潜力预计将进一步释放,值得持续关注和深入研究。[page::0-14]

---

总结



本报告以系统且详实的内容,揭示了深度学习技术,特别是自编码网络在非线性因子训练与策略构建中的应用价值,通过大数据和深层神经网络挖掘传统选股方法难以捕获的复杂特征,为量化投资领域提供了有益补充和前沿探索。报告同时具备理论基础、技术细节和实证验证,结构完整,内容丰富,是深度学习赋能金融选股领域的经典案例之一。

报告