`

再探西蒙斯投资之道:基于隐马尔科夫模型的选股策略研究

创建于 更新于

摘要

本报告基于隐马尔科夫模型(HMM),借鉴语音识别技术,提出股票涨跌预测模型和相应的选股策略。该策略以中证500成份股为池,利用6个价量特征构建HMM因子,按因子排序选股并进行行业中性优化。回测结果显示,行业中性策略年化超额收益16.19%,最大回撤9.69%,信息比达到2.14,显著优于基准和非行业中性方案,表现稳健且具备实用价值[page::0][page::4][page::15][page::22]。

速读内容


传奇基金与隐马尔科夫模型背景介绍 [page::0][page::3][page::4]

  • 大奖章基金自1988年成立至2010年,年均净收益超过35%,远超标普500指数。

- 牛熊市均表现卓越,获90%以上单年回报。
  • 投资团队背景包含HMM和语音识别领域专家,隐马尔科夫模型被推测为其投资模型秘密[page::0][page::3][page::4]。


隐马尔科夫模型核心及其在股票涨跌预测中的应用 [page::5][page::8][page::10][page::11]

  • HMM模型包含状态转移概率、观测概率和初始状态概率,适用序列预测并解决概率计算、模型学习与预测问题,常用前向-后向、Baum-Welch和维特比算法。

- 受语音识别启发,设计两个HMM模型UP与DOWN,分别描述股票上涨和下跌模式。
  • 以6个价量因子(日涨跌幅、换手率、市值等)为观测,滚动训练,预测5日后股价涨跌。

- 预测时比较观测序列在UP和DOWN模型下的生成概率,概率大者对应预计涨跌状态。

HMM因子构建与训练参数设置 [page::12][page::13][page::14]

  • 观测向量维度为6,数据缺失以历史值填充,异常值用均值±3倍标准差截断后z-score标准化。

- 训练周期为5个交易日,滚动训练样本往前推10个周期采集约5000个训练样本。
  • 网格搜索确定超参数:隐藏状态数3,观测序列长度10,高斯混合模型分模型数2[page::13][page::14]。


HMM因子超额收益能力及分档表现 [page::16][page::17]




  • HMM因子IC均值为0.082,表现稳定为正。

- 因子值划分为10档,因子值越高档收益越好,分档收益曲线呈明显单调关系。

多空对冲策略表现及统计分析 [page::17][page::18][page::19]



| 组合 | 累积收益率 | 年化收益率 | 波动率 | 信息比 | 最大回撤 | 胜率 |
|--------|------------|------------|--------|--------|----------|-------|
| 多空 | 9202.96% | 48.68% | 16.93% | 2.88 | -15.74% | 66.96%|
| 多头 | 2289.53% | 32.01% | 35.54% | 0.90 | -64.10% | 58.75%|
| 中证500 | 122.83% | 7.26% | 33.64% | 0.22 | -71.72% | 56.07%|
  • 多空对冲策略实现近49%年化收益,最大回撤-15.74%,调仓胜率66.96%。

- 分年度表现稳定大多正收益,仅2017年表现较弱。

中证500指数对冲策略表现(非行业中性)[page::18][page::19]



| 组合 | 累积收益率 | 年化收益率 | 波动率 | 信息比 | 最大回撤 | 胜率 | 平均换手率 |
|--------|------------|------------|--------|--------|----------|-------|------------|
| 指数对冲 | 401.46% | 14.82% | 8.33% | 1.78 | -19.94% | 59.11%| 32.88% |
| 多头 | 983.23% | 22.66% | 35.33% | 0.64 | -63.75% | 58.39%| 32.88% |
| 中证500 | 122.83% | 7.26% | 23.79% | 0.31 | -71.72% | 56.07%| |
  • 非行业中性指数对冲策略年化超额收益14.82%,信息比1.78,但波动及回撤偏高。

- 2017年后表现下降明显。

行业中性优化与策略表现提升 [page::20][page::21]



| 组合 | 累积收益率 | 年化收益率 | 波动率 | 信息比 | 最大回撤 | 胜率 | 平均换手率 |
|--------|------------|------------|--------|--------|----------|-------|------------|
| 指数对冲 | 455.40% | 16.19% | 7.57% | 2.14 | -9.69% | 63.39%| 31.48% |
| 多头 | 1071.94% | 24.03% | 35.74% | 0.67 | -65.01% | 59.11%| 31.48% |
| 中证500 | 122.83% | 7.26% | 23.79% | 0.31 | -71.72% | 56.07%| |
  • 行业中性策略年化超额收益提升至16.19%,最大回撤降至9.69%,信息比达到2.14。

- 策略更稳健,回撤大幅缩小,风险更可控。

综合表现对比 [page::22]


| 策略 | 多空对冲 | 非行业中性 | 行业中性 |
|------------|--------------|--------------|------------|
| 对冲标的 | 最低档股票 | 中证500指数 | 中证500指数|
| 累积收益率 | 9202.96% | 401.46% | 455.40% |
| 年化收益率 | 48.68% | 14.82% | 16.19% |
| 波动率 | 16.93% | 8.33% | 7.57% |
| 信息比 | 2.88 | 1.78 | 2.14 |
| 最大回撤 | -15.74% | -19.94% | -9.69% |
| 胜率 | 66.96% | 59.11% | 63.39% |
| 平均换手率 | 50.12% | 32.88% | 31.48% |
  • 多空对冲策略收益最优,但行业中性策略在回撤和信息比上更优,风险调整后表现更稳健。


风险提示 [page::0][page::22]

  • 基于历史数据的回测不保证未来表现,策略有效性可能因市场结构和交易行为改变而减弱。

- 策略存在过拟合风险以及随着同类策略增多可能有效性下降。

深度阅读

金融研究报告详细解析


报告标题:《再探西蒙斯投资之道:基于隐马尔科夫模型的选股策略研究》


作者及发布机构:

  • 作者:罗军、安宁宁、史庆盛

- 机构:广发证券发展研究中心

日期与主题:

  • 回测区间涵盖2007年至2018年8月

- 主题聚焦于利用隐马尔科夫模型(HMM)构建股票选股策略,实证基于中证500成份股池的应用效果

报告核心论点与目标:

  • 该报告从金融传奇人物詹姆斯·西蒙斯及其文艺复兴科技“大奖章基金”的成功案例出发,提出HMM模型可能是奖章基金长期超额收益的关键技术。

- 将HMM语音识别建模的思想迁移至股票市场,利用价量信息(换手率、涨跌幅等6个指标)作为观测序列,通过两个独立训练的HMM模型分别刻画上涨与下跌股票的动态模式。
  • 利用模型输出的观测序列概率作为选股因子(HMM因子)排序股票,形成多档投资组合,回测表现出色,尤其是在行业中性调整后,年化超额收益达16.19%,最大回撤-9.69%,信息比为2.14。

- 报告强调该策略虽表现优异,但存在模型假设风险,市场结构及参与者变化可能导致策略失效。

---

一、背景介绍



1.1 传奇投资者詹姆斯·西蒙斯及大奖章基金表现

  • 西蒙斯是数学家出身,重数学建模,放弃传统基本面分析,建立量化投资模式。

- 奖章基金自1988年设立至2010年西蒙斯退休,净年均收益率超35%,远超同期标普500指数。
  • 特别市场动荡期(2000年科技股灾、2008年金融危机)表现更佳,净回报均接近100%,扣除管理费和绩效提成后结果依旧惊人。

- 其长期稳健的业绩引发市场极大关注和大量猜测其背后的秘密模型。

1.2 HMM可能是神秘“法宝”

  • 文艺复兴科技核心团队中汇聚大量数学、统计、语音识别领域专家,如鲍姆等。

- HMM在语音识别和生物信息学领域的成功启发团队将其用于金融时间序列分析和预测。
  • 西蒙斯本人认为投资与语音识别高度相似,因而引入大量语音识别专家。

- 早期报告验证HMM在指数择时中的有效性,本报告将验证应用于股票选股中。

(图1-大奖章基金历年净回报率图,展现基金与标普500近年收益对比,图示基金回报高且波动较低)

[page::0,3,4]

---

二、隐马尔科夫模型(HMM)概述



2.1 HMM定义及基本假设

  • HMM为时序概率模型,假设存在不可观测的“隐状态”序列,通过隐状态产生相应观测序列。

- 由三部分组成:初始状态概率分布π、状态转移概率矩阵A和观测概率分布B。
  • 基于齐次马尔科夫假设:当前状态依赖于上一个状态;观测仅与当前状态相关,互相独立。

- 模型形式为 λ = (A, B, π)。

2.2 HMM三大核心问题与解决算法

  • 概率计算问题:如何计算给定观测序列概率,利用前向-后向算法将计算复杂度从指数级降低到多项式级。

- 参数学习问题:利用Baum-Welch算法(EM算法变体)估计模型参数,使得观测序列概率最大化。
  • 预测问题:利用维特比算法寻找最大概率状态序列,实现最佳隐状态路径推断。


2.3 语音识别中的华丽应用

  • 案例:将连续语音波形切分成短帧提取特征,训练不同词的HMM模型。

- 识别时,计算输入序列对应每词模型的生成概率,概率最大模型对应正确识别单词。
  • 本研究启发:将此“模式识别”方法转用于股价涨跌预测。


(图2-高斯混合模型示意图)

(图3-4 经典HMM语音识别训练及识别流程图)


[page::5,6,7,8,9,10]

---

三、基于HMM的股票涨跌预测模型构建



3.1 模型设计核心假设:

  • 上涨和下跌这两类股票分别存在可刻画的、独立的模式,由两个HMM模型分别描述(UP模型和DOWN模型)。

- 股票的价量信息满足HMM假设,隐含状态驱动观测序列,实现涨跌趋势的动态捕捉。

3.2 输入观测特征

  • 观测变量由6个价量指标组成,具体为:相对开盘价的收盘价涨跌幅、相对开盘价的最高价与开盘价差、开盘价与最低价差、换手率、前一日收益率和流通市值。

- 特征经过缺失值填充、极值处理(均值±3σ截断),以及截面z-score标准化,确保数据质量与同质性。

3.3 训练流程与参数设定

  • 调仓及预测周期均设定为5个交易日。

- 训练样本选取过去10个周期股票涨跌标记,分别构造UP和DOWN模型数据集。
  • 参数调优采用网格搜索,最终确定隐状态数N=3,观测序列长度Q=10,高斯混合模型分量数M=2。

- 模型以滚动窗口训练方式适应市场动态变化。

模型训练与预测流程示意:


(图5-6 HMM模型训练及预测流程图)



实际简化例子说明(漫画式示范概率计算):

  • 假设换手率为唯一特征,长度2,状态数2

- 初始状态为q1,状态转移与观测概率如图7-8
  • 观测序列{0.8, 0.4}在该模型下概率为0.168

(图7-8 状态转移图与观测概率分布示意)


[page::11,12,13,14]

---

四、策略逻辑与实证表现



4.1 策略原理

  • HMM模型训练得到“上涨模式”UP模型后,用观测序列概率(HMM因子)对股票进行排序。

- 根据HMM因子值大小,将股票分为10档,优先买入最高档,形成多头超配组合。
  • 调仓周期为5天,剔除停牌及ST股,采用多空双向对冲或指数对冲多种策略。

- 为降低交易成本,针对调仓机制进行了持仓延续分数提升优先保留措施。

4.2 实证研究



4.2.1 因子有效性

  • 因子IC(截面相关系数)均值0.082,稳定为正,表现出良好的预测能力(图10)。

- 不同档位分档收益表现单调,从最高档到最低档累计回报差异显著(图11-12)。

(图10-12 HMM因子IC序列、分档表现及累积收益率)




4.2.2 多空对冲策略表现

  • 多空策略年化收益48.68%,最大回撤-15.74%,信息比高达2.88(表1,图13)。

- 各年度大部分年份呈现正超额收益,策略稳定性良好(表2)。

(图13 HMM多空策略净值曲线)


4.2.3 指数对冲策略(非行业中性)

  • 年化超额收益率14.82%,最大回撤-19.94%,信息比1.78(表3,图14)。

- 策略表现持续,唯2017年及之后表现较差(表4)。

(图14 选股策略指数对冲净值曲线)


4.2.4 行业中性指数对冲

  • 采用行业中性配置权重分配,控制行业偏好风险。

- 年化超额收益16.19%,最大回撤-9.69%,信息比2.14,整体表现优于非行业中性策略(表5,图15)。
  • 年度表现多为正向,2017年依然表现疲软(表6)。


(图15 行业中性选股策略净值曲线)


综合指标


| 策略类型 | 多空对冲 | 非行业中性 | 行业中性 |
| --- | --- | --- | --- |
| 累积收益率 | 9202.96% | 401.46% | 455.40% |
| 年化收益率 | 48.68% | 14.82% | 16.19% |
| 波动率 | 16.93% | 8.33% | 7.57% |
| 信息比 | 2.88 | 1.78 | 2.14 |
| 最大回撤 | -15.74% | -19.94% | -9.69% |
| 胜率 | 66.96% | 59.11% | 63.39% |
| 平均换手率 | 50.12% | 32.88% | 31.48% |
(表7综合表现)[page::15,16,17,18,19,20,21,22]

---

五、风险提示

  • 报告明确指出模型基于历史回测,存在潜在失效风险。

- 市场结构、交易行为变化及类似交易主体增多可能影响策略有效性。
  • 并未完全考虑交易成本、市场摩擦等因素对策略的实际表现影响。


---

六、批判性视角与细微差别

  • 该研究充分借鉴语音识别领域的经典方法,实现跨界创新,实证细节较为丰富。

- 模型建立在隐状态平稳转移的假设上,然而股市非平稳性极强,未来市场行为结构变化可能导致模型显著失效。
  • 选取的特征偏重价量信息,未涵盖宏观、基本面等多元因素,可能造成信号局限。

- 交易策略盈利能力或因市场反馈而逐渐衰减,尤其在策略广泛传播后。
  • 2017年以来表现下滑值得关注,或反映市场趋势性质改变或策略过度拟合。

- 滚动训练与参数调优虽有助于跟踪市场风格变化,但参数选择过程仍有机器学习中的过拟合风险。
  • 多空对冲策略虽收益突出,但实际卖空限制较多,执行难度高;多个对冲方式和成本未充分探讨。


---

结论性综合



本报告通过将隐马尔科夫模型——一种在语音识别领域久经考验的时序概率模型,创新地引入金融选股领域,构造了基于价量信息的双模型涨跌预测机制。该机制通过训练分别描述股价上涨与下跌状态序列的独立HMM模型,从而计算个股对应的上涨概率(HMM因子),构建多档股票池并选取最优档超配。

实证结果显示,基于HMM因子的选股策略在中证500成份股池内表现优异:因子IC稳定为正,各档收益区分明显。多空对冲策略年化收益高达48.68%,信息比2.88,最大回撤仅15.74%。指数对冲版本也取得14.82%—16.19%的年化超额收益,风险指标同样优异。通过行业中性调整有效降低最大回撤,提高信息比,展现策略的稳健性和适应性。

详细的图表支持了这些实证结论:
  • 图10展示HMM因子IC波动但总体正相关,表明因子稳定的预测能力;

- 图11和12强调因子分档后收益的显著区分和单调性;
  • 图13至15净值曲线体现策略超越基准的持续能力;

- 表1至7详细列示了收益、波动率、最大回撤等多个维度指标,验证策略的高效性与实用性。

然而,风险提示也明确指出模型效果假设基于历史数据,未来可能失效;市场结构变化和竞争策略加剧是重要限制因素。

综上所述,报告从理论原理、实证数据及风险视角多角度充分论述了基于隐马尔科夫模型构建的选股策略,其数据支持与模型创新兼备,为数量投资策略研究提供了重要参考,同时对实际应用中需关注的风险提出了合理警示。[page::0,3,4,5-22]

报告