新量化分类选股: Cluster 量化选股策略
创建于 更新于
摘要
本报告基于Cluster无监督分类方法,对沪深300成分股进行收益率序列聚类,结合动量与反转因子构建选股策略。实证显示,Cluster动量策略在2006-2009年实现503.22%的累计收益,显著优于沪深300指数同期276.87%的收益,并且在样本外检验中依然具备超额收益能力。相比之下,Cluster反转策略表现逊色,不建议采用。报告还给出基于最优参数的近期股票组合推荐,展示了Cluster策略在分散性和稳定性的优势,验证了其在量化因子投资中的独特价值[page::0][page::3][page::4][page::9]。
速读内容
Cluster分析方法介绍与优势 [page::0][page::1]
- 利用股票收益率序列,采用改进的K-中心点聚类算法,计算股票间曼哈顿距离完成聚类。
- Cluster方法无需预先定义类别,参数依赖较少,利用整个采样期数据,分类更为可靠。
- 适用于众多行业,尤其在金融量化选股中能够较好挖掘股票相似性。
Cluster动量选股策略表现 [page::2][page::3][page::4]
| 持有期\采样期 | 5周 | 10周 | 15周 | 20周 | 25周 |
|--------------|----------|----------|----------|----------|----------|
| 采样期5周 | -72.47% | 11.97% | 38.28% | 226.35% | 101.34% |
| 采样期10周 | 157.50% | 134.51% | 485.25% | 77.57% | 145.77% |
| 采样期15周 | 35.83% | 99.75% | -62.38% | 11.28% | 93.46% |
| 采样期20周 | 122.33% | 86.81% | -0.38% | 76.70% | -23.03% |
| 采样期25周 | -106.73% | -61.37% | -35.05% | 30.02% | -100.73% |
- 最佳参数为采样期5周、持有期20周,Cluster动量策略明显超越传统动量策略和沪深300指数。
- 各取样序列的验证显示策略收益稳定且持续优于单纯动量策略。
- 累计收益曲线对比(见封面图)凸显Cluster策略的优势与稳定性。
Cluster反转策略效果不佳 [page::4][page::5]
| 持有期\采样期 | 20周 | 25周 | 30周 | 35周 | 40周 |
|--------------|----------|----------|----------|----------|----------|
| 采样期20周 | 89.54% | 13.67% | 131.79% | 59.99% | 89.09% |
| 采样期25周 | -26.24% | 140.12% | 47.73% | 76.78% | -29.06% |
| 采样期30周 | 1.03% | 196.45% | 60.49% | 41.53% | -39.23% |
| 采样期35周 | 97.44% | 422.23% | 276.03% | 182.57% | 227.10% |
| 采样期40周 | 288.23% | 160.89% | 306.00% | 155.49% | 181.13% |
- Cluster反转策略较传统反转策略改进有限,收益不稳定且样本外表现不佳。
- 因此不推荐采用Cluster反转策略。
样本外检验验证策略稳定性 [page::5][page::6][page::7]
| 策略 | 样本外超额收益 |
| ---------- | -------------- |
| Cluster动量| 12.04% |
| 纯动量 | 1.99% |
| Cluster反转| 表现低迷,亏损 |
- Cluster动量策略保持正超额收益,且优于纯动量策略。
- Cluster反转在样本外熊市期间表现均不佳,进一步否定其实用性。
分类数目与策略收益影响 [page::7]
| 分类数K / 选股数N | Cluster动量超额收益 | 纯动量超额收益 |
|------------------|--------------------|--------------|
| 3 / 100 | 327.9% | 92.93% |
| 5 / 60 | 226.35% | 114.24% |
| 6 / 50 | 453.92% | 153.63% |
| 10 / 30 | 423.67% | 125.69% |
- Cluster动量策略在不同分类数设置下均优于纯动量选股。
量化因子构建与策略框架总结 [page::0][page::2]
- 首先通过曼哈顿距离对股票的周收益序列进行Cluster聚类,克服参数依赖和时间点限制。
- 根据采样期每类股票动量因子平均表现选出最优类,滚动持有,实现动态调仓。
- Cluster方法有效利用历史收益走势整体信息,提高因子信息稳定性,提升策略的阿尔法捕捉能力。
近期推荐组合及表现 [page::8][page::9]
- 以采样期5周,分类数5,基于沪深300选股池,选出42只股票构建投资组合。
- 市值加权组合自2010-09-08至2010-10-20累计收益约30%,显著超过同期沪深300指数。

深度阅读
金融工程研究报告 —— Cluster量化选股策略详尽分析报告
---
一、元数据与概览
- 报告标题: 新量化分类选股——Cluster量化选股策略
- 发布机构: 国海证券研究所金融工程部
- 发布日期: 2010年(具体时间未标明,但文中最后数据至2010年9月底)
- 分析师团队: 程志田(负责人)、廖庆(研究员)、张宇哲(实习生)
- 报告主题: 介绍并实证检验利用Cluster分析方法进行股票分类与选股的量化策略,重点应用于沪深300指数成分股。
核心论点与评级:
报告提出采用Cluster分析方法基于股票过去的收益率序列进行分类,再结合动量因子选取最优类别作为投资标的,形成策略“Cluster动量策略”,该策略在历史样本及样本外检验中均体现出显著的超额收益,提高了收益表现优于传统单纯动量策略。报告对“Cluster反转策略”做了分析,反转策略表现不及动量策略,也未优于传统方法,因此不予推荐。报告未直接给出单股评级目标价,但基于策略表现表达积极看法,推荐相应股票组合。
主要信息传达为:
- Cluster分析为一种基于整体收益率时间序列的无监督分类方法,避开了参数依赖性强的缺点。
- 结合动量因子在分类后进行选股,获得了显著超额收益,体现了该方法在量化选股领域的应用潜力。
- 提供了具体参数配置及实证数据,说明了策略的稳健性和优越性。
[page::0,1,2,3,4,5,6,7,8,9]
---
二、逐节深度解读
2.1 摘要与引言(页0-1)
- 关键论点:
传统股票分类方法(如行业、市值、交易所等)存在一定局限,文中提出采用Cluster分析对股票进行无监督分类——即不依赖先验类别标签,而是通过距离指标自动分群。Cluster分析方法优势是利用历史整段时间的数据,减少对参数的依赖,提升分类的稳定性和可靠性。
- 逻辑依据与假设:
假设股票收益率时间序列的“相似性”能反映潜在的共同行为特征。通过“曼哈顿距离”衡量收益率序列间差异,采用改进的K-中心点聚类算法以减少陷入局部极小的风险。
- 关键数据点与技术定义:
收益率序列定义为:
$$X{n,t} = \frac{P{n,t+1} - P{n,t}}{P{n,t}}$$
距离度量使用曼哈顿距离:
$$d(X,Y) = \sum{i=1}^n |xi - y_i|$$
K-中心点算法通过迭代优化各点到最近中心点的距离和,达到最优分类。
此部分奠定了理论基础,解释为何基于收益率序列整体进行聚类更有利于捕捉股票特征,回避了传统基于单一指标排名的缺陷。[page::0,1,2]
2.2 Cluster选股策略介绍(页2)
- 策略细节:
提出两大选股策略:
(1)Cluster动量策略——对收益率序列聚类后,选择分组中采样期表现最好的类进行持有。
(2)Cluster反转策略——对收益率序列聚类后,选择采样期表现最差的类进行持有。
- 样本数据与参数设定:
样本为2005年至2009年沪深300指数成分股剔除暂停上市和晚于2009年上市股票后的约290只股票周度数据。主要参数为采样期、持有期、类数。
- 理论假设:
动量因子在短期市场存在价格持续效应,反转因子用于捕捉价格修正,为策略提供双重视角。[page::2]
2.3 Cluster动量策略实证(页3-4)
- 实证数据与表现:
表1展示不同采样期与持有期组合条件下的超额收益,以采样期5-25周,持有期5-25周区间为例。最佳组合为采样期5周,持有期20周,累计超额收益最高达到226.35%。
对比表2单纯动量策略表现最快上涨点为采样期15周、持有20周,收益明显低于Cluster动量策略。
- 图表解读:
图1(累计收益曲线)显示,Cluster动量策略累计收益显著优于单纯动量策略及沪深300基准,走势平滑且峰值显著,说明策略在2005-2009年期间持续且有效地捕获了阿尔法。
- 稳定性检验:
考虑不同初始日期对周收益率序列产生的五个子序列,表3显示Cluster动量策略在全部序列中均优于单纯动量策略,确认其稳健性。
- 推论:
作者据此确认Cluster动量策略较传统动量策略有较大改进,且参数组合(5周采样、20周持有、5分类数)为推荐方案。[page::3,4]
2.4 Cluster反转策略实证(页4-5)
- 表现对比:
表4(Cluster反转策略超额收益)与表5(单纯反转策略超额收益)对比,结果显示单纯反转策略多数情况下胜出且更稳定。Cluster反转策略偶尔提升累积收益,但收益不稳定,甚至有恶化现象。
- 图表解读:
图2显示,两种反转策略整体走势相似,单纯反转表现稍优,Cluster反转策略的收益波动较大,不具备明显优势。
- 稳健性测试:
表6进一步显示不同序列下情况相似,普遍存在Cluster反转不优于传统反转的现象。
- 结论:
Cluster反转策略未能显著改善反转效应的捕捉表现,作者不推荐该策略使用。
[page::4,5]
2.5 样本外检验(页5-7)
- 样本外参数和时间:
选取2009年12月至2010年9月底数据进行独立样本外检验,验证策略过拟合风险及稳定性。
- 动量策略样本外表现:
表7(Cluster动量)与表8(单纯动量)对比显示,在最优参数(5周采样,20周持有)下,Cluster动量策略依然保持正超额收益(12.04%),而单纯动量策略多为负超额收益。
- 其他序列表现:
表9显示,五个子序列中,Cluster动量策略均明显优于传统动量策略。
- 反转策略样本外表现:
表10(Cluster反转)和表11(纯反转)均表现不佳,主要因样本外市场整体下跌,且持有期内只滚动一两轮,样本不足。此外反转策略本身在熊市表现差。再度验证Cluster方法未改善反转策略表现。
- 分析结论:
样本外检验加强了Cluster动量策略的信用度,反转策略不建议继续投资。
[page::5,6,7]
2.6 分类数量敏感性分析(页7)
- 参数K(类别数)设置影响:
表12对比Cluster动量策略不同分类数(3至10)下绩效,同期对比单纯动量策略对应选股数量N。
- 主要发现:
无论分类数如何变化,Cluster动量策略均超越对应的单纯动量策略,其中K=6时表现最优,累计超额收益达453.92%。说明Cluster分析聚类数目的变化对策略性能有一定影响,但不影响策略整体优越性。
- 反转策略未纳入此分析,因其表现不佳,已被否定。
[page::7]
2.7 推荐组合介绍与业绩展示(页8-9)
- 组合构建规则:
基于Cluster动量策略,5周采样期,分类数5,选出超额收益最高类别的42只股票组成推荐组合。
- 成分分析:
股票分布集中于能源、材料和金融等大类工业板块,多为市值较大蓝筹股,流通市值、区间涨跌幅和权重分布合理。
- 组合表现(图3):
2010年9月8日至10月20日间,推荐组合在流通市值加权下累计获得近30%的收益,远超同期沪深300指数约14%的收益,体现较好超额表现。
- 策略总结:
Cluster分析利用全周期收益率序列对股票进行划分后,结合动量因子选股,显著优于单纯动量策略,获得503.22%的累计收益,2010年样本外超额收益12.04%,证实策略有效性及阿尔法挖掘潜力。
- 后续方向:
报告建议结合沪深300指数做空期货进一步提纯阿尔法,后续研究将围绕提高策略稳定性和阿尔法规模开展。
[page::8,9]
---
三、图表深度解读
图0(Cluster策略上期累计收益图)
- 描述:显示2010年9月至10月沪深300与Cluster动量策略市值加权组合的累积收益对比。
- 关键趋势:Cluster组合表现大幅优于沪深300,收益率迅速攀升至30%左右,沪深300约15%。
- 关联文本:验证了Cluster策略在实际投资组合中的超额收益和市场跑赢能力。

---
表1与表2(动量策略超额收益对比)
- 描述:不同采样期与持有期限下,Cluster动量策略与传统动量策略的相对沪深300超额收益。
- 发现:Cluster动量策略在大部分参数设置下均遥遥领先,尤其采样5周、持有20周参数下效果最佳。
- 意义:表明Cluster先分类再选股的方法有效提升了收益的稳定性与幅度。
---
图1(Cluster动量策略累计收益)
- 描述:2005-2009年沪深300、纯动量及Cluster动量策略的累计收益 。
- 趋势:Cluster动量策略始终领先于其他两者,特别是市场大幅波动时期表现更突出。
- 逻辑:支撑了Cluster分类增强可选股票池均质性,提高了动量策略的风险调整收益。

---
表3(最优参数其他序列表现)
- 描述:不同周序列条件下动量策略超额收益对比。
- 解读:Cluster动量策略持续展现优越性能,表明策略不依赖具体时间点,具有较强鲁棒性。
---
图2(Cluster反转策略累计收益)
- 描述:同样时间段对比纯反转与Cluster反转策略累计收益。
- 趋势:两者表现相近,无明显稳健优势,且Cluster反转波动较大。
- 结论:强化了反转因子不足以通过Cluster技术改进的证据。

---
表12(分类数对策略影响)
- 描述:不同Cluster分类数量(K值)对应的动量策略表现,及对应单纯动量策略选股数量(N)比较。
- 解读:Cluster动量策略无论K如何变化均稳超对比策略,最佳K=6,表现最高,说明分类粒度调节能优化策略表现。
---
图3(推荐组合表现)
- 描述:2010年9月至10月推荐组合市值加权收益和同期沪深300指数对比。
- 趋势:组合曲线快速上升,显著跑赢大盘,验证文章策略短期实战有效性。

---
四、估值分析
本报告核心集中于策略开发和实证检验,未涉及具体股票的传统估值分析,如DCF或市盈率法等。估值层面更多表现为“策略绩效”层面的超额收益率,未从个股角度展开。
---
五、风险因素评估
- 隐含风险:
- 参数敏感性风险:尽管作者测试多个参数,但分类数、采样期和持有期选错可能导致策略性能差异大。
2. 市场环境依赖风险:样本外检验时间较短,且部分反转策略表现不佳,说明策略在不同市场环境(如熊市、震荡市)中的稳定性需进一步验证。
- 过拟合风险:虽然通过多样本和序列验证,但实证依然基于历史数据,未来市场结构变化可能导致策略失效。
4. 流动性风险:组合含多只中大型股票,但部分权重较小流通市值有限,可能存在交易成本风险。
- 缓解策略:文章未明确给出措施,但建议结合沪深300期货做空对冲,试图减少市场风险暴露,提升策略阿尔法稳定性。
---
六、批判性视角与细微差别
- 优点:
文章全面利用聚类分析,附以充分实证对比,数据充分,分析逻辑严密,有效展示Cluster方法的优势。
- 不足与潜在问题:
- 沟通不够具体:未明确涉及交易成本、滑点等实操细节,这对应高换手率、市场冲击风险有一定遮蔽。
2. 反转策略分析较弱:反转策略被否定,但未深入剖析其在Cluster分析中为何表现差,缺少理论层面探讨。
- 估值与基本面因素缺失:策略完全基于价格行为,忽略了基本面的定价信息,风险潜在集中于价格驱动而非价值驱动。
4. 样本外验证时间跨度较短:样本外仅9个月左右,不足以全面评估策略长期稳定性。
- 矛盾点:参数选择偏重经验调优,存在人为成分,亦可能影响策略的复制性。
---
七、结论性综合
该报告深入研究并系统阐释了利用Cluster分析进行股票分类的方法,结合动量因子设计算法化选股策略,在沪深300成分股样本及样本外数据中均表现出了优异的超额收益。具体优势体现在:
- 利用收益率序列整体特征,通过改进的K-中心点算法精准聚类,分类效果稳定且参数依赖性小。
- 结合动量因子选取表现最佳分类进行持有,策略累计收益超过传统单纯动量策略近一倍,样本外超额收益持续。
- 反转策略虽具理论意义,但通过Cluster分析未见明显提升,实际表现较为逊色。
- 多序列、多参数、样本内外多重实证验证表明Cluster策略适应性强,具有一定鲁棒性。
- 推荐组合实际操作表现良好,短期内显著跑赢沪深300指数,验证了策略实战应用价值。
- 建议结合期货对冲以提高风险调整收益,并在后续研究探索增强策略稳定性。
图表数据直观展现了聚类策略的收益优势和稳定性,反映Cluster分析为传统量化选股带来新思路和工具。本报告全面而详尽地揭示了Cluster聚类在量化投资中的应用价值,为专业投资者在市场中发掘阿尔法提供了可靠依据。
---
以上分析均基于报告原文内容,论述客观详实,旨在为读者提供对报告的深度理解和应用参考。[page::0,1,2,3,4,5,6,7,8,9,10]