`

ETF的筛选分类与轮动模型

创建于 更新于

摘要

本报告基于492只行业主题ETF基金,利用K-means和分层聚类算法筛选出12个大类40只代表性ETF,覆盖申万25个一级行业。提取14个量价、基本面和资金面因子,经单因子检测筛选出5个核心因子,构建等权合成的ETF轮动模型。该模型从2020年起年化收益19.70%,显著超越单因子,信息比率达1.526,周度胜率59.18%。敏感度测试显示选取3至5只基金时收益稳定,策略整体表现出良好的适应性和稳定性,为投资者提供了高效精准的资产配置工具。[page::0][page::3][page::9][page::11][page::14]

速读内容


ETF筛选与分类过程 [page::3][page::4][page::5][page::6][page::7]

  • 采用K-means聚类对A股市场492只行业主题类ETF进行筛选,剔除规模不足1亿和成立不足3个月的基后,保留150只基金进一步聚类分析,确定最佳K值约在10-15之间。

- 结合间隔统计量、肘部法和轮廓系数指标辅助确定最佳聚类数。
  • 选出12个大类共40只ETF,覆盖31个申万一级行业中的25个,重点行业中包括对二级子行业的ETF覆盖,但商贸零售等6行业尚缺乏专门ETF。

- 进一步采用分层聚类,绘制树状图揭示ETF之间的分层结构及相似度。
  • 申万一级行业与ETF对应明晰,确保主要市值行业均有代表ETF覆盖。


ETF轮动模型构建的因子筛选 [page::9][page::10]


| 因子大类 | 因子名称 | 因子定义 |
|----------|----------------|----------------------------|
| 量价因子 | mom20 | 指数20日涨跌幅 |
| 量价因子 | mom250 | 指数250日涨跌幅 |
| 量价因子 | BIAS | 乖离率 |
| 基本面因子 | EPS增速环比 | EPS同比增长率的环比增速 |
| 资金面因子 | 主力净流入 | 指数最新一期主力净流入 |
| 资金面因子 | DDE(10日大单净买入量) | 指数10日大单净买入量 |
  • 单因子检测结合t检验、IC检验、回测和因子相关性,筛选5个代表性且低相关因子组成模型。

- 因子之间相关性中,量价类BIAS与RSI相关度较高,基本面EPS增速和资金面主力净流入具代表性,5因子覆盖多维市场信息。

ETF轮动模型表现及回测分析 [page::11][page::12][page::13]


  • 5个因子等权合成后的模型年化收益19.70%,信息比率1.526,周度胜率59.18%,超越所有单因子绩效。

- 分年度来看,模型在牛市年(2020-2021)显著跑赢基准,熊市年亦具较好防守表现,2024年年初略有回调仍获得正收益。
  • 针对选基数量N敏感度测试显示,包括3~5只基金时组合收益与波动最优平衡,模型收益稳定且持续跑赢基准。

- 模型近半年持仓呈现较强行业多样性和轮动特征,涵盖医药、计算机、钢铁等重点行业ETF。

策略总结与未来展望 [page::14]

  • 综合运用机器学习方法筛选ETF,构建基于量价、基本面和资金面多因子的ETF行业轮动策略,有效提升投资收益和稳定性。

- 模型适用面广,具备良好的抗风险能力及灵活的调仓逻辑,适合多市场环境的资产配置需求。
  • 未来计划持续优化因子体系,探索多元化因子组合,以提升模型收益稳定性和跟踪效率。


深度阅读

ETF的筛选分类与轮动模型——报告详尽分析



---

一、元数据与报告概览


  • 标题:ETF的筛选分类与轮动模型

- 作者:宋肠
  • 发布机构:渤海证券股份有限公司(潮海证券研究所)

- 日期:2024年12月30日
  • 主题:基于行业主题类ETF的筛选、分类与构建轮动模型,旨在通过ETF实现行业轮动投资策略


核心论点
报告围绕“如何用ETF基金实现行业轮动”展开研究。强调ETF作为高效灵活的资本市场投资工具,是替代直接投资行业指数的恰当方式。通过机器学习中的K-means和分层聚类算法,从492只行业主题ETF中优选40只作为模型备选池。围绕13类因子筛选5个低相关且象征性强的因子,构建轮动模型,实现2020年至今19.7%年化收益和17.3%年化超额收益。该模型表现稳定,周度胜率59.18%,明显跑赢单一因子模型。

报告目标是对ETF产品进行科学筛选,构建稳定能跑赢市场的行业轮动投资工具,提升投资组合收益和稳定性,并对未来模型优化提出展望。[page::0,3,14]

---

二、逐节深度解读



1. 前言


重点说明此前行业轮动策略成果及其实际投资限制,突出ETF作为投资标的的优势。引入两种聚类算法对ETF进行筛选,最终建立基于量价、基本面、资金面多因子的ETF轮动模型,实现稳定超额收益。[page::3]

2. ETF的聚类与筛选



2.1 K-means聚类

  • 剔除规模<1亿和成立不足3个月的基金,管理能力和流动性优则保留,剩150只基金;

- 对基金对应指数的日度收益率做K-means聚类,算法核心在于迭代优化簇中心,使簇内距离总和最小;
  • 优缺点:简单、快速、易解释但对初始K值敏感,易陷局部最优;

- 最佳K值确定方法包括肘部法则、轮廓系数、间隔统计量。K值范围判定为10-15,经综合判断选定,实际筛选出12大类共40只ETF入池;
  • 图1(肘部法则)和图2(间隔统计量)辅助确定最佳K值,表现ETF收益特征多样且存在类群分布不一,须 综合权衡。[page::3-5]


2.2 分层聚类

  • 对40只ETF再进行分层聚类,强调无需预设类数,通过距离矩阵逐步合并的树状图结构展现ETF间层级关系;

- 增强对ETF层次结构的理解,辅助后续分类和匹配申万一级行业。[page::6-7]

2.3 申万一级行业分类

  • 通过基金持仓数据,将40只ETF与申万31个一级行业对应;

- 市值前20行业均有代表ETF覆盖,重点行业(医药、计算机、有色金属)甚至分追踪二级子行业ETF;
  • 6个细分行业暂缺有效ETF(商贸零售、轻工制造、环保、纺织服饰、美容护理、综合),反映市场尚不完善或流动性不足;

- 表2具体列明行业市值占比、流通市值及对应ETF,体现ETF在申万行业的完整布局与不足。[page::7-8]

3. ETF轮动模型因子的选择

  • 总计14个因子涵盖量价(如指数涨跌幅、乖离率)、基本面(ROE、净利润增速、EPS增速等)、资金面(净买入额、主力流入等);

- 采用T检验、IC检验、分层回测、因子相关性测试等方法筛选最终5个低相关且信息量充足的关键因子:指数250日涨跌幅(mom250)、BIAS乖离率、EPS增速环比、主力净流入、10日大单净买入(DDE);
  • 表3详述因子定义,表4统计各因子效能指标(t值、IC值、中位数概率等),表5回测显示单因子模型表现差异,复合因子优势明显;

- 图4显示因子相关性矩阵,选用的5因子呈低到中度相关,增强模型多样性与稳健性。[page::9-10]

4. ETF轮动模型的建立

  • 五因子等权合成,加权后模型表现明显优于单因子;

- 回测数据显示累计收益133.29%,年化19.7%,信息比率1.526,周度胜率59.18%,说明模型不仅收益优异且风险调整表现良好;
  • 图5回测曲线直观呈现复合因子模型优于各单因子表现,收益曲线更平稳上升;

- 分年度数据表明,模型在牛市(2020、2021)强势跑赢,熊市(2022、2023)抗跌性良好,2024年虽跑输基准2.68%,但收益仍为8.82%;
  • 表7年度分解同步展示其他单因子波动,验证复合因子优势;

- 基金选定数量N敏感度测试显示3至5只基金组合平衡收益与波动,且无论N值变化均维持正超额收益,体现较强适应性和稳定性(表8、9及图6);
  • 表10披露最近半年模型持仓ETF明细,呈现动态调仓能力与行业轮动捕捉特征。[page::11-13]


5. 总结与未来展望

  • 报告总结ETF筛选、分类、因子选择和模型构建的路径,芜杂中实现精准选择;

- 模型取得的显著收益提升与稳定性能,证实ETF作为行业轮动工具的有效性;
  • 未来工作重点在于拓展多元因子融合,提升模型的精准度和稳定性;

- 强调报告风险提示,说明市场风格切换和数据风险或影响模型效果,且不构成投资建议。[page::14]

---

三、图表深度解读



图1 & 图2(肘部法则与间隔统计量确定K值)


图1展示组内平方和(WSS)随簇数的变化趋势,拐点明显靠近K=10,表明10左右为合适聚类数。图2中间隔统计量随K增大而上升,13处观测值较高,表明该区间聚类效果优。结合两图,确定最佳K值在10-15区间,照顾聚类稳定性及ETF类别的代表性。[page::4]

图3(ETF分层聚类树状图)


展示了40只精选ETF的聚类层次结构,树枝分布合理,反映各ETF间收益率距离关系。通过树状分支观察,同一聚类基金有相似投资风格或行业属性,为进一步行业对应提供直观基础。[page::7]

表1(ETF筛选结果)


列出40只代表性ETF代码、名称、规模、基金管理人、重仓行业及分类,涵盖有色金属、电子、机械、金融等多个细分行业。规模差异显著,从数亿元至数百亿元,显示主流ETF市场份额的多样性。[page::5]

表2(申万一级行业对应ETF)


详细匹配ETF覆盖率与申万行业流通市值,列明缺失行业。说明ETF覆行业的广度和局限,体现行业轮动模型基于实际资本市场工具的可操作性与现实限制。[page::8]

表3-5(因子介绍与统计)


因子定义清晰,统计数据(t值、IC及胜率)反映不同因子预测能力。回测相关性表明基础因子多重要但单一效能有限。尤其EPS增速环比等基本面因子虽波动较大,但配合量价与资金因子整体策略稳健。[page::9-10]

图4(因子相关性矩阵)


因子彼此相关性多在0.2-0.5区间,五大选定因子相关较低,能提升模型多样性。正相关因子减少模型冗余风险,增加投资组合分散效应。[page::10]

表6(复合因子与单因子回测对比)


显示复合因子年化收益19.7%远胜主力净流入9.75%、EPS增速9.96%等,且波动率适中,最大回撤与单因子相近,夏普比率和信息比率领先,周度胜率最高。复合因子明显优势突出。[page::11]

图5(回测收益曲线)


复合因子收益曲线持续向上,单因子线相对震荡明显,边际收益和抗跌能力体现均优。视觉上确认复合模型的稳定提升特性。[page::11]

表7(分年度收益统计)


突显2020-2021年牛市中大幅超额收益,2022-2023年疫情及政策调整影响下模型仍实现相对收益防御。2024年表现略逊,可反映市场阶段性变化对模型的影响。[page::12]

表8-9及图6(不同选基数N值敏感度测试)


3-5只基金的组合在夏普和信息比率方面表现最佳,且累计收益稳定,体现模型在不同资金配置条件下的适应性和灵活性。图6直观展示不同N值选基组合收益动态变动态势。[page::12-13]

表10(持仓名单)


记录了轮动模型近半年内每周期内前五持仓ETF,周期性切换反映实时根据因子信号调整行业配置,具备实际操作的示范价值,指示关注多行业轮动机会。[page::13-14]

---

四、估值分析



本报告未涉及具体估值模型及定价部分,核心聚焦在基金筛选及量化因子模型回测,因此未展开估值模型解读。

---

五、风险因素评估



报告明确识别三大风险:
  1. 市场风格转换风险:市场风格转换可能导致因子失效,轮动策略表现波动加大;

2. 第三方数据准确性风险:依赖公开及第三方数据,若数据错误,模型预测和回测效果受影响;
  1. 历史表现不代表未来收益风险:基于历史统计和规律构建,未来市场不同风险可能导致模型失效。


报告虽无具体缓解措施,但强调持续模型优化和多因子融合,从方法论上提升稳健性。[page::0,14-15]

---

六、批判性视角与细微差别


  • 聚类方法的局限:K-means对初始参数敏感且依赖欧氏距离,可能未充分考虑ETF收益率分布非线性特征,分层聚类虽弥补部分不足,但具体聚类稳定性和分类解释未深入讨论。

- 因子选取依赖历史表现,存在过拟合风险,尤其EPS增速环比等基本面因子,截至报告数据期仅5年的波动,周期较短。
  • 资金因子(如主力净流入、10日大单净买入)在A股特征鲜明,但随监管、市场结构变化可能变化大,持久性存疑。

- 模型回测采用等权合成因子,未进行权重优化,存在提升空间。
  • 缺乏对不同市场环境(熊市、震荡市)下模型稳定性的深入剖析。

- 部分行业尚无ETF覆盖,模型在部分细分领域的适用性存在限制。
  • 风险提示较概括,无具体概率定量或情景分析,实操中需额外关注和风险管理。


综述,报告整体框架扎实,数据详实,方向明确,但在模型稳健性、多维量化验证和风险定量分析方面可深化提升。

---

七、结论性综合



本报告系统地构建了基于行业主题ETF的筛选分类体系,并在此基础上开发了多因子驱动的ETF轮动模型。通过机器学习聚类法筛选出40只代表性ETF,覆盖申万前25个一级行业,主题细分度高,涵盖医药、计算机、有色金属等重点行业,填补细分市场产品薄弱环节。

关键5个因子的筛选和组合极大增强了模型的预测能力和稳定性,实现自2020年以来年化收益19.7%,年化超额17.3%,信息比率1.526,周度胜率59.18%。该模型不仅在牛市跑赢市场,且在震荡与下跌市场展现优越防御性,兼顾收益和风险控制。敏感度测试表明,轮动模型在3-5只ETF持仓时效果最理想,表明组合多样性与集中度的平衡,有利于实操。

图表从聚类确定、因子检验、回测表现、持仓调整到年度收益率的详细数据展示,全方位佐证了该研究成果的科学性和实用性。ETF轮动策略由此成为可操作性强的行业投资工具,为投资者捕捉行业轮动机会提供了量化框架和实证依据。报告强调未来将持续完善因子体系和模型算法,推动研究向更细粒度和多因素融合方向发展。

投资者需注意模型依赖历史数据和第三方信息,市场风格转变和数据准确性风险不可忽视,模型表现仍需结合市场实际动态谨慎应用。

总体来看,报告为ETF在行业轮动策略中的应用提供了重要参考与方法论支持,具有较高的研究深度和实用价值,适用于专业资产管理与量化投资领域。

---

参考出处


本分析内容引用并整合自报告各页信息,具体引用页码详见每段落末尾[P.]。

---

(全文1000余字,涵盖报告所有核心内容及图表深入解析)

报告