ETF的筛选分类与轮动模型
创建于 更新于
摘要
本报告基于492只行业主题ETF基金,利用K-means和分层聚类算法筛选出12个大类40只代表性ETF,覆盖申万25个一级行业。提取14个量价、基本面和资金面因子,经单因子检测筛选出5个核心因子,构建等权合成的ETF轮动模型。该模型从2020年起年化收益19.70%,显著超越单因子,信息比率达1.526,周度胜率59.18%。敏感度测试显示选取3至5只基金时收益稳定,策略整体表现出良好的适应性和稳定性,为投资者提供了高效精准的资产配置工具。[page::0][page::3][page::9][page::11][page::14]
速读内容
ETF筛选与分类过程 [page::3][page::4][page::5][page::6][page::7]
- 采用K-means聚类对A股市场492只行业主题类ETF进行筛选,剔除规模不足1亿和成立不足3个月的基后,保留150只基金进一步聚类分析,确定最佳K值约在10-15之间。
- 结合间隔统计量、肘部法和轮廓系数指标辅助确定最佳聚类数。
- 选出12个大类共40只ETF,覆盖31个申万一级行业中的25个,重点行业中包括对二级子行业的ETF覆盖,但商贸零售等6行业尚缺乏专门ETF。
- 进一步采用分层聚类,绘制树状图揭示ETF之间的分层结构及相似度。
- 申万一级行业与ETF对应明晰,确保主要市值行业均有代表ETF覆盖。
ETF轮动模型构建的因子筛选 [page::9][page::10]
| 因子大类 | 因子名称 | 因子定义 |
|----------|----------------|----------------------------|
| 量价因子 | mom20 | 指数20日涨跌幅 |
| 量价因子 | mom250 | 指数250日涨跌幅 |
| 量价因子 | BIAS | 乖离率 |
| 基本面因子 | EPS增速环比 | EPS同比增长率的环比增速 |
| 资金面因子 | 主力净流入 | 指数最新一期主力净流入 |
| 资金面因子 | DDE(10日大单净买入量) | 指数10日大单净买入量 |
- 单因子检测结合t检验、IC检验、回测和因子相关性,筛选5个代表性且低相关因子组成模型。
- 因子之间相关性中,量价类BIAS与RSI相关度较高,基本面EPS增速和资金面主力净流入具代表性,5因子覆盖多维市场信息。
ETF轮动模型表现及回测分析 [page::11][page::12][page::13]

- 5个因子等权合成后的模型年化收益19.70%,信息比率1.526,周度胜率59.18%,超越所有单因子绩效。
- 分年度来看,模型在牛市年(2020-2021)显著跑赢基准,熊市年亦具较好防守表现,2024年年初略有回调仍获得正收益。
- 针对选基数量N敏感度测试显示,包括3~5只基金时组合收益与波动最优平衡,模型收益稳定且持续跑赢基准。
- 模型近半年持仓呈现较强行业多样性和轮动特征,涵盖医药、计算机、钢铁等重点行业ETF。
策略总结与未来展望 [page::14]
- 综合运用机器学习方法筛选ETF,构建基于量价、基本面和资金面多因子的ETF行业轮动策略,有效提升投资收益和稳定性。
- 模型适用面广,具备良好的抗风险能力及灵活的调仓逻辑,适合多市场环境的资产配置需求。
- 未来计划持续优化因子体系,探索多元化因子组合,以提升模型收益稳定性和跟踪效率。
深度阅读
ETF的筛选分类与轮动模型——报告详尽分析
---
一、元数据与报告概览
- 标题:ETF的筛选分类与轮动模型
- 作者:宋肠
- 发布机构:渤海证券股份有限公司(潮海证券研究所)
- 日期:2024年12月30日
- 主题:基于行业主题类ETF的筛选、分类与构建轮动模型,旨在通过ETF实现行业轮动投资策略
核心论点:
报告围绕“如何用ETF基金实现行业轮动”展开研究。强调ETF作为高效灵活的资本市场投资工具,是替代直接投资行业指数的恰当方式。通过机器学习中的K-means和分层聚类算法,从492只行业主题ETF中优选40只作为模型备选池。围绕13类因子筛选5个低相关且象征性强的因子,构建轮动模型,实现2020年至今19.7%年化收益和17.3%年化超额收益。该模型表现稳定,周度胜率59.18%,明显跑赢单一因子模型。
报告目标是对ETF产品进行科学筛选,构建稳定能跑赢市场的行业轮动投资工具,提升投资组合收益和稳定性,并对未来模型优化提出展望。[page::0,3,14]
---
二、逐节深度解读
1. 前言
重点说明此前行业轮动策略成果及其实际投资限制,突出ETF作为投资标的的优势。引入两种聚类算法对ETF进行筛选,最终建立基于量价、基本面、资金面多因子的ETF轮动模型,实现稳定超额收益。[page::3]
2. ETF的聚类与筛选
2.1 K-means聚类
- 剔除规模<1亿和成立不足3个月的基金,管理能力和流动性优则保留,剩150只基金;
- 对基金对应指数的日度收益率做K-means聚类,算法核心在于迭代优化簇中心,使簇内距离总和最小;
- 优缺点:简单、快速、易解释但对初始K值敏感,易陷局部最优;
- 最佳K值确定方法包括肘部法则、轮廓系数、间隔统计量。K值范围判定为10-15,经综合判断选定,实际筛选出12大类共40只ETF入池;
- 图1(肘部法则)和图2(间隔统计量)辅助确定最佳K值,表现ETF收益特征多样且存在类群分布不一,须 综合权衡。[page::3-5]
2.2 分层聚类
- 对40只ETF再进行分层聚类,强调无需预设类数,通过距离矩阵逐步合并的树状图结构展现ETF间层级关系;
- 增强对ETF层次结构的理解,辅助后续分类和匹配申万一级行业。[page::6-7]
2.3 申万一级行业分类
- 通过基金持仓数据,将40只ETF与申万31个一级行业对应;
- 市值前20行业均有代表ETF覆盖,重点行业(医药、计算机、有色金属)甚至分追踪二级子行业ETF;
- 6个细分行业暂缺有效ETF(商贸零售、轻工制造、环保、纺织服饰、美容护理、综合),反映市场尚不完善或流动性不足;
- 表2具体列明行业市值占比、流通市值及对应ETF,体现ETF在申万行业的完整布局与不足。[page::7-8]
3. ETF轮动模型因子的选择
- 总计14个因子涵盖量价(如指数涨跌幅、乖离率)、基本面(ROE、净利润增速、EPS增速等)、资金面(净买入额、主力流入等);
- 采用T检验、IC检验、分层回测、因子相关性测试等方法筛选最终5个低相关且信息量充足的关键因子:指数250日涨跌幅(mom250)、BIAS乖离率、EPS增速环比、主力净流入、10日大单净买入(DDE);
- 表3详述因子定义,表4统计各因子效能指标(t值、IC值、中位数概率等),表5回测显示单因子模型表现差异,复合因子优势明显;
- 图4显示因子相关性矩阵,选用的5因子呈低到中度相关,增强模型多样性与稳健性。[page::9-10]
4. ETF轮动模型的建立
- 五因子等权合成,加权后模型表现明显优于单因子;
- 回测数据显示累计收益133.29%,年化19.7%,信息比率1.526,周度胜率59.18%,说明模型不仅收益优异且风险调整表现良好;
- 图5回测曲线直观呈现复合因子模型优于各单因子表现,收益曲线更平稳上升;
- 分年度数据表明,模型在牛市(2020、2021)强势跑赢,熊市(2022、2023)抗跌性良好,2024年虽跑输基准2.68%,但收益仍为8.82%;
- 表7年度分解同步展示其他单因子波动,验证复合因子优势;
- 基金选定数量N敏感度测试显示3至5只基金组合平衡收益与波动,且无论N值变化均维持正超额收益,体现较强适应性和稳定性(表8、9及图6);
- 表10披露最近半年模型持仓ETF明细,呈现动态调仓能力与行业轮动捕捉特征。[page::11-13]
5. 总结与未来展望
- 报告总结ETF筛选、分类、因子选择和模型构建的路径,芜杂中实现精准选择;
- 模型取得的显著收益提升与稳定性能,证实ETF作为行业轮动工具的有效性;
- 未来工作重点在于拓展多元因子融合,提升模型的精准度和稳定性;
- 强调报告风险提示,说明市场风格切换和数据风险或影响模型效果,且不构成投资建议。[page::14]
---
三、图表深度解读
图1 & 图2(肘部法则与间隔统计量确定K值)
图1展示组内平方和(WSS)随簇数的变化趋势,拐点明显靠近K=10,表明10左右为合适聚类数。图2中间隔统计量随K增大而上升,13处观测值较高,表明该区间聚类效果优。结合两图,确定最佳K值在10-15区间,照顾聚类稳定性及ETF类别的代表性。[page::4]
图3(ETF分层聚类树状图)
展示了40只精选ETF的聚类层次结构,树枝分布合理,反映各ETF间收益率距离关系。通过树状分支观察,同一聚类基金有相似投资风格或行业属性,为进一步行业对应提供直观基础。[page::7]
表1(ETF筛选结果)
列出40只代表性ETF代码、名称、规模、基金管理人、重仓行业及分类,涵盖有色金属、电子、机械、金融等多个细分行业。规模差异显著,从数亿元至数百亿元,显示主流ETF市场份额的多样性。[page::5]
表2(申万一级行业对应ETF)
详细匹配ETF覆盖率与申万行业流通市值,列明缺失行业。说明ETF覆行业的广度和局限,体现行业轮动模型基于实际资本市场工具的可操作性与现实限制。[page::8]
表3-5(因子介绍与统计)
因子定义清晰,统计数据(t值、IC及胜率)反映不同因子预测能力。回测相关性表明基础因子多重要但单一效能有限。尤其EPS增速环比等基本面因子虽波动较大,但配合量价与资金因子整体策略稳健。[page::9-10]
图4(因子相关性矩阵)
因子彼此相关性多在0.2-0.5区间,五大选定因子相关较低,能提升模型多样性。正相关因子减少模型冗余风险,增加投资组合分散效应。[page::10]
表6(复合因子与单因子回测对比)
显示复合因子年化收益19.7%远胜主力净流入9.75%、EPS增速9.96%等,且波动率适中,最大回撤与单因子相近,夏普比率和信息比率领先,周度胜率最高。复合因子明显优势突出。[page::11]
图5(回测收益曲线)
复合因子收益曲线持续向上,单因子线相对震荡明显,边际收益和抗跌能力体现均优。视觉上确认复合模型的稳定提升特性。[page::11]
表7(分年度收益统计)
突显2020-2021年牛市中大幅超额收益,2022-2023年疫情及政策调整影响下模型仍实现相对收益防御。2024年表现略逊,可反映市场阶段性变化对模型的影响。[page::12]
表8-9及图6(不同选基数N值敏感度测试)
3-5只基金的组合在夏普和信息比率方面表现最佳,且累计收益稳定,体现模型在不同资金配置条件下的适应性和灵活性。图6直观展示不同N值选基组合收益动态变动态势。[page::12-13]
表10(持仓名单)
记录了轮动模型近半年内每周期内前五持仓ETF,周期性切换反映实时根据因子信号调整行业配置,具备实际操作的示范价值,指示关注多行业轮动机会。[page::13-14]
---
四、估值分析
本报告未涉及具体估值模型及定价部分,核心聚焦在基金筛选及量化因子模型回测,因此未展开估值模型解读。
---
五、风险因素评估
报告明确识别三大风险:
- 市场风格转换风险:市场风格转换可能导致因子失效,轮动策略表现波动加大;
2. 第三方数据准确性风险:依赖公开及第三方数据,若数据错误,模型预测和回测效果受影响;
- 历史表现不代表未来收益风险:基于历史统计和规律构建,未来市场不同风险可能导致模型失效。
报告虽无具体缓解措施,但强调持续模型优化和多因子融合,从方法论上提升稳健性。[page::0,14-15]
---
六、批判性视角与细微差别
- 聚类方法的局限:K-means对初始参数敏感且依赖欧氏距离,可能未充分考虑ETF收益率分布非线性特征,分层聚类虽弥补部分不足,但具体聚类稳定性和分类解释未深入讨论。
- 因子选取依赖历史表现,存在过拟合风险,尤其EPS增速环比等基本面因子,截至报告数据期仅5年的波动,周期较短。
- 资金因子(如主力净流入、10日大单净买入)在A股特征鲜明,但随监管、市场结构变化可能变化大,持久性存疑。
- 模型回测采用等权合成因子,未进行权重优化,存在提升空间。
- 缺乏对不同市场环境(熊市、震荡市)下模型稳定性的深入剖析。
- 部分行业尚无ETF覆盖,模型在部分细分领域的适用性存在限制。
- 风险提示较概括,无具体概率定量或情景分析,实操中需额外关注和风险管理。
综述,报告整体框架扎实,数据详实,方向明确,但在模型稳健性、多维量化验证和风险定量分析方面可深化提升。
---
七、结论性综合
本报告系统地构建了基于行业主题ETF的筛选分类体系,并在此基础上开发了多因子驱动的ETF轮动模型。通过机器学习聚类法筛选出40只代表性ETF,覆盖申万前25个一级行业,主题细分度高,涵盖医药、计算机、有色金属等重点行业,填补细分市场产品薄弱环节。
关键5个因子的筛选和组合极大增强了模型的预测能力和稳定性,实现自2020年以来年化收益19.7%,年化超额17.3%,信息比率1.526,周度胜率59.18%。该模型不仅在牛市跑赢市场,且在震荡与下跌市场展现优越防御性,兼顾收益和风险控制。敏感度测试表明,轮动模型在3-5只ETF持仓时效果最理想,表明组合多样性与集中度的平衡,有利于实操。
图表从聚类确定、因子检验、回测表现、持仓调整到年度收益率的详细数据展示,全方位佐证了该研究成果的科学性和实用性。ETF轮动策略由此成为可操作性强的行业投资工具,为投资者捕捉行业轮动机会提供了量化框架和实证依据。报告强调未来将持续完善因子体系和模型算法,推动研究向更细粒度和多因素融合方向发展。
投资者需注意模型依赖历史数据和第三方信息,市场风格转变和数据准确性风险不可忽视,模型表现仍需结合市场实际动态谨慎应用。
总体来看,报告为ETF在行业轮动策略中的应用提供了重要参考与方法论支持,具有较高的研究深度和实用价值,适用于专业资产管理与量化投资领域。
---
参考出处
本分析内容引用并整合自报告各页信息,具体引用页码详见每段落末尾[P.]。
---
(全文1000余字,涵盖报告所有核心内容及图表深入解析)