`

量化策略:决策树模型在有色板块仓单数据中的应用

创建于 更新于

摘要

本文运用决策树模型对有色金属板块仓单数据进行分箱处理,试图通过仓单变化生成做多信号以获取超额收益。但测试发现多品种单因子与组合策略表现差异显著,整体绩效较弱且近年效果明显衰减,提示该模型在有色板块的实用性不足 [page::0][page::8][page::17]。

速读内容


研究背景与模型介绍 [page::2]

  • 决策树是一种常用的监督学习分类方法,能将对象属性映射到类别,具有易理解、实现简单等优点,但对连续变量和时序数据处理较困难。

- 本文将仓单日频变化数据与历史均值比较,借助决策树寻找仓单变化临界值,构造仓单因子用于做多信号生成。

决策树分箱结果摘要 [page::3][page::4][page::5][page::6][page::7][page::8]







  • 决策树对铜、铅、镍、锡等品种分箱单调性较好,铝和锌的分箱单调性较差。

- 铅、镍、锡组内WoE值差异明显,IV值超过0.01,铜、铝、锌的IV值较低,表明信息量有限。

单因子回测绩效分析 [page::10][page::11][page::12][page::13][page::14][page::15]








| 品种代码 | 年化收益 | 波动率 | 夏普比率 | 最大回撤 | 说明 |
|--------|---------|-------|---------|---------|--------------|
| CU | 6.67% | 8.58% | 0.546 | 13.49% | 持续稳定但相对较低 |
| PB | 12.31% | 9.31% | 1.107 | 12.14% | 性能最好,表现较稳健 |
| AL | 6.35% | 8.24% | 0.527 | 9.89% | 效果有限 |
| ZN | 6.32% | 11.36%| 0.380 | 18.62% | 表现不佳 |
| NI | 8.88% | 12.96%| 0.531 | 21.44% | 相对较好 |
| SN | 6.67% | 13.01%| 0.359 | 23.10% | 波动大,表现弱 |
  • 铅、镍表现相对突出,测试集2023年后仍有正收益,其他品种绩效较差且训练/测试集差异明显。


组合策略绩效总结 [page::16][page::17]



| 年份 | 总收益 | 波动率 | 最大回撤 | 夏普比率 | 卡玛比率 |
|------|---------|-------|---------|---------|---------|
| 2016 | 12.51% | 6.13% | 3.17% | 1.794 | 4.096 |
| 2017 | 10.00% | 5.85% | 4.22% | 1.392 | 2.406 |
| 2018 | 3.49% | 5.15% | 3.30% | 0.299 | 1.073 |
| 2019 | 7.77% | 3.40% | 2.26% | 1.710 | 3.466 |
| 2020 | 13.44% | 7.30% | 7.30% | 1.599 | 1.873 |
| 2021 | 10.44% | 6.26% | 4.35% | 1.367 | 2.428 |
| 2022 | 14.27% | 7.72% | 6.97% | 1.618 | 2.077 |
| 2023 | 3.28% | 4.67% | 2.98% | 0.285 | 1.119 |
| 2024 | -4.10% | 5.85% | 8.30% | -1.318 | -0.687 |
  • 组合策略夏普比率1.029,最大回撤8.30%,表现优于大多个单品种因子,最大回撤较单品种显著缩小超过40%。

- 策略近两年收益不佳,2024年出现亏损及最大回撤增加,表现出现明显衰退。

结论与风险提示 [page::0][page::17]

  • 决策树基于仓单变化构建的因子在有色板块整体表现不具备可交易性,且近年收益存在衰减风险。

- 模型误设、历史规律失效为主要风险来源,投资者需警惕策略稳定性。

深度阅读

量化策略报告详尽分析:决策树模型在有色板块仓单数据中的应用



---

1. 元数据与报告概览


  • 报告标题:量化策略:决策树模型在有色板块仓单数据中的应用

- 作者:陆昶燚
  • 发布机构:中信建投期货有限公司

- 发布日期:2024年9月20日
  • 研究主题:针对有色金属板块(铜、铝、铅、锌、镍、锡)日频仓单数据,运用决策树模型构建做多交易因子,分析其收益表现及交易可行性。


核心论点及结论概述

该报告研究了基于有色金属仓单数据的决策树分箱做多因子,经训练集和测试集的绩效验证发现,仓单因子在部分品种(如铅、镍)中表现相对较好,但整体收益表现不佳,缺乏明确的可交易性。此外,该报告提示可能存在模型误设风险及历史统计规律失效等风险。总体结论为所构建的基于决策树分箱的仓单做多因子在有色板块应用受限,效果较弱。[page::0,2,3,8,17]

---

2. 逐节深度解读



2.1 报告概述与模型介绍



报告详细解释了决策树作为一种经典的机器学习监督学习方法,如何通过树形结构对数据进行分类和预测。决策树的每个节点代表一个属性判断,最终叶节点对应分类结果。报告指出了决策树模型的优缺点:
  • 优势:易理解和实现,数据准备简单,能处理混合数据类型,模型易于测试和逻辑推导。

- 劣势:对连续变量处理困难,对有时间序列数据的预处理需求高,类别过多时误差增长快,决策时通常只依据单一字段。

基于此,报告在有色板块中,以仓单变化作为输入属性,构建监督学习问题,尝试用决策树划分仓单变化的临界区间,形成交易信号标签。[page::2]

2.2 因子开发流程


  • 数据准备:仓单日频数据,构造因子为当天仓单数量减去过去N日均仓单量,即仓单变化(warehouse_change)。

- 标签定义:基于日频收盘价收益率,超过阈值为标签1(做多信号),低于阈值为0。报告明确只考虑做多策略。
  • 决策树分箱:分割历史数据训练集(2023年前)以得到仓单变化的临界值(三分箱处理),2023年起作为测试集进行效果验证。

- 样本选择品种:铜、铝、铅、锌、镍、锡六种有色金属。

该流程反映出报告重点关注因子信息利用效率及历史训练与回测的时间分段逻辑。[page::2,3]

---

2.3 分箱结果详解与数据解读



报告通过图表1至图表6给出六个品种的分箱结果,以下是关键点分析:
  • 分箱方法:基于决策树自动寻找临界值,将仓单变化数据划分为3个类别(class 1,2,3)。

- 铜分箱(图1)
- 样本数量3158,三组约26.98%、46.17%、26.82%分布。
- WOE值和IV值均较低(IV约0.0058),表明仓单变化对收益的区分能力较弱。
- 类1(仓单大幅正变)对应标签1占27.46%,类3(仓单大幅负变)则相应较低,[page::3,4]
  • 铅分箱(图2)

- 样本数1528,三组均衡分布,IV达0.0601,较铜显著提高。
- 类3(大幅负仓单变化)woe值明显不同,表明该分箱对盈利能力有较好的区分度,标签1在不同组间的分布差异显著,代表因子信息较强。[page::4]
  • 铝分箱(图3)及锌分箱(图4)

- IV分别极低(铝0.0015,锌0.0088),分箱单调性差,说明仓单数据对价格变动的预测能力弱。
- 类别间标签分布差别不大,信息价值不足。[page::5,6]
  • 镍分箱(图5)及锡分箱(图6)

- IV分别为0.0227及0.0394,镍和锡的分箱显示一定的区分能力,woe值也呈现明显差异。
- 类别划分单调,类别1(大正增长),类别3(大负增长)对应标签占比差异明显,因子信号相对更稳定。[page::7,8]

总结:铅、镍、锡的仓单变化因子分箱效果较好,信息含量高,铜、铝、锌效果较差。

---

2.4 组合测试及绩效表现分析



资金分配与回测参数


  • 时间跨度2016年1月至2024年9月19日,覆盖训练集与测试集。

- 采用等权分配,资金在每季度末按照可交易品种均分。
  • 手续费涵盖交易所费率基础上增加20%。

- 交易执行基于信号出现后下一个K线开盘价,频率为日频,杠杆系数统一设为1.0。[page::9]

单因子测试绩效(图7-12)



| 品种 | 年化收益率 | 波动率 | 夏普比率 | 卡玛比率 | 最大回撤 | 最大回撤周期(天) |
|---|---|---|---|---|---|---|
| 铜 (CU) | 6.67% | 8.58% | 0.546 | 0.494 | 13.49% | 288 |
| 铅 (PB) | 12.31% | 9.31% | 1.107 | 1.014 | 12.14% | 232 |
| 铝 (AL) | 6.35% | 8.24% | 0.527 | 0.641 | 9.89% | 343 |
| 锌 (ZN) | 6.32% | 11.36% | 0.380 | 0.339 | 18.62% | 607 |
| 镍 (NI) | 8.88% | 12.96% | 0.531 | 0.414 | 21.44% | 329 |
| 锡 (SN) | 6.67% | 13.01% | 0.359 | 0.289 | 23.10% | 357 |
  • 其中铅品种表现最佳(年化12.31%,夏普1.107),镍和铜表现次之,其他品种表现一般,夏普均在0.3-0.5之间,风险调整收益较低。

- 最大回撤周期变化较大,锌、锡处于高风险区。[page::10-15]

组合策略绩效(图13)


  • 年化收益率8.08%,波动率5.91%,夏普比率1.029,卡玛比率0.974,最大回撤仅8.3%,最大回撤周期242天。

- 相比单品种组合,组合显著降低了波动率和最大回撤,夏普比率提升明显。
  • 年度收益表现显示2016-2022年均为正收益,波动较稳定,2023年以来表现波动加剧,2024年出现亏损并最大回撤上升,反映测试集表现明显弱化。[page::16,17]


---

3. 图表深度解读



3.1 分箱图表分析(图1-6)


  • 每张图均为柱状图,展示三类(class1,2,3)的均值收益或仓单变化统计特征。

- 旁边附表详细列出了每组样本数、最小/最大值、均值、标签1与标签0的分布比例、WOE(Weight of Evidence,证据权重)及IV(Information Value,信息值)指标。
  • WOE和IV指标用于衡量该分箱方法对分类标签的区分度,IV>0.01且WOE组间差异明显时因子价值较好。

- 综合上述,铜、铝、锌因子IV均不足0.01,显示较弱的因子预测能力,而铅、镍、锡因子IV超过0.01,存在一定预测价值。[page::3-8]

3.2 回测绩效图(图7-13)


  • 图中包含“净值曲线”、“回撤曲线”、“持仓比例”三个子图:

- 净值曲线显示策略累计收益走势,判断稳定性和趋势。
- 回撤曲线揭示策略历史最大资金回落,体现风险控制情况。
- 持仓比率直观展示策略在样本内的活跃度。
  • 数据表对应年化收益、波动率、夏普、卡玛、最大回撤及最大回撤周期,方便全方位评估策略表现。[page::10-16]


---

4. 估值分析



报告非典型财务估值研究,故无传统公司估值模型部分。其“估值”核心聚焦于因子选取的信息价值(IV)和预测指标,以及交易策略的风险收益特征(夏普比率等)
  • IV指标作为分箱输出好坏的主要量化依据。

- 策略表现则由回测统计指标衡量,体现“估值”的隐性含义:策略收益/风险的投入产出比。

---

5. 风险因素评估



报告识别了以下关键风险:
  • 模型误设风险:决策树划分的阈值和因子可能不稳定或过拟合,导致无法推广。

- 历史统计规律失效:市场环境变化可能使过去的因子效益不再显现。
  • 时间序列数据及连续性问题:决策树对连续时间序列数据处理不佳,影响模型稳定性。

- 样本内外表现差异:训练集与测试集绩效不一,测试集衰减明显,提示模型泛化能力弱。
  • 交易手续费及滑点成本:虽已设定手续费上涨20%,但实际市场影响可能更复杂。


关于缓解策略,报告未详细说明,但从回测设计可见,采取了训练测试分段验证,并加入手续费考虑以模拟实盘影响。[page::0,8,9,17,19]

---

6. 批判性视角与细微差别


  • 模型选择及限制:报告虽说明决策树便于解释且易实施,但其对连续性变量和多类别分类能力不足,可能制约了仓单因子的发挥。

- 因子单一与做多限制:全报告仅构建了做多因子,未考虑做空及多因子联动,可能限制了策略的多元性及收益空间。
  • 测试集表现波动大:2023年至今的回测效果明显不佳,且最大回撤增加,或反映出短期市场环境的重大变化,这一风险对策略实盘应用构成较大风险。

- 数据处理与标签设定:标签阈值选择对模型效果敏感,但报告未详述阈值设定及稳定性,存在潜在不确定性。
  • 内部一致性:报告清晰表达了分箱解读和回测结果间逻辑关系,内部论述连贯,无明显矛盾,但未深入探讨为何部分品种较好,可能是留待后续研究。

- 风险披露详尽,但缓解措施较为模糊,未来研究应增强在风险管理策略方面的展开。

---

7. 结论性综合



本报告基于机器学习中的决策树模型,探索有色金属仓单变化因子在量化交易中的应用可能性。通过构建样本内的三分箱分组,计算信息价值,结合训练集与测试集的单品种及组合策略回测,得出以下深度见解:
  • 决策树作为因子划分工具在仓单数据上的适用性存在限制,尤其对连续和时间序列数据的处理能力不足,影响了因子绩效。

- 分箱结果显示铅、镍、锡三个品种的WOE分布合理且IV>0.01,表现出一定的信息分类价值,与其回测中表现较好相匹配。铜、铝、锌因子信息价值较低,表现相对平庸。
  • 单品种回测证实铅因子表现最佳,组合策略通过分散风险和资金配置优化,显著提升夏普比率和回撤控制,使整体风险收益均衡性改善。

- 年度收益数据显示策略在训练期内较为稳健,但测试期(2023年至今)表现衰退明显,存在统计规律失效的风险,同时最大回撤提升,影响实际应用可信度。
  • 因此,本研究的仓单数据基于决策树的量化因子虽存在部分品种应用价值,但整体不具备稳定可交易性,尤其在当前市场环境下,策略风险较大,不宜单独作为交易信号使用。

- 报告准确反映了研究限度,风险提示清晰,对未来提升策略稳定性和综合因子融合提出隐含改进空间。

该结论对量化投资者与有色金属交易者有明确的参考价值,验证了仓单数据的单维度利用难以形成有效策略,强调多维因子融合和模型多样化的重要性。

---

总之,本报告在决策树模型应用层面提供了系统的仓单因子框架与验证设计,通过详尽的分箱和绩效回测,客观揭示了这一因子策略在现阶段有色板块的局限与挑战,为后续研究与策略构建提供了价值基础和风险警示。[page::0-19]

---

如果需要,后续可根据具体图表索引,提供对应markdown格式展示的各页图片链接。

报告