`

金融科技(Fintech)和数据挖掘研究(六)——利用数据挖掘构建热点主题组合

创建于 更新于

摘要

报告基于FactSet供应链与深度行业分类数据,提出一种自动化且可调节的主题组合构建框架,通过产业链龙头公司和供应商业务交集构建主题投资组合。以5G、新能源汽车和云计算为例,展示了构建流程、组合表现及策略局限。5G主题组合表现优于传统指数,强调结合人工干预提升组合准确性,对云计算等跨行业主题需更多定性分析支持[page::0][page::4][page::5][page::6][page::8][page::11][page::12][page::13]

速读内容


主题组合构建的自动化框架及流程 [page::4][page::5]

  • 传统主题组合构建依赖分析师经验,耗时且难以自动化。

- 利用供应链及深度行业分类,基于“主题龙头公司+供应商”的业务交集,自动筛选主题相关公司。
  • 业务匹配中兼顾自动化和人工干预,提高清晰度和准确度。



5G主题组合详解及表现对比 [page::6][page::7][page::8][page::9]

  • 以华为、爱立信、中兴等为基站建设龙头公司,结合其供应商业务构建5G产业链业务集合。

- 手机和芯片业务集合由苹果、三星、高通等龙头构成,与基站业务合并形成完整5G业务集合。
  • 通过业务匹配筛选A股公司,剔除5G业务营收占比低于50%的公司,形成主题组合。

- 5G主题组合累计净值和月度收益均优于中信通信行业指数和Wind 5G概念指数,营收占比加权组合略优于等权组合。



| 指标 | 5G等权组合 | 5G营收占比加权组合 | 通信行业指数(中信) | Wind 5G概念指数 |
|--------------|------------|--------------------|---------------------|-----------------|
| 累计净值 | 0.99 | 1.01 | 0.83 | 1.00 |
| 年化收益率 | -0.3% | 0.4% | -6.1% | 0.0% |
| 年化波动率 | 31.7% | 31.6% | 24.7% | 29.9% |
| 夏普比率 | -0.01 | 0.01 | -0.25 | 0.00 |
  • 协整检验表明,5G主题组合表现出较高的个股价格走势相关性,动量溢出效应明显,夏普比率及多空组合收益均优于Wind 5G概念指数。

| 指标 | 5G营收占比加权组合 | 对因子剥离后 | 5G等权组合 | 对因子剥离后 | Wind 5G概念指数 | 对因子剥离后 |
|--------------------|-------------------|--------------|------------|--------------|-----------------|--------------|
| 协整检验D值 | 0.108 | 0.109 | 0.108 | 0.110 | 0.132 | 0.171 |
| 5%水平下显著占比 | 63.8% | 65.5% | 61.7% | 65.9% | 62.0% | 55.6% |
| 多空组合年化收益率 | 14.4% | 52.7% | 18.7% | 55.6% | -3.3% | 4.0% |
| 多空组合夏普比率 | 0.611 | 2.173 | 0.895 | 2.704 | -0.249 | 0.332 |

放松约束后的5G组合表现与分析 [page::10]

  • 放宽5G业务营收占比限制,样本股数翻倍,波动率降低。

- 累计收益较紧约束组合下降约5个百分点,协整显著股票比例及多空收益下降,说明组合代表性减弱。
  • 尽管自动化程度提升,结合人工筛选更有助于准确代表主题。




| 指标 | 5G等权组合 | 5G营收占比加权组合 | 5G等权组合(放松) | 5G营收占比加权组合(放松) |
|------------------|------------|--------------------|------------------|--------------------------|
| 累计净值 | 0.99 | 1.01 | 0.87 | 0.86 |
| 年化收益率 | -0.3% | 0.4% | -4.8% | -5.0% |
| 年化波动率 | 31.7% | 31.6% | 26.4% | 26.0% |
| 夏普比率 | -0.01 | 0.01 | -0.18 | -0.19 |

新能源汽车和云计算主题组合表现概览 [page::11][page::12]

  • 新能源汽车主题组合以特斯拉、比亚迪等为龙头,表现与Wind新能源汽车指数高度重合,但整体下跌趋势明显,表现优于概念指数。

- 云计算主题组合基于跨行业技术应用,自动化构建难度大,等权组合表现较差,未完全捕获主题收益。
  • 人工干预对于非产业链主题组合构建更为关键。




| 指标 | 新能源汽车等权 | 新能源汽车营收加权 | 汽车行业指数(中信) | Wind新能源车指数 |
|----------------------|---------------|---------------------|--------------------|------------------|
| 累计净值 | 0.58 | 0.57 | 0.72 | 0.52 |
| 年化收益率 | -17.3% | -17.5% | -10.7% | -20.0% |
| 年化波动率 | 21.8% | 22.1% | 17.9% | 24.5% |
| 夏普比率 | -0.79 | -0.79 | -0.60 | -0.82 |

| 指标 | 云计算等权 | 云计算营收加权 | 计算机行业指数(中信) | Wind云计算指数 |
|------------------------|------------|---------------|---------------------|---------------|
| 累计净值 | 0.66 | 0.84 | 0.86 | 0.95 |
| 年化收益率 | -13.5% | -5.8% | -4.9% | -1.6% |
| 年化波动率 | 27.6% | 27.5% | 26.1% | 27.4% |
| 夏普比率 | -0.49 | -0.21 | -0.19 | -0.06 |

关键结论与风险提示 [page::12][page::13]

  • 基于供应链与深度行业分类的主题组合构建框架能有效兼顾自动化与准确性,适用于产业链明确的主题。

- 对于跨行业技术主题,需更多依赖人工判断。
  • 主题组合的协整检验和动量溢出分析可作为组合代表性和持续性的重要验证指标。

- 数据挖掘模型存在历史经验限制,风险提示须重视。

深度阅读

金融科技与数据挖掘研究报告(六)详尽分析



---

1. 元数据与概览


  • 报告标题:金融科技(Fintech)和数据挖掘研究(六)——利用数据挖掘构建热点主题组合

- 分析师:冯佳睿、余浩淼
  • 发布机构:海通证券股份有限公司研究所

- 发布时间:2019年12月01日
  • 主题:围绕主题投资组合构建方法,重点研究基于供应链和深度行业分类的自动化主题组合构建框架,结合5G、新能源汽车和云计算热点主题进行实证分析。


报告核心论点:在主题投资日益受关注的趋势下,构建科学且自动化程度高的主题组合成为投资热点。报告提出了一种基于FactSet供应链数据及深度行业分类的主题组合构建框架,该框架实现自动化且兼具准确性,适合不同投资者需求。通过5G、汽车和云计算三大主题的组合构建案例验证,证明框架能精准筛选相关股票,同时强调该方法在以产业链为基础的主题如5G和新能源汽车上效果更佳,而对于跨行业技术主题如云计算,则需更多人工干预。[page::0,1,4,5]

---

2. 逐节深度解读



2.1 研究背景与投资要点



近年来主题投资迅猛发展,尤其被动投资和主题指数基金兴起。投资者关注主题下股票的共性及其收益的领先-滞后关系,成为量化选股的重要补充。故报告提出一个自动化、可调控的主题组合构建框架,满足多样化需求。

投资要点概括了构建流程,从选定主题龙头出发,结合其供应链上下游,通过业务交集筛选相关公司,再经过业务营收占比和ST剔除过滤,达到主题代表性强的组合。报告特别指出,5G主题组合2019年累计涨幅明显优于相关通信行业指数和5G指数,验证了框架的有效性。

同时,报告提出两个评价指标:股价联动性(通过协整检验)和股票之间动量溢出效应,验证组合内部的市场行为一致性及预期收益的合理性。框架若用于云计算等跨行业技术则存在局限,因业务描述和行业界定复杂。[page::0,4,5]

2.2 主题组合构建方法论(章节1)


  • 传统方法:主题组合构建依赖分析师经验归纳业务集合,再匹配公司,耗时且难以自动化,流程简单为:确定主题→确定相关业务→筛选涉及业务的股票(图1、图2)[page::4]

- 行业分类匹配:尝试通过行业分类筛选相关公司,但单一主营行业排他性导致遗漏相关业务的公司,影响准确性。
  • 创新框架:引入基于供应链与深度行业分类的框架(图3),步骤详述如下:


1. 找到主题相关的若干龙头公司,替代传统确定业务集合的困难步骤。
2. 获取这些龙头公司业务的交集,去除离题业务。
3. 获取共同供应商的共同业务,用业务交集寻找供应链的相关节点。
4. 合并龙头公司和供应商业务集合,遍历A股股票第六层行业分类,筛选至少含一项业务的公司。
5. 过滤ST股和主题业务营收占比低的公司。

该框架实现大量自动化,FactSet深度行业分类通过覆盖公司所有业务及对应营收权重,解决传统分类排他性,人工参与仅限必要剔除失效业务,保障准确性和效率兼备。[page::5]

2.3 主题组合构建示例(章节2)



2.3.1 5G主题组合(2.1节)


  • 构建过程

- 选定基站建设龙头(华为、爱立信、阿尔卡特朗讯、中兴),提取共同业务(图4),剔除“消费电子”等离题业务。
- 获取这些龙头公司的共同供应商,使用“至少供货给两家龙头公司”的标准确定供应商及其业务交集(图5)。
- 合并龙头公司业务集合和供应商业务集合,得到完整的基站建设业务集合(图6)。
- 类似方法获取手机和芯片业务集合(以苹果、华为、三星、高通、联发科等为龙头),共同组成完整5G业务集合(图7)。
- 用完整5G业务集合匹配所有A股公司业务,筛选并进一步剔除ST及5G业务营收占比低于50%的公司,构成初始5G组合。
  • 组合表现

- 2017-2019.10,5G组合累计净值表现略优于通信行业指数和Wind 5G概念指数(图8、图9)。
- 2019年,5G组合累计涨幅显著领先,中位数分别为等权63.1%、营收占比加权67.3%,远超中信通信指数23.7%和Wind 5G指数35.1%。
- 营收占比加权组合吸纳更多高关联公司的权重,表现更优但差异不大。
- 因子暴露分析(表2)显示5G组合估值、盈利能力、流动性较Wind指数优,且换手率和波动率较低,表明组合更优选和稳健。
- 协整检验(表3)显示组合内较高比例股票表现出与主题相关联的价格走势,且动量溢出效应明显,特别在剥离常用因子后效果更佳,表明组合代表性强,业绩持续性更好。

该构建方法凭借供应链和行业深度分类,有效抓住五大产业链节点相关标的,提升了自动化程度同时保证准确性。[page::6,7,8,9]

2.3.2 放松约束后的5G组合(2.2节)


  • 放松如5G业务营收占比≥50%等限制后,样本股数量增至约40只,波动率明显下降,业绩表现有所下滑,2019年累计收益低于原始组合约5个百分点(图10、图11,表4)。

  • 协整检验和动量溢出指标显著恶化(表5),表明组合内股票间业务相关性和主题代表性下降。

  • 结论:纯自动化构建可作为起点,但需结合人工筛选提升组合代表性和性能,尤其在基本面量化研究中尤为重要。[page::9,10]


2.3.3 新能源汽车和云计算主题组合(2.3节)


  • 新能源汽车

- 龙头公司选取特斯拉、上汽、比亚迪、蔚来等,及其供应商业务整合。
- 表现与中信汽车行业指数保持类似跌势,但组合相对Wind新能源汽车指数超额5%(图12、13,表6)。
- 由于整车业务与传统汽车高度重合,人工干预效果显著。
  • 云计算

- 作为跨行业技术,业务分散,行业分类无法有效覆盖不同应用场景,公司分布广泛。
- 采用模拟设定云计算应用场景,结合模式匹配筛选公司,构建组合。
- 组合表现远逊于Wind云计算指数(图14、15,表7),显示自动化框架难以准确刻画跨行业技术主题。

以上说明该框架更适用于产业链清晰、业务明确的主题(如5G、新能源汽车),而技术类跨行业主题则需更多依赖分析师经验与深入业务剖析。[page::11,12]

2.4 总结与风险提示


  • 报告总结认为基于供应链与深度行业分类的自动化主题组合框架在效率与准确性权衡上效果显著,尤其适合清晰产业链的主题投资。

- 框架体现了量化方法与基本面分析的结合,有利于应对主题投资的复杂需求。
  • 强调框架局限性,云计算等技术跨行业主题难以依赖此方式有效构建,需经验丰富的分析师干预。

- 风险提示主要围绕数据挖掘模型基于历史先验数据,存在模型失效的风险。[page::12]

---

3. 图表深度解读



图1-图3(第4-5页)


  • 分别展示了传统主题组合构建流程和存在的人工经验依赖问题,及报告提出的基于供应链与深度行业分类的创新框架流程(自动化与人工结合)。


图4-图7(第6-7页)


  • 图4示意华为等基站建设龙头公司业务共享交集,排除不相关业务(如消费电子)。

- 图5展示共同供应商业务,筛选条件为至少为两家龙头公司供货,提升供应链代表性。
  • 图6合并两类业务集合,覆盖广泛产业链节点,示意跨龙头与供应商的业务匹配。

- 图7展示手机及芯片业务集合,补充组成完整5G业务集合。

图8-图9(第8页)


  • 图8绘制5G主题组合累计净值走势,等权与营收占比加权组合均优于行业与概念指数,显示强劲主题表现。

- 图9展示月度收益变化,整体趋势和同行指数同步,体现主题投资的时序特征及热点集中期。

表1-表3(第9页)


  • 表1汇总5G组合收益风险特征,组合年化收益率正或接近零,优于行业指数负收益,波动率相对较高。

- 表2列出组合因子暴露,5G组合估值盈利等基本面指标优于Wind指数,表明高质量成分股。
  • 表3协整检验和动量溢出效应定量说明组合内部股票走势相关性及动量补涨现象,主题代表性和收益持续性良好。


图10-图11及表4-5(第10页)


  • 放松约束后的5G组合累计净值和月度收益(图10、11)下降,波动率降低,表明纳入更多关系弱的股票降低收益质量。

- 表4、表5对应收益风险特征和协整检验,显示放松约束降低了组合的价格协同性及动量溢出效应。

图12-图13及表6(第11页)


  • 新能源汽车组合累计净值及月度收益(图12、13)与汽车行业指数及Wind新能源汽车指数高度相关,跌幅较大但在2019年表现有所回升。

- 表6成绩显示组合年化收益为-17.3%,较行业指数表现差,显示行业整体低迷。

图14-图15及表7(第12页)


  • 云计算组合累计净值及月度收益较Wind指数表现弱,等权组合表现更差,表明组合纳入许多低相关股票。

- 表7显示组合整体年化收益为负,组合表现不佳,凸显自动化方法局限。

---

4. 估值分析



报告主要集中于组合构建方法论及实证分析,未涉及传统意义的公司估值模型或目标价格预测,故无具体估值分析部分。

---

5. 风险因素评估


  • 报告强调数据挖掘方法依赖历史先验数据,有模型失效风险。

- 主题投资本身风险包括市场热点变动、主题准确性及组合代表性不足,尤其在自动构建时更需警惕。
  • 在跨行业技术主题(云计算)构建中,自动化筛选匹配难,可能带来主题代表性不足风险。

- 报告未给出具体缓解策略,但建议结合人工干预提升精度。

---

6. 批判性视角与细微差别


  • 报告客观指出供应链与深度行业分类方法的双重优势,但对云计算等跨行业主题局限揭示较少,可考虑更多技术手段辅助筛选。

- 放松约束后组合表现下降显示构建参数设定敏感,可能受限于数据质量和行业分类精度。
  • 动量溢出等指标的利用彰显量化特色,但假设股票内生动力完全被模型捕捉,现实中或受其他市场因素影响。

- 报告整体未提及组合构建中潜在的数据滞后性和信息披露不充分风险。

---

7. 结论性综合



海通证券研究所的这份关于利用数据挖掘构建主题投资组合的研究报告,全面剖析了基于供应链和深度行业分类的自动化主题组合构建框架。该框架通过选取主题龙头公司的业务交集及其共同供应商的业务交集,结合FactSet第六层行业分类对所有上市公司业务进行匹配,实现自动化且精准的主题组合构建。

5G主题组合的实证分析突出展示了该方法的优越性,不论是累计收益表现远超行业指数和Wind 5G指数,还是协整检验与动量溢出效应的良好反馈,都证明了该框架能够准确反映主题热点及内在产业链结构。营收占比加权优化了组合表现,表明业务权重合理纳入了主题关联度。

新能源汽车主题虽融入更多人工干预,因涉及传统汽车业务较多,表现依旧稳定且贴合行业指数,说明框架的灵活可调特性。云计算主题表现不佳则揭示了该方法在跨行业技术主题的适用限制,需要通过分析师经验进行辅助剔除和组合构建。

整体来看,报告提出的技术路径在量化主题投资领域提供了有价值的实践参考。通过自动化大幅提升构建速度与规模,同时维持准确性,实现基本面研究与量化方法的有机融合。该研究为投资者在快速变化的科技主题环境中捕捉热点机会提供了新思路,也指出了当前方法的不足及未来发展方向。

相应图表数据支撑了文本阐述,展示了组合收益、风险特征、因子暴露及内在价格关系,全面验证了方法论的科学性和实用性。[page::0-12]

---

附件示例图片



图1 传统主题组合构建方法





图3 基于供应链与深度行业分类的主题组合构建框架





图8 5G主题组合累计净值





表1 5G主题组合收益风险特征(2017.01-2019.10)



| 指标 | 5G等权组合 | 5G营收占比加权组合 | 通信行业指数(中信) | Wind 5G概念指数 |
|----------------|------------|--------------------|---------------------|-----------------|
| 累计净值 | 0.99 | 1.01 | 0.83 | 1.00 |
| 年化收益率 | -0.3% | 0.4% | -6.1% | 0.0% |
| 年化波动率 | 31.7% | 31.6% | 24.7% | 29.9% |
| 夏普比率 | -0.01 | 0.01 | -0.25 | 0.00 |

---

综上所述,该报告系统阐述并实证了以供应链+深度行业分类为核心的自动化主题投资组合构建方法,针对5G行业取得显著成效,同时提出了对方法局限性的清晰认知,具有较强的实用价值及后续优化潜力。报告对主题投资者、量化分析师及行业研究员均有重要参考意义。

报告