因子模型第五期:基于供应链关系矩阵的因子增强从特征工程角度让模型学习供应链关系
创建于 更新于
摘要
本报告基于供应链上下游关系数据构建供应链关系矩阵,通过矩阵乘法衍生出供应商、客户关系衍生因子,将其与原有因子结合应用于多因子选股模型。实证结果显示,加入供应链衍生因子后模型的IC和IR显著提升,尤其供应商关系提取因子效果突出。叠加衍生因子训练的模型在沪深300、中证500、中证1000指数上的策略表现均优于仅用原始因子方案,尤其在中证1000成分股上表现最佳,带来超额收益和风险调整收益的优化[page::0][page::10][page::12][page::16][page::17]
速读内容
供应链关系数据概况及矩阵构建 [page::2][page::3][page::4]
- 利用秩鼎数据科技提供的供应商-客户关系数据,计算关联度权值,形成供应商关系矩阵和客户关系矩阵,体现股票之间供应链上下游资金往来强度。
- 通过多层次供应链关系引入,考虑了直接供应商客户及多级间接关系,衍生因子定义包含矩阵及其多次幂的加权项,覆盖五级内的供应链关系。
- 以宁德时代为例,汇总其上下游关联度权值,建立供应链桑基图,展示核心供应链合作企业及其权值占比。
数据覆盖与行业分布 [page::5][page::6][page::7]



- 2017年至2021年,供应链相关A股上市公司供应商数量增长超400%,客户数量增长超410%。
- 供应商及客户的覆盖率自2017年0.25附近攀升至2021年超过0.8,显示供应链数据覆盖面快速扩充。
- 机械设备、医药生物、电子、基础化工、计算机行业供应链公司数量最多。
衍生因子信息增量及相关性分析 [page::9][page::10]

| 区间 | 衍生因子类型 | 与原因子相关性均值 |
|------|--------------|------------------|
| 全周期 | 供应商衍生因子 | 0.14 |
| 全周期 | 客户衍生因子 | 0.15 |
| 全周期 | 供应商与客户因子 | 0.51 |
- 供应商和客户衍生因子与原始因子相关性较低,表明衍生因子提供了显著信息增量,有利于提升模型表现。
- 供应商因子与客户因子间相关较高,符合供应链上下游逻辑,同质性较强。
模型训练与衍生因子有效性检验 [page::10][page::11][page::12]

| 年份 | 衍生因子模型IC(供应商) | 原因子模型IC | 衍生因子模型IC(客户)| 年化ICIR(供应商) | 年化ICIR(原始因子) | 年化ICIR(客户) |
|------|--------------------|----------|-----------------|--------------|------------------|-------------|
| 全周期 | 8.78% | 6.36% | 6.36% | 6.62 | 4.98 | 5.01 |
- 衍生因子模型整体显著提升模型IC,尤其供应商关系衍生因子表现优异,客户关系衍生因子有时持平或略优于原始因子。
- 累计IC曲线显示供应商衍生因子较原因子持续改善预测能力。
量化选股策略及不同指数表现对比 [page::13][page::14][page::15][page::16]
- 采用XGBOOST机器学习模型,多因子与衍生因子共同训练,每5个交易日调仓一次,策略权重相对于基准权重偏离控制在±0.5%。
- 叠加衍生因子的模型在沪深300、中证500、中证1000成分股上均优于仅用原始因子建模方案。
- 在中证1000指数上,供应商关系衍生因子方案策略年化收益率达18.50%,明显好于原始因子14.68%,夏普比率也显著提升至0.76,表现最佳。
- 沪深300指数客户关系衍生因子表现更优,年化收益12.83%,超过原始因子的12.05%。
- 中证500指数的衍生因子提升效果有限,原始因子表现稍优。
研究结论与展望 [page::16]
- 基于供应链上下游资金往来构建的衍生因子能有效提升因子库信息含量。
- 叠加供应链衍生因子建模方案相较传统因子方案,在IC、IR及策略表现均具优势,尤其供应商关系提取因子的增益更为显著。
- 供应链因子增强多因子模型在细分指数上的表现差异反映了风险风格与成分股规模的适用性差异,对未来多因子策略开发与优化具有指导意义。
深度阅读
证券研究报告深度解析
因子模型第五期:基于供应链关系矩阵的因子增强——从特征工程角度让模型学习供应链关系
---
一、元数据与报告概览
- 报告标题:因子模型第五期:基于供应链关系矩阵的因子增强,从特征工程角度让模型学习供应链关系
- 作者及联系方式:鲁植宸(多因子与ESG策略组分析师)、研究助理徐建华
- 发布机构:中信建投证券股份有限公司
- 发布日期:2022年09月11日
- 报告主题:着重讨论基于供应链上下游关系数据,通过构建供应商-客户关系矩阵,衍生出新因子以增强多因子选股策略的设计与效果。
- 核心信息和观点:报告提出通过供应链关系数据矩阵对已建因子进行批量衍生,使模型不仅基于个股自身因子,更能纳入其供应链上下游相关个股的因子信息。基于机器学习模型的训练实证表明,衍生因子显著提升了因子表现的有效性(以IC、IR衡量),在沪深300、中证500、中证1000指数成分股中均取得了超额收益和优化的夏普比率,尤其是供应商矩阵衍生因子贡献更大。
- 风险提示:模型可能存在计算偏误,业绩不保证未来表现,因子和模型基于历史经验未来可能失效。
- 图示:报告首页带有沪深300指数等市场表现对比曲线,体现策略适用的股票池类型。[page::0]
---
二、逐节深度解读
1. 报告目录与图表结构
报告系统性展开,引言阐述研究背景与意义,随后详述供应链数据介绍、数据分布及其应用,最后通过机器学习模型验证供应链因子的增量价值,附带详细图表(上市公司网络图、供应链矩阵、桑基图、相关性分布、IC表现、指数回测表现等)[page::1]
2. 引言(第2页)
介绍了多因子选股策略的演进,最初基于财务等基本面因子,现今融合高频量价因子和多样数据源(如公告文本、分析师预期、舆情数据、供应链关系等)。
引用国外学术文献建立供应链关系对股票收益预测的理论基础,如客户股票收益影响供应商,下游动量影响上游,关联分析师覆盖率对动量溢出效应的解释等。[page::2]
3. 供应链关系介绍(第3-7页)
3.1 数据概况与网络图(第3页)
以宁德时代为例绘制上市公司供应链网络,覆盖98家上市公司,网络深度达9层。关联度权值计算依据披露的交易金额,权值范围0-100,考虑时间衰减,权值越高说明供应链关系越强。示例矩阵展示了具体供应商和客户的权值。[page::3]
3.2 矩阵示例(第4页)
给出供应商矩阵和客户矩阵部分样例,体现每个上市公司与其上下游的关联强度权值。配合举例四川美丰的客户矩阵清晰展示数据结构。[page::4]
3.3 桑基图(第5页)
通过桑基图形式,对宁德时代上下游核心供应链公司关联度权值进行统计,显示Top供应商和客户的权值加和分别占80%以上和90%以上,显示其在供应链影响中的主导地位。[page::5]
3.4 数据分布(第6-7页)
- 供应链涉及A股上市公司数量自2017年以来快速增长,供应商和客户覆盖分别增长超400%(达约3900家);
- 产业链上市公司覆盖率2017年初仅约25%,到2020年中逼近90%,2021年略有回落但依旧保持高覆盖;
- 行业分布集中于机械设备、医药生物、电子、基础化工、计算机等,覆盖广泛多样,反映供应链数据的行业代表性。[page::6][page::7]
4. 供应链关系应用与分析(第7-15页)
4.1 供应链关系应用框架(第7-9页)
- 构造供应链关系矩阵\( Mc \),维度为\( n \times n \),其中\( n \)为股票数量,元素\( M{ij} \)表征i对j的供应商-客户权重;
- 定义已有因子向量\( F \in \mathbb{R}^{n\times 1} \),衍生因子通过矩阵乘法计算:\( Fc = Mc \times F \),实现将邻近供应链上市公司因子信息传递叠加;
- 多层次关系通过矩阵多次方扩展,包括二级、三级供应商(矩阵幂次方\( M_c^k \)),本研究考虑供应链五级以内,即衍生因子为五级矩阵求和乘法生成;
- 叠加了行业矩阵,进一步融合行业内的关联性;
- 相关性分析(图表9)显示衍生因子与原始因子相关性平均仅0.14-0.15,信息增量显著;供应商与客户衍生因子之间相关性较高(0.51),反映较强的内部同质性和经济逻辑。[page::7][page::8][page::9][page::10]
4.2 实证分析与模型训练(第10-12页)
- 建立了包含376个原始因子的因子库,通过供应链矩阵衍生因子,形成衍生因子库,实验聚焦选取ICIR绝对值最大前100个因子训练模型;
- 采用滚动训练,每10日训练一次以过去200日数据为训练集,未来10日测试,固定超参数;
- 样本因子进行winsorize处理,截面标准化,标签用未来5日收益率(基于VWAP),安全处理了量纲和极端值影响;
- 对照实验:原始因子,仅供应商衍生因子叠加,客户衍生因子叠加三种情形;
- 结果显示,叠加供应商衍生因子使模型输出IC从6.36%提升到8.78%,年化ICIR从4.98提升到6.62,客户衍生因子提升不明显或持平;
- 全周期累计IC (图表11) 叠加供应商因子88.75显著优于原始因子64.32。[page::10][page::11][page::12]
4.3 策略组合构建与指数回测(第12-15页)
- 策略设计每5日调仓,通过目标函数最大化模型预测得分,同时限制组合权重偏离基准0.5%,并设定换手成本为0.2%;
- 多指数测试,结果显示:
- 中证1000:供应商衍生因子模型表现最佳,部分年份年化超额收益为负时亦保持正超额收益,年化换手率最高达到50次;
- 沪深300:客户衍生因子表现优于供应商及原始因子,换手率相对较低;
- 中证500:衍生因子提升作用有限;
- 各指数具体表现均表现出使用供应链衍生因子带来的超额收益、夏普比率等指标的改善,尤以供应商因子在中证1000表现亮眼,客户因子在沪深300表现较优;
- 因子在不同行业与市值层面的适用性有所不同,可能与供应链结构和股票风格相关;
- 图表15展示了详细年化收益率、夏普比率、波动率、最大回撤及换手率,量化验证了供应链因子的正向贡献。[page::12][page::13][page::14][page::15]
5. 总结与展望(第16页)
- 供应链关系数据从资金往来比例角度构造了供应商矩阵和客户矩阵,为原始因子扩展了有效的特征维度;
- 叠加供应商矩阵衍生因子在模型的预测能力(IC、IR)和策略选股表现(超额收益和夏普比率)上均有显著提升;
- 供应链衍生因子整合了个股自身和其供应链上下游多个股票信息,有利于捕捉个股间经济联系带来的信息溢出效应;
- 该方法提升多因子策略仓位构造和风险调整后的收益表现,具备行业应用推广潜力。[page::16]
---
三、图表深度解读
1. 市场表现(第0页)
- 展示沪深300及上证50近期涨跌幅趋势,整体走势下滑后回升,为量价因子策略应用环境提供背景。
2. 上市公司网络图—宁德时代为中心(第3页)
- 图表清晰描绘宁德时代供应链上下游98个上市公司及其9层深度的关系,体现供应链延展复杂度,强化供应链关系有效因子构建的实际基础。
3. 供应链矩阵示例(第4页)
- 供应商矩阵和客户矩阵以表格形式展现具体权值,量化显示不同上市公司间的供应链资金流占比和关联度,基础的矩阵形式为后续运算提供数据结构保障。
4. 桑基图—宁德时代供应链关系(第5页)
- 通过桑基图展示宁德时代重心上游(无锡先导智能装备36.57%)和下游主要客户,权值加和达到80%-90%,体现供应链关系对股价的潜在影响权重集中度。
5. 供应链上市公司覆盖数量增长(第6页)
- 直方图显示供应商客户数量从2017年约780增长至2021年底约3900,体现供应链数据的扩充趋势及数据完备性升级。
6. 覆盖率趋势图(第6页)
- 覆盖率在2017年较低,逐步提升到2020年超过90%,随后轻微回落,反映数据披露和整合的动态发展。
7. 行业覆盖分布(第7页)
- 多行业覆盖,机械设备、医药生物、电子居前三,展现供应链因子在不同行业的广泛适用性。
8. 供应链关系示意图(第8页)
- 节点与边反映复杂供应链多级关系,强调直接与间接供需关系的因子衍生计算逻辑。
9. 衍生因子相关性(第10页)
- 表格详细列出2018-2021年衍生因子与原始因子的相关性均值及各分位数,数值低(均值约0.14-0.18),表明信息增量较大,这证明了衍生因子确实带来新的数据信息,而非简单冗余。
10. 因子IC及ICIR对比(第11页)
- 表明叠加供应商衍生因子的因子有效性指标IC、ICIR均明显优于原始因子。客户衍生因子表现接近原始因子。
11. 累计IC曲线(第12页)
- 供应商因子累计IC持续高于客户及原始因子曲线,说明长期预测能力显著提升。
12. 各指数策略回测表现(第13-15页)
- 中证1000上供应商因子策略效益显著,沪深300客户因子策略表现较强,中证500提升有限。
- 详细收益率、波动率、夏普比率、最大回撤和换手率展示因子策略综合性能。
- 相关柱状图反映年度分布差异和趋势,体现策略稳定性和抗风险性能。
---
四、估值分析
报告并未涉及具体估值模型,聚焦因子衍生及策略绩效提升,因此估值分析不适用。
---
五、风险因素评估
报告风险提示主要强调模型计算可能存在偏差,且因子和机器学习模型基于历史数据构建,未来市场结构可能变化导致模型失效,强调不可盲目乐观。未详细列出风险缓解策略,但兼顾了回测期的持续滚动训练和测试以应对历史数据外推风险。[page::0]
---
六、批判性视角与细微差别
- 优势:报告结构严谨,从数据、建模到实证均有详实展示;供应链矩阵构建和多级拓展充分考虑了经济逻辑,技术实现切实;因子低相关性的分析客观指出了信息增量。
- 局限:
- 客户衍生因子提升效果有限,模型改进多依靠供应商矩阵,可能提示客户端链路信息不足或未充分挖掘;
- 模型主要基于XGBoost,超参数优化有限,未来可尝试深度图神经网络等更复杂关系学习架构;
- 报告未详细披露供应链数据的缺失率、报表延迟等微观质量问题,可能影响因子准确性;
- 换手率较高的策略后续实施可能面临交易成本和流动性挑战;
- 模型稳定期至2021年底,尚需观察新冠疫情后经济结构变迁对供应链因子表现的持续有效性。
- 矛盾点:供应商与客户因子相关性较高但客户因子贡献较弱,需进一步探讨内在机理。
- 总体谨慎评价:报告以实证数据支持观点,说明供应链整合为因子建模带来价值,但未来研究需进一步深化模型和数据质量保障。
---
七、结论性综合
本报告系统阐述了依托秩鼎科技供应链上下游资金往来数据,构建了供应商与客户关系矩阵,通过数学矩阵的形式批量衍生因子,为经典多因子因子库注入了行业间公司经济联系信息。基于机器学习XGBoost模型,衍生因子表现出显著的信息增量和增强的股票收益预测能力,尤其是供应商关系提取的衍生因子,在IC和IR指标上领先于传统因子,带来策略层面的超额收益和夏普比率提升。
策略实盘标的覆盖沪深300、中证500、中证1000,表现印证了供应链数据对多因子选股策略的改进作用,且不同指数下供应商和客户因子贡献存在差异,表明不同市场结构和股票风格对供应链相关因子敏感度不同。报告充分利用大数据与机器学习时代的新型数据——供应链资金往来比例,不仅丰富了因子库,更以实际回测验证了其投资价值。
同时需关注衍生因子的高换手率对实盘的影响,以及未来市场环境变化可能带来的模型失效风险。整体而言,报告在因子研究与应用实践层面提供了较强的理论结合和实证支持,为量化投资结合供应链数据开辟了新的方向和思路。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]
---
附:主要引用图表
市场表现
-

宁德时代供应链桑基图
-

产业链覆盖率趋势
-

供应链关系示意图
-

中证1000选股表现
-

中证500选股表现
-

中证1000夏普比率
(注:因图片内容较多,重点列示报告关键核心图表)
---
综上所述,本报告通过创新引入供应链上下游关系矩阵,系统衍生因子特征,并利用机器学习验证其因子有效性与组合表现,有效提升了多因子策略的竞争力,具有较强理论与实务价值。