`

Supervised Similarity for Firm Linkages

创建于 更新于

摘要

本文提出了一种基于特征向量的企业关联度测量方法(Characteristic Vector Linkages, CVLs),并引入量子认知机器学习(QCML)技术来优化企业间相似度计算。通过欧氏距离和QCML相似度构建的动量溢出策略均显示盈利性表现,其中QCML方法在预测效率和信号稳定性上显著优于欧氏距离,尤其是长周期信号表现更佳,提升夏普比率超50%。研究验证了QCML在捕捉复杂非线性企业关联中的优势,为量化投资策略提供新思路 [page::0][page::1][page::3][page::6][page::7][page::8][page::9][page::10]

速读内容


研究创新与背景介绍 [page::0][page::1]

  • 提出Characteristic Vector Linkages (CVLs)作为企业间相似度的新代理指标,基于企业特征向量构造距离度量。

- 采用量子认知机器学习(QCML)提升相似度估计能力,优于传统的欧氏距离方法。
  • QCML利用量子态空间映射和量子保真度定义相似度,能够捕捉数据的复杂非线性结构。


CVL构建与数据特征说明 [page::2][page::4][page::5]

  • 企业特征包括财务及估值指标,如现金占资产比例、盈利能力指标、杠杆率等多维度特征。

- 输入特征经过行业去均值、标准化及极值截断处理,使用广泛认可的标准会计和市场数据。
  • 选取标普中高流动性美股作为样本,时间跨度2017-2024年,约1500支股票动态构成。

- 控制变量包括分析师覆盖度、Beta值、动量、逆转效应等,保证信号独立无明显线性风险敞口。

QCML模型训练及技术细节 [page::3][page::6]

  • QCML模型将输入数据映射至维度为12的量子Hilbert空间,通过学习量子观测算符实现监督训练。

- 目标变量选用未来63日标准化收益,训练期间2007-2013年,利用Adam优化器实现收敛。
  • 训练多达50个模型种子均匀抽样训练数据,提高信号稳定性与鲁棒性。

- 计算相似度由量子态间的Bures距离转换而来,保持与欧氏距离相似的分布特性。

量化动量溢出策略构建与评估方法 [page::6][page::7]

  • 相似度矩阵作为企业间权重,结合不同历史收益期构建溢出信号。

- 投资组合通过每日Markowitz优化实现风险暴露中性,平滑交易减少频繁换仓成本影响。
  • 测试期为2014年至2024年,确保信号动态时效及稳定性检验。


实证结果:欧氏距离CVL信号表现 [page::8]


| 期望收益期 | 21天 | 63天 | 126天 | 252天 | 综合 |
|--------------|-------|-------|---------|---------|---------|
| 平均信号半衰期(天) | 9.1 | 19.5 | 27.0 | 36.3 | 14.8 |
| 夏普比率 | 1.35 | 1.03 | 0.71 | 0.73 | 1.24 |
  • 欧氏距离信号整体正向有效,短期信号表现优于中长期。

- 半衰期随入参收益期延长而增加,体现特征向量稳定性。



实证结果:QCML相似度CVL信号表现及优势 [page::9][page::10]


| 期望收益期 | 21天 | 63天 | 126天 | 252天 | 综合 |
|--------------|-------|-------|---------|---------|---------|
| 平均信号半衰期(天) | 11.5 | 32.6 | 53.5 | 90.9 | 23.5 |
| 夏普比率 | 1.38 | 1.14 | 1.04 | 1.10 | 1.42 |
  • QCML信号在所有期望收益期均优于欧氏距离,尤其是长期收益期信号半衰期扩大近2.5倍,说明信号更为持久稳定。

- 长期252天信号夏普从欧氏的0.73提升至1.10,提升超过50%。
  • QCML信号在不同子期表现更为一致,增强了策略的鲁棒性:




结论与未来展望 [page::9][page::10][page::11]

  • CVLs及QCML相似度为复杂企业关系的量化建模提供新视角和有效工具。

- 可拓展性强:调整特征类别、目标变量以及动态更新QCML模型,未来有望提高实盘应用性能。
  • 该方法为捕获非线性、高维度企业间动量溢出关系提供量子机器学习创新范式,拓展了量化策略方法论。

深度阅读

《Supervised Similarity for Firm Linkages》详尽分析报告



---

一、元数据与概览


  • 标题:Supervised Similarity for Firm Linkages

- 作者:Ryan Samson 等(共13名作者,涵盖学术和业界多机构,包括Qognitive、Intech Investment Management、Deutsche Bank、King’s College London等)
  • 发布日期:2025年6月26日

- 主题:提出并验证一种基于机器学习的“企业间相似度”方法,用于捕捉企业间的关联性(Firm Linkages),并应用于股市动量传导(momentum spillover)策略。
  • 核心论点

- 引入了一种新型企业关联指标,称为Characteristic Vector Linkages(CVLs),通过企业特征向量的相似度衡量企业间联系。
- 使用简单的欧式距离与基于量子认知机器学习(Quantum Cognition Machine Learning,QCML)两种相似度方法建立关联矩阵。
- 证明基于QCML学习的相似度优于传统欧式距离,在构建动量传导交易策略中表现更佳。
  • 目标:向金融领域介绍QCML作为度量证券间相似度的新颖工具,提升预测与投资模型的表现实现更稳定和有效的交易信号。


---

二、逐节深度解读



1. 引言与研究背景


  • 关键论点:市场中企业间存在关联性(如产业、供应链、地理位置等),这些关联导致动力学上的“动量传导”效应,即某企业过去的收益对相似企业未来的收益具有预测性。

- 前人研究综述:文献多使用基本面信息形成行业或关系网络,结合机器学习技术挖掘证券间距离或相似度,用于风险管理或聚类。机器学习用于“相似度学习”是近期热点。
  • 创新点:本研究提出全新指标CVLs,结合QCML进行监督式学习,提升相似度的精准度,进而增强动量传导策略的效果。

[page::0,1]

2. Characteristic Vector Linkages (CVLs) 与欧式距离方法


  • 定义及逻辑

- 用某时间点$t$的企业$j$的特征向量$\mathbf{x}{t,j}$(涵盖多个指标)表示企业。
- 两个企业之间的距离用其特征向量的欧式距离衡量,距离越小表明企业越“相似”,进而更可能存在动量传导。
  • 为何选择欧式距离

- 欧式距离能体现特征数值及其差异量级,较符合实际经济含义。
- 否则如余弦距离在极端两企业特征方向相反但数值近似时,反而测得距离极大,失去经济意义。
  • 数学表达式


$$
D
{Euclidean}(\mathbf{x}{t,i},\mathbf{x}{t,j}) = \sqrt{(\mathbf{x}{t,i} - \mathbf{x}{t,j})^\top (\mathbf{x}{t,i} - \mathbf{x}{t,j})}
$$
[page::1]

3. 量子认知机器学习 (QCML) 相似度方法



3.1 QCML模型原理


  • 基础:借鉴量子力学中状态向量与观测算子理论,将数据映射为量子态$|\psi\rangle$,使复杂数据关系可在希尔伯特空间中表达。

- 映射过程
- 定义误差哈密顿算子$H$,使特征向量$\mathbf{x}{t,j}$映射至哈密顿量的基态$\psi{t,j}$。
- 观测算符$Ac$量化企业特征,度量与特征数据的差异和方差。
  • 监督学习

- 给定目标变量(例如未来收益),对应量子“预测”算符$B$。
- 训练通过梯度下降调整$A
c$和目标算符$B$,最小化预测误差与特征映射误差的加权和。
- 损失函数为

$$
Loss{t,j} = (\hat{y}{t,j} - y{t,j})^2 + w \sumc (\hat{x}^c{t,j} - x^c{t,j})^2
$$

其中$\hat{y}{t,j} = \langle\psi{t,j}| B | \psi{t,j}\rangle$,$\hat{x}^c{t,j}$为量子“位置”测量值,$w$为权重超参数。
  • 算法步骤包括初始化参数,计算哈密顿量,求基态,计算损失及梯度,参数更新,循环迭代至收敛。

- 参数选择:希尔伯特空间维数$N=12$,平衡表现及过拟合风险。
[page::1,2,3]

3.2 QCML距离定义


  • 基于量子态的相似度用“保真度”定义:


$$
f(\psi1, \psi2) = |\langle \psi1 | \psi2 \rangle|^2
$$
  • 保真度转距离使用Bures距离:


$$
D{QCML}(\mathbf{x}{t,i}, \mathbf{x}{t,j}) = \sqrt{2 - 2\sqrt{f(\psi{t,i}, \psi{t,j})}} = \sqrt{2 - 2|\langle \psi{t,i}|\psi{t,j}\rangle|}
$$
  • 该距离与欧式距离类似(量子态均为单位范数),转换为相似度更合理。

[page::3]

4. 距离转相似度矩阵


  • 利用高斯核函数构造相似度矩阵:


$$
S(\mathbf{x}
{t,i}, \mathbf{x}{t,j}) = \begin{cases}
e^{-\gamma \cdot D(\mathbf{x}
{t,i},\mathbf{x}_{t,j})^2}, & i \neq j \\
0, & \text{otherwise}
\end{cases}
$$
  • 对欧式与QCML距离分别设定参数$\gamma$,匹配距离的中位数值,分别为1和16。

- QCML相似度为学习型相似度,需要先训练模型再计算,欧式相似度为直接计算,无需训练。
[page::3,4]

5. CVL动量传导交易策略搭建



5.1 研究数据与特征


  • 数据:收集从2017年10月至2024年6月的美国约1500只成熟流动性优异的大盘股票。

- 特征构造
- 侧重财务会计与估值指标,涵盖总资产、现金流、利润率、杠杆率等17个会计和估值相关特征,数据多来自Bloomberg与S&P Capital IQ。
- 特征经过GICS行业内的去均值和跨截面标准化(z-score)及1%/99%分位数裁剪,避免行业偏差。
  • 控制变量

- 加入分析师覆盖度、Beta、传统动量、规模因子、行业哑变量等一系列控制变量,均进行winsorize和标准化,用于策略构建时剔除这些已知效应的线性影响。
[page::4,5]

5.2 相似度构建与训练


  • 欧式相似度:直接计算,无训练。

- QCML相似度
- 训练期为2007年10月到2013年8月,目标变量为未来63日收益率(经过横截面标准化)。
- 训练50个不同随机子样本的QCML模型,后期结果取平均,提升鲁棒性。
- 模型用PyTorch实现,训练时间约15秒/模型,测试期相似度计算约50秒/模型,可并行加速。
- 模型不更新参数,后续可采用滚动训练或在线更新提升性能。
  • 训练输入与欧式距离同。

[page::6]

5.3 动量传导信号构建


  • 使用每日计算的相似度矩阵,构建每只股票的连接权重(相似度权重除以同一行权重和)。

- 用权重加权相似股票的滞后收益作为信号,计算不同滞后窗口(21、63、126、252日)和组合信号。
  • 信号均经过行业去均值与跨截面标准化。

[page::6,7]

5.4 策略评价方法


  • 利用风险模型(每天计算的协方差矩阵)和Markowitz最优化方法生成投资组合权重,权重配置使得策略信号的风险暴露控制于零,不涉及控制变量线性暴露。

- 投资组合权重平滑21日,仿真实际调仓限制。
  • 策略测试期为2014年1月至2024年6月,忽略交易成本。

[page::7]

6. 结果分析



6.1 欧式相似度CVL信号表现


  • 信号半衰期(Table 1):

- 半衰期随着输入收益窗口延长而增长,表明特征构建的企业联系稳定性较高,尤其在中长期有更强势的动量传导。
- 例如252日收益输入信号,半衰期约36天。
  • 夏普比率(Table 2):

- 取得正夏普,21日收益率输入的信号表现最好(全年1.35,子区间最高达1.63),长周期输入表现较差。
- 2021-2024年表现明显下降,部分信号甚至为负。
  • 累计收益曲线(Figure 1):

- 顯示短期输入信号表现稳定上升,长期信号波动较大。
[page::8]

6.2 QCML相似度CVL信号表现


  • 半衰期(Table 3):

- 显著增长。例如252日输入收益的信号半衰期达90.9天,约为欧式信号的2.5倍,表明QCML挖掘的信号更持久、更稳健。
  • 夏普比率(Table 4):

- 大部分时段下QCML信号均优于欧式,特别是长周期收益输入。
- 252日输入收益信号夏普超越欧式,达1.10(欧式0.73),总体复合信号夏普1.42(欧式1.24)。
  • 累计收益曲线(Figure 2):

- 信号整体更稳定,上行趋势较为平滑。
  • 子区间表现

- QCML信号表现较欧式更为一致,尤其在弱势期(2021-2024)表现出些许超越。
  • 结论

- QCML通过监督学习找到了更稳健且持久的企业间联系,相较传统简易欧式距离,提供有力的策略提升空间。
[page::8,9,10]

7. 结论


  • 创新贡献

- 提出Characterstic Vector Linkages(CVLs)概念,以企业多维特征表示形成连接,支持发现企业间经济联系。
- 利用QCML算法,映射企业特征到量子态,学习更深层次、更复杂的企业相似性,优于传统欧式距离。
  • 策略效果

- 所构建的基于CVLs动量传导策略均表现出正夏普,且QCML模型带来显著的表现提升与信号稳定性提升。
  • 未来应用

- 方法可扩展到其他特征体系和目标变量。
- QCML训练策略可动态更新,结合线上学习或多目标学习。
  • 意义

- 当传统金融量化策略面临日益激烈竞争时,先进的相似度学习方法有望成为识别和利用企业微妙关系的关键工具。
[page::9,10,11]

---

三、图表深度解读



1. 表1(欧式相似度信号半衰期)


  • 显示不同输入收益窗口的信号在完整期及子区间的日均半衰期,范围9-40天不等,长窗口收益信号半衰期更长。

- 反映信号平均持续存在的有效时间,窗口越长,信号越持久。

2. 表2(欧式相似度信号夏普比率)


  • 夏普最大的21日窗口信号超过1.3,尤其在2017-2020年达到高峰(最高2.5)。

- 末期2021-2024表现明显弱化,部分信号夏普为负。

3. 图1(欧式相似度信号累计收益曲线)


  • 不同窗口信号累积收益存在明显差异,短窗口走出较好收益曲线,长窗口信号涨幅平缓且波动较大。

- 直观展现欧式信号收益与风险的动态表现。


4. 表3(QCML相似度信号半衰期)


  • 半衰期整体显著高于欧式相似度,特别是252日输入的90.9天,较欧式36.3显著延长。

- 表明QCML学到的企业关联更稳定长期。

5. 表4(QCML相似度信号夏普比率)


  • 各窗口信号夏普均优于欧式信号,尤其中长周期效果明显提升。

- 252日输入信号夏普1.10,高于欧式0.73,且复合信号提升较大。

6. 图2(QCML相似度信号累计收益曲线)


  • 信号累积收益趋势更平滑,多个窗口均呈现较强的上升动力和较低的波动。

- 兼具收益和稳定性优势。


---

四、估值分析


  • 本文主要在金融量化投资策略层面,不涉及具体公司估值。

- 资产定价和风险模型应用于策略组合构建,采用Markowitz均值-方差优化,利用协方差矩阵估计风险,因而隐式基于经典现代投资组合理论。
  • 聚焦相似度度量函数的改进与策略表现提升,不包含直接估值模型。


---

五、风险因素评估


  • 模型风险

- QCML模型依赖于训练数据与目标选择,模型过拟合或训练不足均可能影响表现。
  • 数据风险

- 股票特征指标受到数据质量与频率影响,且行业调整及极值截断虽减少偏差,但仍可能存在噪声。
  • 市场风险

- 策略虽然市场中性且剔除多种已知因子影响,但不可避免暴露于系统性市场风险。
  • 期限风险

- 信号半衰期的变动可能导致策略交易频率和持仓持续时间波动,较长周期信号尽管稳定,但调整迟缓。
  • 覆盖风险

- 模型未考虑全部可能关联维度,未用完备特征库,可能遗漏重要关联因素。
  • 缓解策略

- 文中建议周期性重新训练QCML,且可扩展特征选择,提升模型适应性和稳健性。
[page::5,10]

---

六、批判性视角与细微差别


  • 数据区间局限:训练期截止2013年8月,测试期延伸至2024年,市场环境变化可能导致模型陈旧。模型不滚动训练限制其适应性。

- 效果衰减期:2021-2024年子区间表现下降,说明模型适用性在极端市场波动或结构变迁中存在风险。
  • 目标变量选择:使用未来63日收益作为训练目标,模型结果受目标设定限制。未来可以试验利润增长、盈利意外等更经济内涵明确的指标。

- 较强假设:QCML模型依赖量子态映射与保真度解释,数学复杂且黑箱化较强,实际业务解释较弱,可能限制实用透明度。
  • 实验对比:文章仅对比了欧式距离及QCML,未纳入其他传统机器学习相似度度量对比,如余弦距离、其他监督学习距离等。

- 模型参数固定:不进行模型更新及在线学习策略,或导致失去时间序列中新出现的结构变化捕捉能力。
  • 收益来源剖析缺失:虽然剔除多项控制变量风险,但缺少对信号收益来源内部结构的深入解读,如行业贡献度、风格暴露细节。


---

七、结论性综合



本文系统提出并实证了Characteristic Vector Linkages (CVLs)作为捕捉企业间经济相似度的有效工具,特别运用量子认知机器学习(QCML)将多维企业特征映射至量子态空间,通过基于保真度的Bures距离量化企业间距离。相比传统简单欧式距离,QCML相似度通过监督学习显著提升了动量传导信号的稳定性和预测能力。

主要发现包括
  • CVLs创新:基于广泛财务与市场特征构建,能经行业调整和标准化处理,有效筛除行业偏差,揭示有效的公司间经济联系。

- QCML提升
- 信号半衰期通常是欧式相似度的2倍以上(252日收益输入半衰期90.9 vs 36.3天),展现更持久稳定的企业联系。
- 夏普比率提升明显,最高超过1.4,尤其长期信号改善显著。
- 在不同时间区间表现更为稳健,尤其在市场不佳的2021-2024年间仍有小幅超越。
  • 策略构建合理性:采用风险控制投资组合,在多重控制变量剔除线性风险暴露后,信号本身仍保持显著超额收益,表明真正捕获了市场未充分套利的动量关联。

- 计算效率良好:QCML模型训练和信号计算对现代GPU硬件友好,实用性强,可调整参数以适配业务需求。

图表支持
  • 表格1~4 详示了信号半衰期和夏普指标,清晰呈现QCML相似度的优势。

- 图1、2显示累计收益曲线,QCML信号更加平滑且持续上升,显著优于欧式距离生成信号。

未来方向
  • 动态调整模型权重和参数,进行在线学习或滚动训练。

- 拓宽特征和目标变量种类,细化模型经济含义。
  • 引入更多测度方式与传统机器学习基准对比,增强说服力。

- 进一步解析收益来源与风险结构,提升实务应用信心。

总结来看,本文不仅开创性地引入了QCML在金融相似度学习上的应用,也验证了其在投资策略构建中的实际价值,展示了先进机器学习方法推动金融量化创新的重要潜力。[page::0,1,2,3,4,5,6,7,8,9,10,11]

---

附:主要图片引用


  • 图1:欧式距离CVL信号累计收益


  • 图2:QCML距离CVL信号累计收益



---

此份分析报告基于原文逐页内容细致理解与解读,详细解析了每一章节的概念、方法、数据及结果,确保内容完整严谨,符合资深金融分析研究的要求。

报告