CORRELATION WITHOUT FACTORS IN RETAIL CRYPTOCURRENCY MARKETS
创建于 更新于
摘要
本报告基于Robinhood零售加密货币交易数据,运用无模型、无分布假设的有效自由度函数$N^{*}(N)$,验证了日收益率高度相关(约54%),且加密货币收益的相关结构更符合各资产同质相关(各向同性模型)而非线性因子模型。通过大量随机组合实验和统计检验,强烈否定标准线性因子模型,对Robinhood及CoinMarketCap历史数据的分析表明,这一同质相关特征至少稳定存在五年,提示市场风险集中且分散效果有限,为加密资产组合管理提供新视角与理论支持 [page::0][page::4][page::5][page::6][page::8][page::9][page::10][page::11]
速读内容
- Robinhood平台提供14种加密货币连续日内价格数据,计算其日收益率,通过对91个币种对的日收益率进行配对相关系数分析,均值达到54.17%,显示市场内部高度相关[page::4][page::5]。

- 通过随机采样1,000次组合,计算等权组合的有效自由度$N^{}(N)$散点(822个不同组合),并分别与同质相关模型(橘色曲线)和线性因子模型(绿色直线)进行对比,发现同质相关曲线拟合优异,因子模型拟合较差[page::5][page::6]。

- 表1列举各组合中$N^{}$均值与标准差,比较实际观测与两模型推断值,统计检验显示线性因子模型拟合极差($\chi^2=572.7, p\approx 0$),同质相关模型拟合符合95%置信区间($\chi^2=21.0, p=0.0497$),明显支持同质相关假设[page::7][page::8][page::9]。
- 不同年份的扩大数据集(CoinMarketCap,剔除异常币种),对2018-2024年逐年执行相同步骤,发现有效自由度维持在约1.6-2.5之间,波动较小且与Robinhood数据一致,说明同质相关结构在时间上稳定存在[page::9][page::10]。
| 年份 | 2018 | 2019 | 2020 | 2021 | 2022 | 2023 | 2024(部分) |
|------|-------|-------|-------|-------|-------|-------|------------|
| 有效自由度 $N^{}$ | 1.58 | 2.05 | 1.61 | 2.48 | 1.48 | 1.92 | 1.91 |
- 有效自由度随组合规模增长趋于稳定,且高相关导致组合风险难以通过传统因子分解降低,提示投资者需采用风险中心化的配置方法,即基于“居中Z分数”加权分配,而非简单的风险调整收益比率[page::11]。
- 量化分析结论表明,零售加密货币市场不适合采用传统多因子投资框架,市场回报间的相关结构更接近“均质相关模型”,该模型并不隐含共同驱动因素,而是资产收益率在统计上表现出类似的相关性,这对资产定价与组合管理具有重要启示[page::10][page::11]。
- 研究方法基于定义明确的无模型统计量$N^{
- 作者公开了完整Python代码与数据获取路径,支持科研验证,数据主要来源Robinhood API和CoinMarketCap via Yahoo! Finance,保证数据实时性与可靠性[page::11][page::12]。


深度阅读
报告详尽分析 — 《CORRELATION WITHOUT FACTORS IN RETAIL CRYPTOCURRENCY MARKETS》
作者:GRAHAM L. GILLER
---
一、元数据与报告概览
- 标题:Correlation Without Factors in Retail Cryptocurrency Markets
- 作者:Graham L. Giller
- 机构:未明示,个别数据来源为Robinhood股票经纪平台,数据采集依赖公开API
- 日期:文章中数据采集截止于2024年12月初,报告完成时间亦接近2024年末
- 主题:研究零售加密货币市场日收益率的相关性结构,检验两类模型——线性因子模型与各向同性相关模型,比较哪种能更好刻画日常加密货币资产收益的横截面相关结构
报告核心论点及目的:
作者创新性地采用“有效自由度”统计量$N^(N)$,该无模型无分布假设的指标反映等权组合中组合方差相较于个别资产方差的变化,用以区分基于Robinhood平台可交易加密货币的收益相关结构。研究发现,平均资产对收益的相关性极高(约60%),且加密货币市场的收益横截面更符合一个简约的各向同性相关模型(一个以常数相关描述资产间相关的模型),而非传统金融广泛应用的线性因子模型加噪声的框架。该结构在过去若干年中表现稳定,挑战了以多因子模型捕捉加密货币相关性主流做法。[page::0,1]
---
二、逐节深度解读
1. 引言(Introduction)
作者指出,随着加密货币资产逐渐成为主流资产类别,金融领域尝试利用股权市场中成熟的因子模型框架(如Ross的套利投资组合理论APT)来解读加密货币横截面收益。然而,因子模型应用存在诸多问题,即“因子动物园”(Factor Zoo)现象,即学者们随意创造新因子却不严格检验因子独立性及解释能力,导致因子模型体系复杂混乱。针对这一现状,作者提出避免陷入因子选择与多重检验陷阱的另一条路径,即利用统计量$N^(N)$探究实际组合行为,跳过因子构建和回归分析带来的偏误。[page::0]
2. 各向同性模型与线性因子模型(Isotropic Returns and Linear Factor Models)
2.1 有效自由度的概念
- 定义:有效自由度$N^$度量了资产组合的“独立性”,它的物理意义在于等权组合方差比值与单资产方差的比率。若资产间收益完全独立,则$N^(N)=N$(组合中资产越多,自由度越大,组合方差降低),相反如果资产完全相关,则$N^ = 1$。
- 数学表达:
$$
\mathbb{V}[\overline{x}] = \frac{\overline{\sigma^2}}{N^}
$$
其中:
- $\overline{\sigma^2}$ 是资产个体收益的平均方差;
- $N^$ 是有效自由度,用于修正实际组合方差$VP$与理想独立资产组合方差$VI$的关系:
$$
N^{} = N \frac{VI}{VP}
$$
该指标无须假设资产收益分布和模型结构,且根据相关性矩阵结构有不同的理论函数形式。该指标将作为核心分析工具。[page::1]
3. 有效自由度的测量
3.1 实验设计
采用随机组合抽样法,随机选取$Nj$个资产组合,计算对应$N^(Nj)$,通过多次迭代($N{\text{iter}}$次)样本平均估计关系$N^{}(N)$,避免对组合全空间的遍历,为实证分析提供非模型依赖的统计量。
3.2-3.4 理论模型对比:
- 独立资产模型:$N^{}(N) = N$,日收益间无线性相关,实际难以成立。
- 各向同性相关模型:
方差协方差矩阵为
$$
\sigma^{2}
\begin{pmatrix}
1 & \rho & \cdots & \rho \\
\rho & 1 & \cdots & \rho \\
\vdots & \vdots & \ddots & \vdots \\
\rho & \rho & \cdots & 1
\end{pmatrix}
$$
实际有效自由度:
$$
N^(N) = \frac{N}{1 + (N - 1) \rho}
$$
当$N\to\infty$时,$N^$趋于$1/\rho$,反映资产间相关性的常数水平的“饱和”效应。
- 线性因子模型
经典结构:
$$
\pmb{r}t = \pmb{\mu} + \boldsymbol{B}\pmb{f}t + \pmb{\varepsilon}t
$$
其中$\pmb{f}t$为$K$个因子,$\pmb{\varepsilon}t$为误差项,假设独立同分布。
有效自由度的形式为:
$$
N^{}(N) = N \frac{\overline{b^2} N + \overline{s^2}}{\overline{b}^T \overline{b} N + \overline{s^2}}
$$
其中$\overline{b^2}$为因子载荷矩阵元素均方,$\overline{b}$为载荷均值向量,$\overline{s^2}$为残差方差均值。若因子载荷相似,则近似为$N/K$,随投资组合大小线性增长。
3.5 模型鉴别
三种模型$N^(N)$的函数形状差异显著:
- 独立资产:线性增长,斜率1
- 各向同性相关:收敛于常数$1/\rho$,曲线趋于平坦
- 线性因子模型:线性增长,斜率约为$1/K$
因此通过观察组合大小$N$与$N^$的关系曲线形状,可区分这三者。由于样本数较少(14个加密货币),无法观察大样本极限性质,但足以做初步模型鉴别。[page::2,3]
4. 来自Robinhood的实证分析
4.1 数据来源与采集说明
选取Robinhood零售平台上14种可交易的加密货币(如BTC、ETH、DOGE等)作为研究对象,数据通过API定期采样,采取UTC时间下每日收盘价点位计算日收益率,采样时间段为2024年7月31日至12月2日。数据采集频率为每10分钟一次,取当日收盘价计算日度收益。数据仅包含Robinhood API支持的交易品种,不包括其它未在API中开放的加密货币。[page::4]
4.2-4.3 相关性分布及有效自由度随投资组合规模变化
- 图1(第4页):展现了14种加密货币两两组合日收益的相关系数分布,呈偏左的分布,平均约54.17%,极少低于20%。这反映出加密货币间收益具有较高的正向相关性。样本量125天,相关系数估计误差约9%。
- 图2(第5页):将随机抽样形成的822个组合(1-14个币)的$N^(N)$散点描绘为蓝点。
- 橙色曲线为基于最大组合(14资产)计算的各向同性相关模型的理论曲线($\hat{\rho} = 47.25\%$,$N^(14)=1.96$)。该曲线未使用拟合方法,是由最大样本点计算后推断的理论曲线,且通过点$(1,1)$约束。
- 绿色直线代表线性因子模型的“较大”组合极限形式$N^(N) \approx N/K$,隐含因子数$K=7.1$。
从图中看,现实数据点总体贴合橙色较好,而绿色直线与观测点和趋势差异巨大,表明线性因子模型拟合较差,尤其是样本规模偏小的情况下。[page::5,6]
4.4 量化模型拟合优劣
作者通过排除一资产组合和全部资产组合端点数据,针对组合规模$N=2$至$N=12$计算均值及标准误来执行卡方检验和非线性最小二乘拟合:
- 线性因子模型参数估计为$b^2=0.000\pm0.165$,极端不稳定,拟合曲线(图3,橙色与红色曲线对比)普遍低估(红线)或偏离测量的均值点,且超出了测量标准误范围。
- 各向同性模型(橙曲线)拟合良好,大部分时刻落入测量误差带,视觉匹配优异。
统计检验结果显示:
- 线性因子模型整体卡方值为572.7,自由度9,P值极低,明显拒绝此模型。
- 各向同性模型卡方为21.0,自由度12,P值约0.05,边缘可接受,通过F统计量检验,两个模型在拟合度上差异极为显著($p=4.8 \times 10^{-7}$),抛弃因子模型,认可各向同性相关结构。[page::7,8,9]
5. 来自CoinMarketCap的历史数据分析
为验证上述结论的时间稳定性,作者使用CoinMarketCap经Yahoo Finance API提供的币价历史数据,剔除COMP/USD数列不完整、SHIB/USD数值过小、UNI/USD异常跳变资产后,仍保留11种资产。样本时间长度包括2018年至2024年(2024年截止于写作时)。通过同样方法计算当年$N^$和对应的均值波动。
- 缺失币种及变动依条件说明;数据剔除以保证数列稳定性和可信度。
- 数据显示,五年多时间里平均$N^$约1.85,标准差0.38,标准误0.15,表明有效自由度较低且稳定。
- Robinhood最新数据所得$N^
- 表2详细列出各币年内的收益方差,组合方差,独立资产假定方差及对应$N^$值和相关系数$\rho$,均符合高度相关的特征。
- 图4展示了时间序列中$N^
结论为加密货币市场横截面收益的有效自由度非常有限,且这种各向同性相关结构路径存在至少五年以上,稳健性可靠。[page::9,10,11]
6. 结论部分总结
- 本文基于更广泛的零售交易数据首次确认:零售加密货币市场的资产收益横截面相关结构更接近“同质各向同性相关模型”,而非任意线性因子模型,即收益率间存在高度且相似的相关性,但不存在明显的、线性叠加的共同因子驱动。
- 同质各向同性结构意味着虽然存在强市场类似的行为模式(如市场因子),但其并非源于单一共同驱动力或标的,更多表现为随机相似性。
- 组合回报中残差部分贡献不随资产数量消失,组合可能被部分大资产显著主导。
- 高达50%以上的相关系数说明均值-方差最优配置时需调整投资策略,不能简单依alpha/方差比值,因高相关性减少分散效果。[page::10]
---
三、图表深度解读
图1(第4页)——“加密货币收益日收益相关系数分布”
- 描述:展示Robinhood14个加密币种两两日收益相关系数的分布直方图
- 数据:总共$C_{14}^2=91$个资产对,均值54.17%,分布偏左,极少低于20%,极少高于80%,主要集中在40%-70%区间
- 解读:高度正相关显示市场整体联动强,且收益间不存在太多零散独立的行为,表明资产集体波动显著。
- 文中结论配合:为选择模型奠定了观察基础,说明独立资产模型不适用,极有可能为各向同性模型或因子模型情形,但后者拟合差。[page::4,5]
图2(第5页)——“等权组合规模与有效自由度的关系”
- 描述:随机抽样822个不同资产组合,绘制不同组合资产数量$N$与对应$N^(N)$的散点图(蓝色),并叠加两个理论模型曲线,橙色为各向同性相关模型,绿色为线性因子模型的极限
- 趋势:
- 散点聚集在1~2区域,且随资产数目增加缓慢增长,体现$N^(N)$显著低于$N$,反映强相关性。
- 橙色曲线紧贴散点趋势,表明该无因子常相关假设与数据吻合良好。
- 绿色线性因子模型线性上升,远远偏离实测值,无法合理描述现象。
- 推断: 组合有效自由度显著受限,支持各向同性模型而非多因子结构。
- 数据局限与说明:由于组合最大为14,未能充分捕捉线性因子模型大规模极限特征,仅作趋势参考。[page::5,6]
表1(第7页)——“投资组合规模与对应$N^$的均值及标准差”
- 描述:表列组合资产规模各个取值下随机抽样估计的$N^$均值、std及对应各向同性和最优线性因子模型预期值。
- 结果:
- 观测均值接近各向同性模型预期,远低于因子模型估计。
- 标准误显示观测数据波动不大,拟合稳定。
- 文中评价:基于此表和后续图3的拟合可见因子模型受制于参数估计误差极大,拟合曲线与真实均值偏差明显,验证了各向同性模型的优越性。[page::7,8]
图3(第8页)——“平均$N^(N)$与模型拟合曲线对比”
- 描述:蓝点加误差棒展现组合中观测的$N^$均值及标准差;橙线为各向同性相关模型,红线为拟合线性因子模型。
- 解读与趋势:各向同性模型曲线紧贴蓝点误差棒中段及末尾点,拟合吻合良好;线性因子拟合曲线整体偏低且远离很多观测点,拟合失败。
- 结论重申:已定量和视觉双重证明各向同性结构适配数据,因子模型不匹配。[page::8]
表2 & 图4(第9-11页)——“历史时间序列与长期有效自由度”
- 表2提供各币种逐年收益方差,组合方差,独立产方差与$N^$和$\rho$指标,详尽展示2018-2024年间的稳定性指标。
- 图4直观呈现2018年至2024年间的$N^$变化(蓝线)以及当年Robinhood数据的有效自由度(橙色线)。
- 趋势分析:短期中稍有波动但整体维持在1.5-2.5区间,表明各向同性相关结构机制较稳定,符合长期横截面相关性属性。
- 意义:验证了基于Robinhood短期数据结论的长期稳健性,有较强实证意义。[page::9,10,11]
---
四、估值分析
本报告核心不涉及典型的公司估值或盈利预测,未直接涉及现金流折现(DCF)、市盈率(P/E)、企业价值/EBITDA等估值指标。报告是一篇偏统计模型与资产相关性结构的学术性分析,对因子模型结构的定量评估及统计检验为核心。估值含义隐含在因子数量对投资组合风险分散效果中的解释,而非传统证券估值框架。[page::整体]
---
五、风险因素评估
- 模型选择风险:如报告所述,因子模型在多因子设定中容易出现过拟合、过度解释(因子动物园),而本研究指出线性因子模型未能有效拟合加密市场数据,强调对传统金融因子模型的谨慎态度。
- 数据采集和样本选择风险:仅包含Robinhood交易平台可交易资产,可能存在样本选择偏误;CoinMarketCap数据因剔除新资产与异常波动资产削弱样本普遍性。
- 时间稳定性假设风险:尽管数据覆盖多年,且稳定性分析显示较强的稳健性,但未来制度变革、市场成熟或新产品推出可能破坏当前相关结构。
- 统计假设风险:卡方检验等的正态性假设存在一定依赖,且样本容量受限于14种资产,小样本效应可能影响结论泛化。
- 相关性估计误差风险:市场波动导致的短期相关性波动或估计误差,影响$N^$计算准确性,尤其对高频数据敏感。
报告未针对风险提出具体缓解策略,主要以实证数据和严格统计检验降低模型假设风险。总体,作者对数据质量及样本选择持谨慎透明态度。[page::6,9]
---
六、批判性视角与细微差别
- 数据局限
- 组合总资产数量较少(14只),缺乏大规模资产集下的观察,导致极限性质只能推断无法验证。
- 仅观察日收益,未探讨更高频或更长周期统计特征差异。
- 因子模型估计不稳
- 线性因子模型拟合参数标准误极大,表明模型受噪声影响和数据特征限制,可能存在多因子选择或模型配置不足的问题。
- 方法学优点与限制
- 利用$N^(N)$避免了因子模型构造固有的“因子动物园”问题,减少模型偏差,不依赖于收益分布假设。
- 缺点是$N^(N)$指标对投资组合内资产异质性未进行细粒度捕捉(例如不同波动特征、非线性相关效应)。
- 结果的普遍性
- 由于数据主要来自零售交易渠道Robinhood,其用户特征与机构投资者市场可能差异显著,推论在机构市场适用性待验证。
- 结构变化隐含可能
- 报告指出市场呈现“随机类似”而非因子驱动,不排除未来随着市场成熟,系统性因子的出现。
以上均为报告自身内容及结构启示,未作主观评价。[page::3,6,9]
---
七、结论性综合
本报告基于Robinhood零售加密货币交易平台及CoinMarketCap数据,深入剖析加密货币日收益率横截面相关结构,采用无模型无分布的“有效自由度函数”$N^{}(N)$为核心统计指标。研究结果表明:
- 在零售加密货币资产中,日收益两两相关性极高(均值约为50%-60%),且该相关性结构用传统的线性因子模型不恰当,因其有效自由度随资产数线性增长的属性与实际组合数据明显不符。
- 各向同性相关模型能够很好地描述相关结构,其$N^{*}(N)$函数形态与实测数据高度一致,且这一结构在2018年至今的多年度数据中较为稳定,反映了真实市场统计性质。
- 统计检验(卡方、F检验)从整体上支持舍弃因子模型,认可各向同性模型的解释力,有近乎100%置信度反驳因子模型的描述能力。
- 报告还提出,该等高相关性意味着均值-方差最优配置不能仅采用传统alpha/方差比,需考虑调整后的分位数$Z$得分以应对较高的资产相关性风险。
- 所得结论具有零售投资者特征和市场结构的适用性,但对机构市场等其他市场环境尚需验证。
关键图表洞察:
- 图1揭示了市场中存在高度的资产间相关性基础。
- 图2的数据点与理论各向同性曲线契合,揭示组合风险结构的饱和效应。
- 图3进一步确认各向同性模型的优越拟合度,线性因子模型失效。
- 表2和图4表明该模式不仅是短期现象,而是过去五年数据的长效属性。
综上,报告首次系统否定了零售加密货币市场收益构成中存在传统金融意义上因子模型的普适性,提出基于同质相关性的实用描述模型,为理论研究及实际资产配置提供了全新思路和数据支撑。[page::0–11]
---
(全文完)