`

Classification-Based Analysis of Price Pattern Differences Between Cryptocurrencies and Stocks

创建于 更新于

摘要

本报告基于超过一年的分钟级价格数据,运用多种机器学习模型对加密货币与股票的价格时间序列进行分类,取得超过92%的准确率,显著表明两类资产反映了不同的投资者行为模式。通过提取包括均值、方差、峰值数量、自相关等多维度特征辅助分类,验证了价格模式差异的显著性,并通过随机标记实验排除模型过拟合可能,进一步提升了分类结果的可信度。结果对理解新兴资产类别与传统证券交易行为的差异提供了量化依据 [page::0][page::1][page::4][page::5][page::8][page::9][page::11]

速读内容

  • 数据与样本构建 [page::1][page::2]

- 样本包含735只纳斯达克及纽交所股票及131种主流加密货币,时段为2023年6月1日至2024年5月31日,数据为分钟级。
- 为统一交易时间,选取加密货币样本的美股交易时段(9:30-16:00),将时间序列按日(391分钟/样本)和周(5交易日)切片生成样本。
  • 多模型分类框架设计 [page::2][page::3][page::4]

- 采用9种机器学习模型,包括多层感知器(MLP)、卷积神经网络(CNN)、残差网络(ResNet)、循环神经网络(RNN)、门控循环单元(GRU)、长短时记忆网络(LSTM)、自编码器、Time-CNN及多通道CNN。
- 多模型架构详述,重点说明卷积层、残差连接、门控机制及编码解码流程。
  • 分类结果及性能评估 [page::5][page::6][page::7]


- 不平衡数据下,周度数据与4个价格特征(开盘、收盘、最高、最低)的分类准确率均超98%,F1分数超过93%。
- 仅用收盘价亦可达到接近性能,显示收盘价信息即能反映主要区别。
- 平衡样本同样表现稳健,多模型准确率均高于96%,周度样本优于日度。
- 模型结构复杂度的变化对结果影响甚微,表明性能优异主要来自价格时间序列本身的模式差异。
- 针对随机分配标签的同类别数据分类,准确率约50%,排除模型自身性能因素,证实差异源于时间序列特性。
  • 价差特征分析与机器学习辅助分类 [page::9][page::10][page::14]


| 特征类型 | LR准确率 | RF准确率 | SVM准确率 | KNN准确率 | GB准确率 |
|--------------|---------|---------|----------|----------|---------|
| 价格时间序列 (P) | 65.81% | 94.37% | 66.86% | 84.59% | 91.63% |
| 收益率时间序列 (R) | 70.02% | 86.04% | 61.44% | 72.67% | 84.58% |
| 归一化价格时间序列 (NP) | 65.68% | 78.40% | 65.33% | 63.92% | 74.20% |
| 归一化收益率时间序列 (NR)| 69.46% | 80.96% | 68.09% | 70.86% | 79.16% |
| P+R | 64.81% | 96.05% | 66.36% | 87.92% | 93.47% |
| NP+NR | 70.12% | 84.88% | 71.21% | 71.42% | 82.88% |
- 随机森林(RF)和梯度提升(GB)方法效果最好,达到最高96%的准确率,说明提取特征能较好解释价格模式差异。
- 传统模型(LR、SVM、KNN)表现相对较差,提示尚有关键未提取特征。
  • 结论与展望 [page::11]

- 不同资产类别的投资者行为差异通过价格时间序列得以体现,且收盘价已携带关键区分信息。
- 长时间序列(周度较日度)更能展现差异。
- 机器学习可有效揭示资产类别之间的价格模式差异,辅助理解新兴资产的市场特性。
- 后续工作需深入挖掘更多潜在特征,进一步解释差异来源。

深度阅读

Classification-Based Analysis of Price Pattern Differences Between Cryptocurrencies and Stocks — 详尽分析报告



---

1. 元数据与概览 (引言与报告概览)



报告标题: Classification-Based Analysis of Price Pattern Differences Between Cryptocurrencies and Stocks
作者: Yu Zhang、Zelin W_U 和 Claudio Tessone
发布机构: Blockchain Distributed Ledger Technologies, IfI, University of Zurich, Switzerland
发布日期: 2025年2月26日接收
主题: 通过机器学习方法分析加密货币和股票价格时间序列,探讨两类资产的价格行为差异及投资者行为模式的异同。

核心论点与目标:
该报告聚焦于加密货币(Cryptocurrencies)与股票(Stocks)的价格时间序列数据,利用多种机器学习模型对两者的价格序列进行分类,旨在揭示两者之间显著的价格行为和投资者交易行为差异。作者首先通过高精度的分类结果证明加密货币与股票的定价行为显著不同,随后通过特征工程提取多种统计学指标(如均值、方差、峰度、偏度以及自相关等)并结合传统机器学习模型对分类效果进行解释,验证了这些特征可以部分阐释价格行为的差异。报告的主要信息是:加密货币作为一种新兴资产类别,其价格及投资行为与传统股票存在本质区别,这反映在其价格时间序列模式上,可通过机器学习准确区分两类资产。[page::0,1]

---

2. 逐节深度解读



2.1 引言与相关工作



本章节回顾了比特币作为首个区块链支付系统的历史背景及其带来的资产类别革新,指出加密货币市场规模迅速增长(2024年交易规模约18万亿美元,同比增长130%),并强调加密货币虽命名为“货币”,但因高波动性无法完全担当传统货币职能,因此被视为新的投资工具,且与股票的基本面不同——缺乏企业实体支持。[page::0]

进一步,作者提出核心研究问题:加密货币投资者在交易行为上是否与股票投资者类似?价格时间序列作为投资者行为的直接反映,成为该问题的研究切入点,并以此引出时间序列分类(Time Series Classification, TSC)的研究框架及相关机器学习方法背景,如动态时间规整(DTW)、形状变换(Shapelet Transform)、隐马尔可夫模型(HMM)、卷积神经网络(CNN)、循环神经网络(RNN)、LSTM和GRU等先进方法,作为后续分类模型设计的理论基础。[page::1]

2.2 数据收集与处理


  • 数据范围为2023年6月1日至2024年5月31日,时间分辨率为分钟级。

- 股票样本包括纳斯达克和纽约证券交易所共735只股票,数据来源Bloomberg。
  • 加密货币样本131种,来自Binance交易所,价格单位为稳定币USDT。

- 加密货币市场7×24小时运转,股票市场只在工作日9:30-16:00交易,为保证时序数据一致性,仅选取加密货币对应时间段。
  • 缺失值使用当日邻近数据补齐。

- 股票与加密货币价格序列每个样本包含98,532个数据点(391分钟/日 × 252交易日)。
  • 数据被切分为每日样本(391点)和每周样本(5天×391点,选择完整5天周)。

- 每日样本加密货币共33,012个,股票185,220个;每周样本则分别为5,502和30,970个。
  • 每个样本使用Z-score规范化处理,使均值为0,方差为1。


此设计体现了数据处理的严谨性,确保两类资产时间序列在同一时间框架、同一尺度下进行分类,方便模型对比训练。[page::1,2]

2.3 机器学习分类模型



采用了9种模型涵盖深度学习与传统结构:
  • MLP(多层感知机):基础全连接神经网络,提供简单但烈实的非线性映射。

- CNN、ResNet:卷积网络捕捉局部时序特征,ResNet利用残差连接应对深层网络的梯度消失。
  • RNN、GRU、LSTM:递归网络用于时序数据的长短期依赖建模,GRU和LSTM为改进版本处理梯度消失问题。

- Autoencoder:编码-解码结构,挖掘高维数据潜在表示。
  • Time-CNN和Multi-Channel CNN:针对时序数据的特化卷积网络结构,包含不同Kernel尺寸融合。


详细架构见表I,具体数学表达式解释了各层输入输出的计算流程,体现了对不同网络基础和特性的清晰理解和应用。[page::2,3,4]

2.4 分类实验设计与结果


  • 设定8种子实验组合:时间分割(日/周),数据特征(全部4个指标 vs. 收盘价),数据样本是否平衡。

- 训练数据采用80%训练+20%测试+训练中20%验证的分配方式。
  • 深度归一化前采用Z-score。

- 评估指标为准确率(Accuracy)与F1分数(F1)。

4.1 非平衡数据结果(表III)


  • 分类准确率表现超高,尤其是使用周数据,准确率均超过98%,部分模型甚至达到99%+。

- 使用完整4特征的数据,准确率稍高于只用收盘价,表明收盘价中蕴含主要信息。
  • 日度数据分类表现相比周度波动更大,说明更长时间序列可提供更稳健模式识别。

- 不同模型间表现相似,印证价格时间序列在两类资产间存在明显差异。[page::5]

4.2 平衡数据结果(表IV)


  • 通过随机抽样股票数据实现类别平衡。

- 同样极高准确率,99%以上普遍体现。
  • 优于非平衡结果,验证模型泛化能力强且数据整合策略有效。

- 长度越长的时间序列(周度数据)分类越准确,特征利用更加充分。
  • 各模型对复杂结构的调整实验(表V)中表现变化不大,表明模型不过拟合而是真实结构差异带来效果。[page::6,7]


4.3 补充实验证明(表VI和VII)


  • 对加密货币及股票各自内部随机数据标签做分类。

- 结果准确率约50%,表明模型本身无偏分类能力极强。
  • 这验证了两类资产时间序列差异而非模型能力驱动高准确率的结论,排除了算法性能因素。[page::7,8]


2.5 特征提取与差异解释



5.1 收益率特征(表VIII)


  • 用收益率序列代替价格序列输入模型,分类结果依然优异(>90%准确率)。

- 说明收益率仍然包含两类资产本质区别的关键信号。

5.2 离散统计特征(图1,图2,表IX,表X)


  • 统计指标包含均值、方差、峰度、偏度、自相关前3阶、极值峰数量、零交叉率等。

- 图1展示加密货币均值和方差分布范围更宽,价格波动更大。
  • 图2显示股票在单位时间内产生的局部极大极小峰值数量更多,意味着股票价格波动模式更加碎片化。

- 使用LR、RF、SVM、KNN、GB等传统分类算法,RF和GB表现最佳,准确率最高可达96%。
  • 组合价格特征和收益率特征(P+R)进一步优化分类效果。

- 部分模型(如SVM、LR)表现相对较低,暗示提取特征仍未覆盖全部信息,未来研究需进一步挖掘关键指标。[page::9,10,11,14]

---

3. 图表深度解读



图1 (图片路径:images/5df431437da9cde9adb0a1b1cc1c1d2173acbbec56b73f507c2ec7467ca20a0c.jpg?page=10)


  • 展示了加密和股票价格时间序列日均值和方差的累积分布函数(CDF)。

- 红线(加密货币)相比蓝线(股票)分布更为分散且范围更广,体现加密市场更高的价格波动性。
  • 这支持加密货币价格不稳定和高风险的市场特征,揭示投资者面对的不确定性和行为差异。


图2 (图片路径:images/77507e85ac937f00001d9a4e435af884170d3a56c531a8f3ec0cd496e2936428.jpg?page=10)


  • 显示单位时间内归一化价格数据极大峰值和极小峰值的数量CDF。

- 蓝线(股票)明显位于红线(加密货币)右侧,表示股票一天内价格波动更频繁,有更多峰谷。
  • 说明股票市场价格波动更多样化,具备更细微的短期调整特性,而加密市场更多呈现较大幅度波动。

- 该特征有助于解释机器学习模型捕获两者差异的经济学原因。

表III、IV和V


  • 分别对应未平衡数据分类结果(表III)、平衡数据分类结果(表IV)、模型结构鲁棒性测试(表V)。

- 全部展示机器学习分类准确率和F1值等多指标的高性能,具体数值均超过90%-99%。

表VI、VII


  • 补充实验用于内部随机标签分类,测试准确率接近随机猜测50%,有效排除模型本身或数据预处理导致的偏差。


表VIII和X


  • 特征工程分类模型结果,详细对比不同模型和不同特征组合的表现。

- 表X中随机森林和梯度提升树等集成方法表现优异,准确率高达96%左右。

---

4. 估值分析



本报告为应用机器学习分类研究,未涉及传统金融意义上的公司估值模型(例如DCF、PE比率等)。其估值意义体现在:
  • 通过机器学习模型准确率反映资产价格行为模型的区分度。

- 特征重要性暗示潜在市场风险和波动的来源,为定价和风险评估提供辅助理解。

因此,报告提供的核心“估值”为价格行为模式的“可分辨度”而非传统的资产财务估值分析。

---

5. 风险因素评估



尽管本报告未明确风险章节,但可推断相关风险:
  • 数据质量风险:部分缺失使用临近值填充,可能影响微观时序结构。

- 模型过拟合风险:虽通过架构变体测试降低该风险,但仍需注意模型在未来不同市场环境中的泛化。
  • 投资者行为动态变化风险:加密市场高不确定,未来投资者行为可能发生显著变化。

- 特征覆盖不足风险:机器学习模型基于当前提取特征,可能忽略市场中其他潜在驱动因素。

报告未详细提供风险缓解措施,但实验设计中的多次验证部分体现了一定的稳健控制。

---

6. 批判性视角与细微差别


  • 机器学习“黑箱”问题: 高精度分类虽说明资产类别存在区分,但模型的解释性和经济意义尚有待加强。

- 特征提取有限性: 尽管多种统计特征被提取,部分模型效果一般,表明当前选取的特征未完全捕获差异,暗示价格动力机制复杂。
  • 时间窗口的选择: 以日和周为单位对价格时间序列拆分,潜在遗漏了跨阶段的更长周期行为或突发事件效应。

- 交易时间校准限制: 仅对加密货币交易时间进行了剔除,使两市场价格序列时间对齐,忽略了7x24交易带来的市场连续性差异对行为模式的影响。
  • 研究样本限制: 加密货币采取顶尖交易所样本,是否适用于全部加密市场,特别是低流动性币种,仍有待考察。

- 外部市场因素未考虑: 宏观经济、新闻驱动和政策影响未纳入考量,可能构成重要价格影响。

---

7. 结论性综合



本报告通过严谨的数据采集与预处理,利用多种机器学习模型对加密货币与股票价格时间序列分类实验,取得普遍高于90%、部分达到99%以上的准确率及F1指标。通过重复对加密和股票内部随机标签分类,排除模型本身及数据偏差带来的误导,强有力支持了两资产类别价格行为模式具有显著差异的结论。更长时间窗口(周度)和闭盘价这一关键特征对模型表现贡献最大。

随后,报告从多维度统计特征出发,提取均值、方差、峰度、偏度、自相关及峰值计数等指标,揭示了加密市场价格波动幅度广且峰值较少,而股票市场波动节奏更频繁、多峰。这些统计差异体现在机器学习基于特征的分类准确率高达96%,支持其作为投资行为差异的经济学解释。

最终,本研究确认,加密货币作为一种新兴资产,其价格时间序列反映出的投资者行为模式与传统股票市场存在根本不同,这一发现为金融领域资产分类、风险管理和投资策略提供了重要借鉴。
此外,作者指出在特征挖掘方面仍存在不足,未来工作需丰富特征维度,结合宏观因素,提升模型解释力度与泛化能力。[page::0-11]

---

附录:关键表格与图示链接汇总


  • 表I 机器学习模型结构

- 表III,IV,V 各类数据和模型结构下分类结果
  • 表VI,VII 内部随机分类结果

- 表VIII 收益率分类准确率
  • 表IX 特征定义表(文中未完全OCR)

- 表X 基于特征分类模型准确率
  • 图1 价格均值与方差的CDF分布

- 图2 峰值数量的CDF分布

图1
图2

---

综上,报告通过精细数据处理和多模型对比,明确展示了加密货币与股票交易行为和价格模式的根本区别,实证和理论均具备较高质量和说服力,具有重要的学术价值和实际应用价值。

报告