Combining supervised and unsupervised learning methods to predict financial market movements
创建于 更新于
摘要
本研究结合监督学习与无监督学习,采用线性模型提取价格峰值特征及高斯混合模型(GMM)进行市场数据聚类,评估不同机器学习算法(如KNN、随机森林)对比随机策略的市场涨跌预测性能。6个月比特币、Pepecoin及纳斯达克分钟级数据验证显示,GMM预处理促进算法泛化,KNN和随机森林在Pepecoin市场表现出超越随机算法的收益潜力,为新型特征构建和市场细分提供实践路径 [page::1][page::6][page::8][page::15]
速读内容
- 数据集与预处理方法 [page::4][page::5]:
- 使用Bitcoin、Pepecoin、Nasdaq三个市场6个月的分钟蜡烛数据。
- 利用对数收益率计算价格变化,定义基于4%分位数的买卖持有决策。

- 特征工程包含线性模型斜率、截距、价格峰值曲率及幅度等新特征,以及传统特征如RSI、ULTOSC、移动平均比率等。
- 高斯混合模型(GMM)聚类分析 [page::6][page::8][page::9][page::21]:
- 基于BIC指标,使用提出的新特征分别在三个市场识别出4个聚类;传统特征仅识别出单一聚类。
- 不同聚类在买卖比例、价格水平和线性模型参数上表现显著差异,揭示市场状态异质性。
- GMM聚类示意图:

- Bitcoin市场各聚类特征均值示例如下:
| 特征 | Cluster 1 | Cluster 2 | Cluster 3 | Cluster 4 |
|------------------|----------|----------|----------|----------|
| Buy proportion | 0.43 | 0.55 | 0.52 | 0.60 |
| Sell proportion | 0.47 | 0.58 | 0.52 | 0.60 |
| Close price | 0.33 | 0.33 | 0.77 | 0.45 |
| Linear model intercept | 0.32 | 0.32 | 0.76 | 0.45 |
| Peaks average magnitude | 0.32 | 0.32 | 0.76 | 0.45 |
- 机器学习算法性能比较及回测 [page::7][page::10][page::11][page::12][page::13][page::14][page::15]:
- 比较算法包括:随机森林、KNN、深度神经网络(DNN)、多项式SVM、XGBoost与随机基准。
- 训练测试比例采用时间序列的20%、30%、40%做测试集,使用原始与标准化特征。
- 随机森林和KNN在未经GMM过滤的原始和标准化新特征上超过随机算法的准确率边界(97.5%百分位),对Pepecoin表现尤为显著。

- GMM过滤后算法总表现无明显提升,但成功超越随机算法的模型数量有所增加,且部分聚类表现更佳。

- 按不同聚类过滤后累计收益(Accumulated Percentage Change,APC)有部分算法表现显著优于随机基准,特别是KNN和随机森林,显示聚类市场态势对策略有正向影响。


- 量化因子与策略构建总结 [page::5][page::6][page::7][page::8]:
- 新因子基于线性回归斜率、截距及价格峰的曲率,刻画细粒度价格动态。
- GMM作为无监督学习预处理,对时间序列进行聚类,分解市场不同态势,提高机器模型的训练聚焦度。
- 策略在三个不同标的市场适用,特别在加密货币Pepecoin表现最优。
- 该方法结合监督学习模型(KNN、随机森林)成功实现多类别(买/卖/持有)分类任务,且显著优于随机选择,展示潜在实用性。
深度阅读
金融市场走势预测:结合监督学习与无监督学习方法的详尽分析报告解构
---
1. 元数据与报告概览
- 报告标题: Combining supervised and unsupervised learning methods to predict financial market movements
- 作者: Gabriel R. Palma, Mariusz Skoczeń, Phil Maguire
- 机构: Maynooth University(爱尔兰),DLT Capital
- 日期与类型: 研究论文(Research paper),基于LATEX模板仿American Naturalist格式
- 主题: 运用机器学习中监督学习和无监督学习(主要是随机森林、KNN及Gaussian Mixture Models)预测比特币、Pepecoin及纳斯达克金融市场的短期走势
核心论点:本报告提出结合新型特征工程(基于线性模型拟合价格峰值的斜率、截距及曲率)和GMM预处理,应用多种机器学习算法预测市场的买卖持有决策,实现优于随机基线的收益和准确率,并通过实验验证该方法在不同市场均具备一定预测价值。
---
2. 逐节深度解读
2.1 摘要解读
报告以分钟级Tick数据(约六个月)作为分析基础,覆盖比特币、Pepecoin和纳斯达克市场。针对每小时的最后一分钟走势,提取59分钟内的历史特征,通过多种机器学习模型(随机森林、KNN等)实现类别预测(买、卖、持有)。采用随机选取买卖持有作为基准,验证GMM聚类后的时间序列预处理有助于算法泛化,最终KNN和随机森林表现均优于随机基准。
- 数据粒度:分钟线,预测未来1小时
- 特征工程:组合传统指标和创新线性模型峰值特征
- 验证方法:时间序列交叉验证,测试集比例分别为20%、30%、40%
- 结论:GMM预处理促进模型识别潜在盈利机会,提升准确率和收益率
page::1]
2.2 引言详解
- 重申现代金融市场复杂性及参与者行为驱动价格,传统技术指标(如K线图、技术统计量)配合机器学习模型被广泛应用于行情预测。
- 着重介绍了加密货币市场的兴起与其资产之间复杂且多样关联性(pepecoin为达成实验目的的meme币,bitcoin为主流币)。
- 综述现有机器学习在股票、加密市场的应用文献,强调特征工程与聚类在捕捉细微金融动态中的关键作用。
- 本文创新点:基于线性模型拟合局部价格峰值特征,将无监督学习(GMM)作为数据预处理手段,提高后续分类器效率。
- 研究框架清晰,后续章节分别详述数据、特征工程、聚类、机器学习分类及结果。
[page::2] [page::3]
2.3 数据采集与标签算法
- 数据来源:OKX API(比特币和Pepecoin),Backtestmarket API(纳斯达克),均为分钟级开高低收价格蜡烛图。
- 目标变量为下一分钟价格对数差异,即对数收益率 \(\omegam(t) = \log \frac{y{\mathrm{close}}(t+1)}{y{\mathrm{close}}(t)}\)。
- 利用数据的4%分位数设定买卖阈值:低于下阈值为卖出,高于上阈值为买入,介于两者间为持有,确保不同类别数据均衡分布。
- 图1展示了三市场利用阈值算法得到的买卖持有决策在收益率分布中的具体位置,三市场均形成了合理的买卖分割线。

图1: 根据\(\Omegam\)的4%分位数阈值,买(蓝色)、卖(绿色)和持有(黑色)的收益率频次分布
[page::4]
2.4 特征工程
- 对每个时间序列的连续59个小时数据,提取以下特征用于预测第60个小时:
- 创新特征:基于线性模型拟合的价格峰值截距与斜率,以及峰值平均曲率和峰值幅度
- 传统特征(参考文献Parente et al., 2024):RSI、ULTOSC、收盘价变化百分比、收盘价与成交量的Z-score及移动平均比值
- 峰值曲率通过三点二阶差分计算,用作解释变量拟合线性模型以捕获价格走势凸凹特征。
- 确保特征提取遵从时间顺序,不使用未来信息,严格避免数据泄露。
[page::5]
2.5 基于GMM的市场聚类预处理
- 使用BIC准则选择高斯混合模型的聚类数,结合所有特征进行多市场预处理。
- 结果表明:
- 用传统特征时,GMM只判断出市场为单一聚类,无法进行有效的分群预处理;
- 用创新特征时,为每个市场识别出4个清晰且具有区分度的聚类,BIC比第二优聚类数量低约30%,说明聚类合理可靠。
- GMM的作用在于将时间序列划分为趋势相似的片段,使得后续机器学习围绕相对统一的市场行为模式训练,提升模型泛化能力。
- 图2展示了比特币经过GMM筛选后分为4个时间序列聚类的价格轨迹示意。

图2: 比特币市场时间序列经过基于创新特征的GMM聚类成4组集合示意
[page::6]
2.6 机器学习模型与性能指标
- 选用经典分类算法:KNN、深度神经网络(DNN)、多项式支持向量机(Poly SVM)、随机森林、以及XGBoost。
- 设定基线为“随机决策”模型(买卖持有概率均等),用于评估机器学习模型的增益。
- 通过混淆矩阵计算买入、卖出、持有的准确率,并综合计算整体平均准确率 \(\mathrm{acc}=\frac{\mathrm{acc}b+\mathrm{acc}s+\mathrm{acc}h}{3}\)。
- 基于预测决策和真实收益变化计算累计收益率(APC),定义收益计算函数 \(g(\omegam(t+1), d_m(t))\) 分别对应买入、卖出持有策略的ROI计算。
- 使用时间序列方式交叉验证,评估测试集占比分别为20%、30%、40%。
- 所有代码公开,保证重复性:[GitHub连接。
[page::7]
2.7 实验结果详解
2.7.1 GMM聚类分析
- 使用创新特征时,各市场均产生4个聚类(见表2),且各聚类在买卖比例、线性模型参数及价格水平上表现显著差异。
- 比如,比特币聚类3表现出更高的收盘价(0.77)、截距(0.76)与峰值幅度(0.76),对应高价位时间段;聚类4更体现活跃交易行为(买卖比例最高)。
- Pepecoin市值差异更体现在买卖比例层面,集群3和1为高买卖活跃期,集群2买卖比例明显较低。
- 纳斯达克市场则呈现交易活跃度与价格特征负相关趋势,买卖比例由集群1到4递增,而价格相关特征则递减。
- 传统特征聚类结果(表1)包含单一聚类,不利于细分市场行为,验证创新特征更具良好的市场数据区分能力。
| 表1:传统特征的GMM单聚类均值(标准化)| Bitcoin | Pepecoin | Nasdaq |
|---|---|---|---|
| Close Price | 0.45 | 0.15 | 0.57 |
| Volume | 0.01 | 0.02 | 0.05 |
| RSI | 0.48 | 0.01 | 0.49 |
| ... | ... | ... | ... |
| 表2:创新特征的GMM聚类均值(标准化)核心指标部分摘录,例如比特币: |
|---|---|---|---|---|
| Cluster | 1 | 2 | 3 | 4 |
| Buy proportion | 0.43 | 0.55 | 0.52 | 0.60 |
| Sell proportion | 0.47 | 0.58 | 0.52 | 0.60 |
| Close price | 0.33 | 0.33 | 0.77 | 0.45 |
| Linear model intercept | 0.32 | 0.32 | 0.76 | 0.45 |
| Peaks average magnitude | 0.32 | 0.32 | 0.76 | 0.45 |
[page::8] [page::9] [page::21]
2.7.2 机器学习分类性能
- 图3展示了不同算法在原始及标准化特征上的平均准确度。
- 主要观察:
- 随机森林(RF)和KNN两种算法在三市场上均超过随机算法的97.5%分位数阈值,表现最佳。
- 深度神经网络(DNN)与多项式SVM表现介于RF/KNN与随机之间。
- 特别强调,纳斯达克市场上RF和KNN在使用创新特征时整体准确率更高,且标准化处理对算法提升普遍有效。
- 比特币市场相对难以超越随机算法,但KNN和XGBoost稍有优势。
- GMM聚类过后(图4),观察到虽然平均准确率未必大幅提升,但使用GMM聚类过滤后,超过随机阈值的算法数量增加,且不同聚类间表现存在差异(例如比特币聚类1和3表现更好)。

图3: 各算法在三市场原始和标准化数据上的个体准确率均值对比,虚线表示随机基准区间

图4: 各算法在GMM聚类时间序列上的个体准确率均值对比
[page::10] [page::11] [page::12]
2.7.3 累计收益率分析
- 图5展示各算法在测试集上的累计收益率(APC)与随机基准对比。
- 结果显示,无算法在三市场上平均收益率能显著突破随机算法的97.5%分位数(即只有极少数情况表现更优)。
- KNN算法在三个市场中表现较接近甚至接近基准,且标准化特征对比特币市场尤其有积极影响。
- RF算法在比特币市场中用创新特征获得最高APC,KNN在Pepecoin及纳斯达克市场取得最佳收益。
- 图6进一步展示GMM聚类过滤后APC表现,发现聚类选择明显增加获得优于随机收益的算法数量,表明GMM预处理对捕获特定市场行为模式有一定帮助。
- 不同聚类间收益表现差异显著,例如比特币聚类1和4、纳斯达克聚类3、Pepecoin聚类4的APC特别突出。

图5: 三市场及其算法对应APC与随机基准对比

图6: GMM聚类过滤时间序列上的APC及随机基准
[page::12] [page::13] [page::14]
---
3. 估值分析
本报告为纯学术研究,未涉及具体公司估值或财务指标预测,故无市盈率、DCF等传统估值模型应用。
---
4. 风险因素评估
- 市场异质性:不同市场间复杂度不同,纳斯达克明显规律性更强,数字货币市场更具波动性,模型泛化受限。
- 样本局限:仅含6个月数据,时间窗口较短,模型对不同时间段市场行为变化的适应能力存疑。
- 特征选择风险:创新特征虽综合了价格结构信息,但可能未涵盖全部影响因素,潜在噪声及过拟合风险存在。
- 预测模型局限:部分算法未能显著超越随机基线,说明市场价格的不可预测性和随机性依然是关键限制。
- 过拟合风险:尽管采用时间序列交叉验证,但复杂模型可能适应特定数据集,表现不具备长期稳健性。
报告并未详细给出缓解方案和风险发生概率量化,表明该研究重在方法论探索及性能验证而非实际交易部署。
---
5. 审慎视角与细微差别
- 研究假设市场行为在时间和特征维度内可被固定规律捕捉,但金融市场往往高度动态且受外部因素合力影响。
- GMM聚类表现出聚类内“市场趋势相似”,却未能在所有案例中带来明显整体性能跃升,仅增加了超越随机的算法数,说明GMM预处理的收益有限且依赖所选特征。
- 模型效果整体未达到理想的高准确率且收益曲线在大部分情况下未明显超随机,这反映出短周期分钟数据预测的深层挑战。
- 预测区分买、卖、持有三类动作,门槛选取基于4%分位数保持三分类均衡,但这种人为设定的阈值是否适合所有市场尚无足够论证。
- 测试算法性能的指标(平均准确率和累计收益率)尚未结合交易成本、滑点及风险调整指标,实际应用场景可能更加复杂。
---
6. 结论性综合
本研究构建了一套融合创新线性峰值特征和基于GMM的聚类预处理的金融时间序列机器学习框架,系统对比了多种经典算法在比特币、Pepecoin和纳斯达克市场上预测买入、卖出和持有决策的能力。主要发现包括:
- 使用创新特征明显增强了市场数据的可区分性,基于此提取的4个聚类成功细分了市场走势,传统特征难以实现类似效果。
- GMM聚类预处理虽未显著提升平均性能指标,但扩大了优于随机基准的算法数量,表明其能在一定程度上帮助捕捉异质市场行为。
- 随机森林和KNN算法整体表现最佳,部分场景如Pepecoin市场的KNN和比特币市场的随机森林,在收益和准确率上均显著优于随机策略。
- 标准化处理对提高模型性能具有积极作用,特别是在比特币和纳斯达克市场。
- 累计收益率虽未全面超越随机算法的置信边界,体现金融市场难以预测的本质,但结合聚类预处理和创新特征的模型展现出潜在的盈利可能。
- 图表解析具体说明了创新特征与GMM聚类对时间序列的物理表现及算法性能的影响,增强了研究的透明度和说服力。
总结来看,报告成功展示了结合监督和无监督学习方法,利用合理的特征工程对多样化金融市场进行短期走势预测的可行性与潜力,尽管整体收益水平有限,但为进一步特征优化和市场细分策略的研究奠定了有力基础。
---
以上分析综合性地剖析了报告的研究背景、方法细节、数据处理与验证过程,对各图表内容逐一阐释,详尽揭示其内涵与支撑论点,确保涵盖报告的全部核心技术和结论,符合高级金融研究报告分析标准。[page::1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,21]