`

Trend-encoded Probabilistic Multi-Order Model: A Non-Machine Learning Approach for Enhanced Stock Market Forecasts

创建于 更新于

摘要

本报告提出了一种基于趋势编码的多阶滞后概率模型(TeMoP),通过融合不同滞后阶数样本训练的模型结果,显著提升了股市趋势预测的准确性和稳健性。实证分析涵盖九个国家的股票指数,表明TeMoP在预测误差和跨数据集稳健性方面均优于主流机器学习和深度学习模型 [page::0][page::2][page::33]。

速读内容

  • 模型创新与基本原理 [page::0][page::1][page::5][page::6]


- TeMoP结合了趋势编码和多滞后阶数样本训练策略,借鉴模糊时间序列和随机森林的优点以增强模型鲁棒性。
- 趋势编码函数对样本进行特征提取,将时间序列的上升/下降趋势离散化,有效降低了预测误差。
- 多滞后阶训练允许模型自适应确定最大滞后阶数,避免单一滞后阶训练模型鲁棒性不足的问题。
- 算法设计包括样本划分、基于贝叶斯估计的概率评分和基于马氏距离的相似度评估,增加预测的准确性与稳定性。
  • 数据与实验设计 [page::12][page::13][page::14]


- 选取九个全球主要股票市场指数,涵盖发达市场、半发达市场及发展中国家市场。
- 数据经LB、ADF和JB检验,确认非平稳且不服从正态分布,适合时间序列趋势预测。
- 采用固定训练集(3000条)、两个验证集(各300条)和测试集(300条)划分,避免信息泄漏。
- 预测问题定义为二分类任务,审核每日股价涨跌趋势,数据集正负样本比例接近均衡。
  • 评估指标与对比模型 [page::13][page::14][page::15][page::16]

- 综合采用准确率(ACC)、F1分数、AUC和夏普比率(SR)评估,覆盖分类性能与投资收益表现。
- 对比模型包括统计模型(逻辑回归LR)、机器学习模型(随机森林RF、LGBM)、深度学习模型(CNN、LSTM、ResCNN、InceptionTime)及支持向量机(SVM)。
- 采用两套实验方案(Scheme 1固定滞后阶、Scheme 2滞后阶作为超参调优)确保对比公平。
  • 主要实验结果:方案1 [page::19][page::20][page::21][page::22][page::23][page::24]





- TeMoP在大多数数据集上实现了最高的ACC和F1,且均值最高且波动最小,反映出卓越的准确性和鲁棒性。
- AUC指标显示TeMoP保持较高的排序能力,平均优于所有对比模型。
- 夏普比率结果表明基于TeMoP的投资组合收益稳定且优越,三项指标均支持TeMoP的领先地位。
- 比较模型如深度学习在不同数据集和指标表现波动大,证明缺乏稳定性。
  • 主要实验结果:方案2 [page::27][page::28][page::29][page::30][page::31][page::32]






- 滞后阶作为超参优化,模型预测性能普遍提升,同时鲁棒性增强。
- TeMoP保持总体最佳表现,ACC和F1均值最高且波动最小。
- AUC和夏普比率同样证明TeMoP在排序能力及模拟收益上的优势。
- 多数对比模型在部分数据集及滞后阶参数下预测性能显著下降,显示鲁棒性不足。
  • 模型优势总结与未来方向 [page::33][page::34]

- TeMoP通过多阶滞后集成和趋势编码,有效提升股票趋势预测的准确性和跨数据集鲁棒性。
- 该模型为非参数方法,避免了超参数调优带来的复杂性。
- 实证结果涵盖发达、半发达及发展中市场,显示广泛适应性和优异性能。
- 未来工作将聚焦于TeMoP在多步(n步)时间序列预测中的扩展应用,提高实际使用价值。

深度阅读

金融研究报告深度分析报告


报告标题与概览


报告标题:《Trend-encoded Probabilistic Multi-Order Model: A Non-Machine Learning Approach for Enhanced Stock Market Forecasts》
作者与机构:Peiwan Wang(巢湖大学数学与大数据学院)、Chenhao Cui(智慧地球感知技术有限公司)、Yong Li(中国科技大学国际金融研究中心)[page::0]
发布日期:未明确标出,但参考文献显示最新文献为2024年,推测为2024年
研究主题:提出一个基于趋势编码和多阶滞后序列的非机器学习概率模型TeMoP,用于提升股票市场趋势预测准确性和模型稳健性。
核心论点及贡献
  • 机器学习尤其深度学习模型在股市预测中虽有较低误差,但在数据集间表现欠稳健,存在黑箱和信息泄露问题。

- TeMoP通过整合不同滞后阶数的训练样本的概率模型,并辅以趋势编码特征,提高预测准确性和稳健性。
  • 实验覆盖九个国家不同股指,实证显示TeMoP预测效果优于领先的机器学习模型。

- 该模型因非参数特性与自适应滞后阶数选择避免了复杂的超参数调优。[page::0][page::1][page::2]

---

报告章节深度解读



1. 引言

  • 核心论点:时间序列预测是跨领域的基础任务,趋势预测是其核心。现有模型分为统计模型、机器学习(ML)、深度学习(DL)和模糊时间序列(FTS)模型。详述了深度学习和FTS模型虽误差较低,但分别存在鲁棒性差和信息泄露的缺点。

- 提出方法的出发点:借鉴随机森林思想,通过训练不同滞后阶的子模型融合结果提升鲁棒性;借鉴模糊时间序列的趋势模糊处理思路,用趋势编码丰富特征,降低预测误差。[page::1]

2. 文献综述

  • 统计模型受限于现实世界复杂性,假设失效致预测效果不佳。

- 机器学习模型以数据驱动,随机森林通过自助采样和模型集成提高鲁棒性。
  • 深度学习表现良好但鲁棒性一般,且被批评为黑盒。

- 模糊时间序列模型依赖模糊数学,从定义语言变量到去模糊化完成预测。
  • 重点指出pyfts开源库中的信息泄露缺陷,导致模型预测性能被高估。

- 深度学习的分解-集成方法也因测试集信息被利用而存在泄露。
  • 因此,当前最优秀模型在实践应用中的意义不足,催生提出无信息泄露且稳健的TeMoP模型。[page::2][page::3][page::4]


3. 方法论


3.1 预备知识


定义了模型中各符号及数学符号含义,涵盖时间序列样本,滞后阶,样本子集及趋势编码相关概念。

3.2 训练过程

  • 逐步从滞后阶1开始,滑窗获取对应长度样本。

- 样本依据趋势编码分组,确保每组样本量足够大($m=50$阈值)。
  • 根据趋势标签将分组样本划分为正负子集。

- 计算并返回各子集样本数量、均值、协方差及正负样本归一化函数。
  • 滞后阶数的选择基于数据特性,满足样本量阈值后确定最大滞后阶。

3.3 测试过程

  • 使用训练结果和测试数据计算每个滞后阶对应的趋势标记1的得分,结合趋势编码和原始样本特征。

- 计算得分采用马氏距离衡量样本与正向子集的相似度,结合贝叶斯估计质和趋势编码重构最终概率。
  • 利用所有滞后阶得分的指数和归一化得到预测概率$P(\hat{z}n\geq \hat{z}{n-1})$。

3.4 设计原理及数学基础

  • 针对非平稳时间序列,单一滞后阶训练模型鲁棒性差,提出融合多滞后阶模型以增强稳健性。

- 强调趋势编码对预测性能的重要性,预测得分结合样本原始特征和趋势特征。
  • 设计了模糊集的“隶属度函数” $U{\Omegal^i}(x)$,以提高对随机扰动的容忍度。

- 通过贝叶斯估计缓解小样本率估计不稳定风险,采用beta先验对样本比例做平滑修正。
  • 采用加权协方差矩阵稳定马氏距离计算。

- 综上,TeMoP具有自适应滞后阶、趋势特征引入、多模型集合的优势,实现了准确且鲁棒的趋势预测。[page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12]

---

图表深度解读



图1(第7页)— TeMoP算法流程图

  • 直观展现模型训练与测试两个阶段流程。

- 训练:从滞后阶1开始,滑动窗口获取样本,基于趋势编码划分子集,判断样本容量,计算统计量。
  • 测试:同样基于趋势编码计算得分,累加所有滞后阶得分,输出预测概率。

- 流程体现自适应滞后阶计算与多阶模型合成的核心思路。
图1流程图

图2(第14页)— 数据集划分及股指走势图

  • 展示9个股指的闭市价格走势,及其训练、验证1、验证2、测试集时间区间划分,时间间隔防止信息泄露。

- 颜色区分清晰,展示数据连续性和分布,验证数据平衡性和非平稳性判断基础。
图2数据划分

图3-6(第19-23页)— 方案一模型性能指标对比

  • 图3 ACC准确率显示TeMoP在绝大多数股指数据集上占优,平均值最高且波动最低。

- 图4 F1指标强调了TeMoP在积极及消极样本预测的平衡性,表现稳定且优越。
  • 图5 AUC曲线评估排序能力,虽个别股指低于0.5,TeMoP总体领先,且分布稳定。

- 图6 Sharpe Ratio投资回报率指标下,TeMoP、SVM、LGBM全线上正值,TeMoP均值最好且波动最低。

图7-11(第27-31页)— 方案二详尽表现分布

  • 方案二更灵活,滞后阶数作为超参数探索,结果显示RF、CNN、LSTM等多模型存在训练失败(F1=0)现象,鲁棒性低。

- LGBM表现较优但仍不及TeMoP的整体稳定与准确性。
  • TeMoP无论是ACC、F1、AUC还是SR均在平均性能和标准差两个维度领先,显示最佳综合表现。


统计表格

  • 表1统计数据波动率、非平稳性与正负样本比例,支持设计模型适应非平稳及数据属性。

- 表3、4、10、11超参数与最优滞后阶设定均展示了对比模型调参方法及优化过程。
  • 表5-9、12-16完整涵盖ACC、F1、AUC、SR的具体数值,均显示TeMoP优异性和较低波动。


总结图表意义:图表数据一致支持TeMoP设计理念中的自适应滞后阶融合和趋势编码特征引入显著提升了股市趋势预测的精确度与稳健性,且在多市场、多指标的复杂条件下均展现出跨数据集泛化能力的优势。

---

估值分析


本报告集中于股票趋势预测模型方法论和性能验证,未涉及企业价值估值、DCF或市场估值等典型金融估值方法,因此无相关估值分析内容。

---

风险因素评估


报告中未明确罗列具体风险因素,但以下隐含风险与限制值得关注:
  • 模型假设风险:模型假设趋势编码能有效提炼样本特征,且多阶模型融合总能提升鲁棒性,但若趋势信息不足或多阶协同不佳,效果可能降低。

- 数据依赖风险:依赖样本量阈值和统计特征,若数据量不足或市场结构突变,可能导致模型性能波动。
  • 非参数模型有限性:TeMoP虽然避免超参数调节,但可能面对高度复杂非线性关系时局限,尤其深度学习模型在某些场景仍存在优势。

- 信息泄露风险控制:强调无信息泄露,但未来应用中数据预处理不慎仍存在风险。
  • 理论与实证适用范围:实验涵盖九国股指,但对其他资产类别或高频数据表现未明。


报告未描述具体的风险缓解方案,多基于模型设计固有稳定性进行间接风险控制。

---

批判性视角与细微差别

  • 报告坚决批评深度学习和模糊时间序列模型中的信息泄露问题,凸显自身方法优越性,但未深入探讨TeMoP可能存在的限制或应用边界。

- 过分强调趋势编码的重要性,实际市场中趋势信号噪声较多,模型抗噪能力表现依赖数据特性。
  • 实验对比方案设计合理,但对深度学习模型超参数调优细节不足,存在与深度学习模型公平性的潜在争议。

- 报告主要依赖准确率等指标,未补充市场实际应用中的即时交易成本、滑点等因素考量。
  • 多数指标提升幅度适中,未强调对非常态极端行情的模型表现(如金融危机等)。

- 没有对模型计算复杂度和实际运行效率进行评价,实际部署可能受限。

---

结论性综合



本研究提出的Trend-encoded Probabilistic Multi-Order Model (TeMoP),通过融合多滞后阶样本训练的概率模型并引入趋势编码特征,有效解决了传统单阶滞后模型预测鲁棒性不足和深度学习模型信息泄露问题。
  • 创新点

- 多滞后阶概率子模型整合极大增强了模型的稳定性和适应复杂非平稳股市数据的能力。
- 趋势编码引入增强了对时间序列内在变动特征的捕捉,降低预测误差。
- 非参数特性避免耗时繁琐的超参数调节,提升模型适用性的同时保障泛化能力。
  • 实验实证总结

- 基于九个国际主要股指,设计两套对比实验方案,覆盖统计学习、传统机器学习及最先进深度学习模型。
- TeMoP在Accuracy、F1-score、AUC及Sharpe Ratio各指标中均取得最高平均值及最低波动,显示优越的预测准确率、排名能力及市场模拟盈利能力,同时保持良好的跨数据集鲁棒性。
- 与多数深度学习模型因样本或调参敏感出现性能不稳定或训练失败相比,TeMoP展现了更强的稳定性和更广泛的适应性。
  • 图表洞察

- 图1流程清晰阐述方法原理和运作步骤,形象化模型机制。
- 图2清晰展示数据结构和划分保障实验公正。
- 图3至图11及对应表格详尽展示指标在不同数据集和方案下的优势,视觉和数据双重佐证了模型的跨国市场适用性和优异性能。
  • 未来展望

- 报告提出后续研究重点为模型多步($n$步)趋势预测能力,提升更长周期预测的实际应用价值。
- 考虑引入更多异构数据源及非股市时序,扩展模型通用性。
- 深化模型对极端市场变动的鲁棒性测试。

综上,TeMoP模型以其设计创新和实证优势,提供了一条非机器学习路径下有效且稳健的股市趋势预测新思路,对量化投资和金融时序预测领域具有重要参考价值。

---
【全文引用页码】:[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23][page::24][page::25][page::26][page::27][page::28][page::29][page::30][page::31][page::32][page::33][page::34][page::37]

报告