Prediction of high-frequency futures return directions based on the mean uncertainty classification methods: An application in China’s future market
创建于 更新于
摘要
本报告基于中国高频期货交易数据,研究在数据分布不平衡背景下,利用次线性期望(SLE)框架下的均值不确定性逻辑回归和支持向量机方法预测期货短期平均收益方向。通过选择流动性最高的15种期货品种,实证结果显示该两种方法在分类效果和交易平均收益率上均优于传统不平衡分类技术,显著提升了买入与卖空策略的实用性与性能,为高频期货交易策略设计和风控提供新思路 [page::0][page::1][page::12][page::15]
速读内容
高频期货数据及预测问题背景 [page::0][page::1]
- 高频数据反映市场微观结构和交易者行为,价格方向在极短期内存在可预测性,但波动小的短暂噪声需剔除。
- 价格显著变动信号稀少导致数据不平衡,传统采样或算法调整方法无法充分处理分布不确定性。
- 本文采用次线性期望(SLE)理论,针对均值不确定性建立分类模型,提升预测稳定性。
均值不确定性逻辑回归与支持向量机方法构建 [page::2][page::3][page::4]
- 均值不确定性LR基于SLE,引入误差分布的均值区间调整经典逻辑回归预测概率区间,形成本质上的概率不确定性区间。
- 均值不确定性SVM同理,将SVM决策函数值加入均值不确定项形成概率间隔,分类阈值调整以识别少数类。
- 对误差分布参数采用滑动窗口极值估计,模型显著区别于传统LR和SVM,对不平衡样本分类效果提升明显。
数据选择与特征工程 [page::6][page::7][page::8]
- 选取2024年9月中国期货市场成交额排名前15的高流动性活跃合约,涵盖金属、农产品、工业品等多类别。
- 构造短期平均收益数据标签,分别定义95%分位正向极端、5%分位负向极端作为少数类。
- 设计32维特征,包括交易量、成交量极值、价差、订单簿不平衡度及速率等,覆盖多时间窗口。
滚动训练与测试框架及模型对比 [page::8][page::9][page::10]
- 采用3日滚动窗口训练测试,训练两天数据,测试第三天,参数估计同时进行。
- 与传统LR、SMOTE-LR、RUS-LR及SVM及对应采样方法对比,均值不确定性模型具有明显优势。
- 分类指标(召回率、平衡准确率、F测度)显示均值不确定性模型显著提升少数类捕获能力。
实证结果与投资策略表现 [page::11][page::12][page::13][page::14]
- 以金、锡、锌、螺纹钢为代表,均值不确定性LR方法召回率最高,显著优于传统方法。
- 均值不确定性SVM召回率亦大幅提升,尤其在多品种少数类识别上表现更优。
- 基于预测结果制定买多卖空策略,均值不确定性方法在80%以上的合约中实现更高的平均交易收益。
- 投资收益对比显示均值不确定性模型策略在实际高频期货交易中有效提高收益率和风险控制能力。
理论基础:次线性期望与最大分布估计 [page::15][page::16]
- 引入次线性期望定理,定义模型下的分布不确定性及最大分布无偏估计方法。
- 通过最大极值统计估计误差均值区间,构建鲁棒的分类边界与概率估计。
深度阅读
深度解析报告:《Prediction of high-frequency futures return directions based on the mean uncertainty classification methods: An application in China’s future market》
---
一、元数据与报告概览
- 报告标题:Prediction of high-frequency futures return directions based on the mean uncertainty classification methods: An application in China’s future market
- 作者:Ying Peng, Yifan Zhang, Xin Wang
- 所属机构:山东大学-中泰证券金融研究院,山东大学
- 发布日期:2025年8月12日
- 研究主题:基于子线性期望(sublinear expectation, SLE)框架下的均值不确定性分类方法,预测中国高频期货市场的短期平均收益方向。
核心论点:
本报告针对中国高频期货市场短期平均收益方向的预测问题,提出并实证验证了两种基于均值不确定性的分类方法:
- 均值不确定性逻辑回归(mean-uncertainty logistic regression, LR)方法,源于文献[29]。
2. 均值不确定性支持向量机(mean-uncertainty SVM)方法,为本研究新提出,作为SVM在分布不确定性下的修正。
鉴于价格的微小波动往往被视为市场噪声,且显著有效波动的样本相对稀少,导致样本类别极度不平衡,因此传统采样或算法调整方法存在局限。基于SLE理论的均值不确定性方法能够更深入地刻画数据分布的内在不确定性,显著提升方向预测准确性和交易策略收益率。[page::0,1]
---
二、逐节深度解读
2.1 引言部分
- 该部分强调高频期货市场的重要性与研究背景,阐述高频数据具有极短时间周期内价格持续性和可预测性,文献中已证实高频数据对短期收益方向预测具有显著价值。
- 主要难题在于去除极短且幅度有限的价格变动噪声,聚焦有统计显著性的价格信号,导致正类(显著上涨/下跌)样本偏少,形成严重的数据不平衡。
- 传统解决方法分为采样技术(如RUS, SMOTE)和算法结构调整两类,但均未能有效处理数据分布本身的模型不确定性。
- 子线性期望(SLE)理论能够模拟随机变量均值和波动率的分布不确定性,提供包含多个潜在概率分布的非线性框架。基于此,Ji等人提出了均值和波动率不确定性的逻辑回归分类方法,表现优异。
- 本研究在该理论基础上,进一步提出基于SLE的均值不确定性SVM,并以中国期货市场高频数据为样本,进行实证预测及投资策略设计与测试。[page::0,1]
2.2 方法论部分
2.2.1 均值不确定性逻辑回归(mean-uncertainty LR)
- 该方法基于子线性期望框架,认为误差项由标准逻辑斯蒂分布+最大分布组成,后者体现均值不确定性的区间变动,传统逻辑回归概率由固定均值调整为区间概率。
- 在经典LR中,隐含的连续潜变量$Yi^*$与观测二元变量$Yi$通过sigmoid函数链接,概率为$\sigma(xi^\top \beta1 + \beta0)$。
- 在SLE框架下,噪声含有均值不确定,令误差$\delta
$$
P(Yi=1|xi) \in [\underline{Pi}, \overline{Pi}] = \left[\sigma\left(xi^\top \beta1 + \beta0 + \underline{\mu}\right), \sigma\left(xi^\top \beta1 + \beta0 + \overline{\mu}\right)\right].
$$
- 通过滑动窗口最大化样本倾向函数构建渐近无偏估计,求得均值不确定参数$\hat{\mu}N$,从而更新概率区间,判断样本类别。
- 当$\overline{\mu} = \underline{\mu}$时,退化为传统LR模型。
2.2.2 均值不确定性支持向量机(mean-uncertainty SVM)
- 本研究创新地将均值不确定性思想引入标准SVM模型中,在高维空间中基于核函数计算各样本到决策边界的距离$d(\mathbf{x})$。
- 依据均值不确定性的最大分布原理,类似逻辑回归的概率区间,SVM前向概率区间为
$$
[\underline{Pi}, \overline{Pi}] = \left[\sigma\left(d(\mathbf{x}i) + \underline{\mu}\right), \sigma\left(d(\mathbf{x}i) + \overline{\mu}\right)\right].
$$
- 分类结果根据上概率$\overline{P
- 与均值不确定性LR类似,通过滑动窗口方法估计误差分布参数,进行概率调整。
- 同样,当$\overline{\mu} = \underline{\mu}$时退化成经典SVM预测结果。
这一创新设计有效结合了SLE模型不确定性描述与SVM强大的非线性映射能力,增强了模型抗数据分布不平衡的能力。[page::2,3,4]
3. 数据部分
3.1 数据选择
- 样本选取基于2024年9月中国期货市场成交额最高的15个活跃品种,涵盖金属(黄金AU、铜CU、锡SN、镍NI、锌ZN、铝AL、铅PB)、农产品(玉米C、棉花CF、豆粕M、玉米淀粉CS)、能源(线胚PR、螺纹钢RB)、养殖(生猪LH)、白银AG等。
- 数据来源为CTP-API,每0.5秒采样,包括交易数据与限价委托簿数据,时间覆盖2024年10月1日至31日的18个交易日。
- 为剔除开盘、收盘异常波动噪声,排除开盘前后5分钟数据。
3.2 变量定义
- 因变量:基于计算的短期平均收益方向,二分类标签。分别构建两类任务:“上涨/非上涨”和“下跌/非下跌”,少数类为显著涨跌(涨跌幅分别超过95分位或5分位阈值),其余为多数类。
- 利用“日历时间”间隔定义预测窗口,平均交易价格进行收益率计算,避免单笔交易极端波动误差。
- 自变量:设计8类主要因子,分别从交易量强度、价格及订单薄不平衡、交易速度与成本三个维度提取。分别在4个回溯时间窗口(0-2.5秒、2.5-6.5秒、6.5-12.5秒、12.5-25秒)计算,形成共32个特征。
具体特征包括:
- 总成交量、最大单笔成交量;
- 价格变化幅度/成交量比例、委托簿订单不平衡指标、成交量不平衡指标、历史收益等;
- 转手率、报价差价等。
3.3 模型训练与测试
- 采用滚动训练—测试窗口设计:每个窗口包括连续3个交易日,头2日为训练,后1日为测试,窗口每日滚动滑动。
- 模型误差分布均值不确定参数通过训练集滑动窗口估计确定。
- 同一交易日内,利用30秒滚动窗口计算数据特征,前25秒为特征数据,后5秒标签,用5秒步长不断滑动。
整体训练流程保障了模型对不同时间段数据的适应能力和时间动态响应。[page::3,5,7,8]
---
三、图表深度解析
图1:2024年9月按成交额排名的15大期货品种对比柱状图

- 图表清晰显示黄金(AU)和铜(CU)以近2.7亿和2.15亿成交额遥遥领先,锡(SN)、镍(NI)、玉米等紧随其后,为市场交易核心品种。
- 该排名明确表明高流动品种有更高成交量,为构建高质量训练样本提供了坚实基础。
- 后续模型均聚焦于该优质流动品种集合,提高预测的现实有效性及策略可执行性。[page::6]
图2:训练和测试滚动窗口示意图

- 直观展示3日滚动窗口结构:每次训练2日样本,测试第3日,窗口每日右移。
- 该设计充分利用时间序列数据特征,避免未来数据泄露,保证模型训练的时间连续性和实战逼真性。
- 训练、预测和窗口滑动部分严密衔接,体现高频交易数据环境下对数据时效和样本时序性的重视。[page::8]
图3:整体方法框架流程图

- 分步展示了从数据准备、独立变量和因变量计算、分类器训练、分类器预测到最终性能评估的完整工作流程。
- 重点在于传统机器学习模型与均值不确定性方法的并行训练及结果比较,体现本研究创新点与传统模型的有机结合。
- 流程清晰,便于后续复现和扩展,保证了方法的实际可操作性及严谨性。[page::10]
---
四、估值分析
本报告为技术和方法学研究,主要集中于机器学习方法改进及实际预测准确性和收益率评估,未包含传统意义上的企业或资产估值模型。其“估值”可理解为模型预测价值的经济解释——即通过预测准确率提升实现交易策略的超额收益。
- 使用均值不确定性方法显著提升少数类方向预测准确性,转化为更高的交易平均回报率。
- 投资策略部分充分展示了分类模型对实际收益的直接影响,可视为模型输出的经济估值体现。[page::12]
---
五、风险因素评估
报告未显性列出风险章节,但结合内容可推断主要风险因素包括:
- 数据质量与异常波动风险:高频数据可能含有市场尖峰异常,导致模型过拟合或者误判,报告中已通过剔除开盘收盘前5分钟数据进行缓释。
2. 模型假设风险:均值不确定性SLE框架假设配合滑动窗口估计,若误差分布假设偏离实际,可能影响预测稳定性。
- 市场结构改变风险:中国期货市场交易机制或流动性变化,可能导致训练数据与未来市场环境不匹配,影响模型泛化。
4. 投资执行风险:实际依据模型信号执行交易,面临滑点、手续费和执行延迟,平均回报可能受到侵蚀。
报告未具体描述风险缓释策略,但模型滚动训练机制和基于统计的参数估计在一定程度增强了鲁棒性。[page::3,5,12]
---
六、批判性视角与细微差别
- 报告部分指标表现差异显著,如传统LR和SVM模型在召回率上的极低表现,提示高不平衡数据下传统模型表现相当有限,凸显该研究方法优势。
- 均值不确定性SVM方法为研究创新之处,但具体性能提升幅度在部分品种(如某些SVM-related结果)不及均值不确定性LR,表明方法适用性尚需细致品种层面评估。
- 数据选取集中在高度流动品种,可能限制了对低流动或极端市场条件适用性的推广。
- 方法依赖滑动窗口大小及均值区间估计,超参数选择对性能影响较大,报告仅提及网格搜索选择,相关的敏感性分析未展开。
- 金融实盘环境中,考虑交易成本、市场冲击等因素的综合收益表现未充分展现,模型收益可能理想化。
综上,报告在方法理论和实证上卓有成效,但在一定程度依赖假设的稳健性,对模型在更复杂真实环境的适应仍需进一步验证和扩展。[page::3,11,12]
---
七、结论性综合
本研究针对中国高频期货市场短期收益方向预测中的极端类别不平衡问题,基于子线性期望框架,开发并实证了均值不确定性逻辑回归和支持向量机两种分类方法。核心贡献包括:
- 理论创新:将均值不确定性引入SVM,拓展均值不确定性LR方法的应用范围,实现对数据分布不确定性的更全面建模,弥补了传统采样与加权调节方法的不足。
- 方法论完善:通过滑动窗口最大分布估计方法,动态确定误差均值区间参数,结合高频期货多类流动性较强品种时间序列数据,设计了基于时间划分的多尺度输入变量,保障模型有效学习市场微结构信息。
- 实证显著性:在中国期货市场15大活跃品种上开展回测分析,验证了均值不确定性方法在召回率、平衡准确率及F指标上的优势,尤其在召回率(少数类识别能力)方面大幅超越传统LR和SVM及其SMOTE、RUS采样增强版本。
- 经济价值兑现:基于预测结果设计“多头/非多头”和“空头/非空头”投资策略,平均每笔交易收益明显优于传统方法,并且对80%的合约实现了收益的提升,突显方法对投资决策支持的实际贡献。
报表对应的各关键性能指标和平均收益数据,以表2、表3和表4、表5集中体现,逻辑严密,证据充分,具备较强的推广研究及应用参考价值。图1-3的直观展示与理论方法章节高度呼应,确保理论与实证的紧密结合。[page::6,8,9,10,11,12,13,14,15]
---
综上,此项研究提供了中国高频期货领域基于分布不确定性理论的创新型机器学习方法,为应对极端数据不平衡问题提供了有效的解决方案,提升了短期期货价格方向预测的准确性和对应的交易收益,兼具理论前沿性与实用价值。