Label Unbalance in High-frequency Trading
创建于 更新于
摘要
本报告针对高频交易中因交易费用导致的收益标签严重失衡问题,提出了一套端到端深度学习框架,结合多种标签不平衡处理方法(如欠采样、代价敏感学习、加权损失和焦点损失),成功提升了中国期货市场1分钟收益预测的准确性。实验证明LSTM与Mamba模型在捕获时间序列特征上表现较优,而代价敏感损失和加权损失优于传统采样方法,应对标签失衡效果显著 [page::0][page::2][page::8]
速读内容
- 高频交易(HFT)中因市场价格大多波动小于交易费用,导致类别标签高度不平衡,约80%的样本标签为无收益(0类),正负收益各占约10%,对模型训练构成挑战 [page::0][page::3].
- 常见的处理标签不平衡方法包括:过采样(如SMOTE)、欠采样、代价敏感学习和集成学习,代价敏感方法在大数据流场景表现出计算效率高的优势 [page::1][page::2].
- 代价敏感学习通过设置误分类成本矩阵,使模型重点关注少数类样本,具体实现包括固定损失权重和动态焦点损失两种方式。实验中对于三分类问题,类别-1、0、1分别赋权8.0、1.0、8.0,焦点损失动态加权样本难易程度 [page::1][page::6].
- 架构方面,报告采用3种主流深度学习模型作为骨干:MLP(多层感知机)、LSTM(长短期记忆网络)和Mamba(基于结构化状态空间模型的新型序列模型)[page::4][page::5].
- 数据预处理包含对每秒13维特征进行标准化和时间序列采样,训练集与验证集按照时间顺序划分避免信息泄露。实验使用2023年5月4日至29日共20个交易日的6种期货数据,频率为0.5秒 [page::2][page::6].
- 实验结果显示,Mamba和LSTM在捕获序列特征效果优于MLP,且敏感损失与加权损失方法分类性能明显优于无处理和重采样、焦点损失,后者在部分场景表现反而下降。训练多品种数据显著提升模型泛化能力 [page::8].

- 构造了8个因子(如过去30秒mid_price的均值、标准差、偏度、峰度等)用于辅助预测,发现不同品种的因子表现存在显著差异,表明需要深度模型进一步挖掘数据内在规律。

- 实验硬件配置包括英特尔Xeon Silver 4210R CPU及两块NVIDIA RTX 4090 GPU,网络结构与参数规模汇总如下:
| 模型 | 参数规模 | 层数 | 重要参数 | GPU占用内存 |
|--------|----------|------|-----------------|--------------|
| MLP | 54K | 4 | 结构=[780,64,64,3] | 2.82G |
| LSTM | 26K | 4 | 隐藏维度=64 | 3.66G |
| Mamba | 339K | 4 | 状态维度=4 | 4.73G |
[page::9]
- 本文提出的标签失衡调整策略在高频金融数据噪声大,时序特征复杂的环境下取得稳定预测效果,文末讨论了数据噪声、领域转移和模型结构选择等未来研究方向 [page::6][page::7].
深度阅读
金融研究报告详尽分析报告
---
一、元数据与概览
报告标题: Label Unbalance in High-frequency Trading
作者: Zijian Zhao, Xuming Zhang, Jiayu Wen, Mingwen Liu, Xiaoteng Ma
所属机构: Likelihood Lab;Sun Yat-sen University;Peking University;London School of Economics and Political Science;Tsinghua University
发布日期: 未明确,但数据涵盖2023年5月,引用诸多2024年的预印本。
主题: 高频交易中基于深度学习的标签不平衡问题及解决方法,特别针对中国期货市场的短期收益预测。
报告核心论点简述:
该报告集中探讨了高频交易领域内收益预测面临的标签严重不平衡问题,即多数样本标签为无盈利或损失,极少数样本表现出显著盈利或亏损。在深度学习模型中,不平衡标签导致模型训练偏向多数类,降低对少数类的识别能力。为此,报告系统地采用并比较多种标签不平衡调整策略(如重采样、成本敏感学习、加权损失、焦点损失等),结合多种神经网络骨干模型(MLP,LSTM,Mamba)进行预测,评估其在真实高频期货数据上的表现。报告最终实现了相对稳健且可应用的1分钟未来收益预测模型。该研究对金融高频预测领域提供了方法论和实验性指导。
---
二、逐节深度解读
1. 引言(Introduction)
- 关键内容: 高频交易依赖于快速且准确的收益预测。标签不平衡,即极少数正负收益事件无法覆盖持有成本,导致模型偏向于预测无收益类别,影响预测准确性和交易收益。解决标签不平衡是提升高频交易模型质量和盈利能力的关键。
- 推理依据: 高频交易的时间窗口极短,导致大多数样本收益接近零(覆盖不了交易费用),标签集中在“无盈利”类别,形成严重的类别不均衡,现有机器学习模型容易忽视少数重要逆境样本。
- 重要概念解释: 标签不平衡(Label imbalance)指数据中某些类别样本极少,训练模型难以正确学习这些少数类特征。
2. 相关工作(Related Work)
- 关键论点: 罕见事件检测是典型的类别不均衡分类问题,现存模型(逻辑回归、SVM、决策树)在不均衡数据上表现欠佳。根因包括性能评估指标偏向多数类、少数类规则难以覆盖、噪声与少数类混淆等。
- 方法梳理: 三类主要应对策略——
- 预处理技术(重采样、特征选择与提取)
- 成本敏感学习(基于代价矩阵调整模型关注点)
- 集成学习方法(结合预处理或成本敏感机制提升模型性能)
- 支撑数据与逻辑: 预处理如SMOTE生成少数类样本,随机欠采样减少多数类,提供平衡样本分布。成本敏感学习则基于误分类代价,将模型焦点转向少数类。集成方法则融合上述,两者结合提升效果。
- 图表解读:
- 图1为示例成本矩阵,展示误分类到正负类别的不同成本(正类误判成本更高),强调成本意识对模型训练的影响。
- 图2为集成方法的分类体系,说明成本敏感Boosting、数据预处理+Boosting、Bagging及混合方法的具体示例,强调综合利用可显著改善不平衡数据分类性能。
3. 初步定义与任务设定(Preliminary)
- 输入数据:
- 每时刻以$d$维特征向量表示(如价格变动、订单量、买卖盘不均衡、波动性等)。
- 标签为三类:上升(1)、无显著变动(0)、下降(-1),判定基于未来1分钟的收益$R_i$与交易费用的比较。
- 目标函数: 学习函数$f: \mathbb{R}^d \to \{1,0,-1\}$进行三分类预测。
- 标签不平衡描述: 高达约80%样本标签为0(无盈亏),标签极度不均衡,训练难度极大。
4. 方法论(Methodology)
- 整体流程(图3):
- 数据处理:构造13维特征,利用过去60秒数据预测未来,数据时间序列划分(训练、验证、测试),标签分布严重不均。
- 训练阶段:采用神经网络骨干,结合多种不平衡调整方法(重采样、损失加权、焦点损失等)。
- 验证阶段:利用早停提升泛化能力。
- 骨干模型简介:
- MLP:多层感知机,逐层激活传递,采用LeakyReLU避免梯度死亡。
- LSTM:长短期记忆网络,加强序列长依赖,包含输入门、遗忘门、输出门,有效处理金融时间序列。
- Mamba:基于结构化状态空间模型SSM的先进时间序列模型,类似Transformer但性能更优,适合复杂时序特征捕捉,缺点是计算开销较大且难并行。
- 标签不平衡对策详述:
- 欠采样:针对多数类随机剔除部分数据,平衡训练集中各类样本数。
- 成本敏感学习:通过固定/动态代价矩阵为各类别赋予不同权重,强化模型对少数类别的识别能力。重点方法有
- 固定代价加权(如针对类别 -1 和 +1 权重设置为8,类别0为1)
- 基于样本概率的加权,抑制多数类权重。
- 焦点损失(Focal Loss):对模型置信度低的样本施加更大权重,提高难分类数据的学习力度。
- 实验设置与数据描述:
- 高频中国期货数据,半年20个交易日,0.5秒间隔,共6大品种,特征基于深度订单簿构建。
- 数据预处理、统计因子构造、归一化、分割策略详尽。
5. 实验结果与分析
- 主要发现:
- 单一品种训练易过拟合,合并多品种提升泛化。
- LSTM和Mamba在时间序列建模上表现优于MLP,但Mamba效率低,推理慢。
- 成本敏感损失和加权损失法效果优于纯重采样和焦点损失,后者竟时常落后于基线(无特殊处理)。
---
三、图表深度解读
图1:示例成本矩阵(页1)
- 描述: 展示二分类中误判代价的不对称性,真实正类误判代价为10,误判为负类代价5。
- 解读: 赋予正类更高误分类处罚,引导模型加大对少数类(正类)注意力。图示用色阶体现了代价的大小,直观且具体。
- 文本关联: 用于说明成本敏感学习如何细化标签不平衡处理策略,强调不同类别赋予差异权重的重要性。
图2:集成方法分类体系(页3)
- 描述: 归纳分类不平衡问题的集成解决方案。两大分支为成本敏感集成与数据预处理+集成。
- 解读: 指明Boosting及Bagging基础上衍生的多种组合方法,体现方法多样性与实用性。强调集成能显著优于单一策略。
- 文本关联: 支持论点:集成方法结合不同策略更具优势。体系图有助读者快速了解当前领域技术脉络。
图3:方法流程图(页3)
- 描述: 训练的三大阶段示意——数据处理、训练、验证,突出标签不平衡问题,并图示数据集划分。
- 解读: 直观展示整个端到端流程,突出长期尾部样本处理的重要性。
- 文本关联: 贯穿方法架构,说明解决方案端到端框架设计。
图4:MLP结构示意图(页5)
- 描述: 标准MLP多层结构及节点连接,输入层、两隐藏层及输出层。
- 解读: 展示感知机计算过程及多层深度学习原理,是理解模型机制的基础。
- 文本关联: 配合对MLP模型数学公式说明,提升读者对神经网络实现的直观理解。
图5:LSTM单元结构(页5)
- 描述: 包含三个门控(输入门、遗忘门、输出门)及状态流的循环神经单元示意。
- 解读: 体现LSTM维护长短期记忆的结构优势,解决传统RNN梯度消失问题。
- 文本关联: 阐述LSTM为何适用于高频金融序列数据,有效捕捉时间依赖。
图6:六种期货品种实验结果(页8)
- 描述: 6个子图分别对应6个期货品种的累计收益曲线,线颜色代表不同标签不平衡处理方法,线型代表不同骨干模型。
- 解读: 整体看,敏感损失(Sensitive Loss)和加权损失(Loss Weighting)策略搭配LSTM或Mamba的表现最好,显著优于其他。重采样和焦点损失表现不一,部分品种表现甚至逊色于基线。
- 文本关联: 直观反映标签不平衡策略的现实效果差异,支撑文本结论。
图7:八个因子与收益的积累乘积图(页8)
- 描述: 8个统计因子跨6种期货品种的累计影响差异曲线,如均值、方差、偏度、峰度、成交量比例、报价价差、beta及非流动性指标。
- 解读: 因子表现差异较大且不稳定,表明模型需进一步挖掘和适应数据动态,光靠原始因子不足以支撑精准预测。
- 文本关联: 说明数据质量和特征工程对模型性能的重要影响,提示未来优化方向。
---
四、估值分析
该报告属于金融交易算法研究,未涉及传统估值分析(如DCF、市盈率等),因此无估值环节。
---
五、风险因素评估
- 未直接章节讨论风险因素,但隐含风险包括:
1. 标签不平衡风险: 标签偏斜严重可能导致模型泛化差,交易决策失误。
2. 数据噪声干扰: 高频金融数据天然噪音多,影响模型准确度。
3. 领域迁移风险: 报告提及数据归一化使用固定均值标准差忽略了市场时变,导致领域漂移,模型性能可能下降。
4. 模型复杂度与效率风险: 尤其是Mamba模型虽表现优异,但计算成本高,难部署于实时交易。
5. 过拟合风险: 单品种训练数据有限易造成过拟合。
- 缓解策略:
- 归一化与领域适应技术改进、增强模型结构、采用多品种训练、探索低成本模型等。
---
六、批判性视角与细微差别
- 偏见可能性:
- 报告倾向强化深度神经网络和特殊损失函数的效果,部分实验结果中重采样和焦点损失表现不佳,虽揭示真实挑战,但可能未探明根因或优化深度。
- 方法限制提示:
- 骨干模型有限,缺少对Transformer等编码器结构全面测试和比较。
- 重采样效果有时反而恶化,提示简单替代策略并非万能。
- 内部矛盾:
- 标准归一化手段效果不稳定,部分实验结果不佳,但归一化被普遍推荐。
- 焦点损失在理论上针对难分类样本有优势,但现实表现未必理想。
- 实验范围: 主要使用20个交易日数据,时间较短,模型对长期稳健性的适应性存疑。
---
七、结论性综合
本报告系统地探讨了高频交易中深度学习预测模型面临的严重标签不平衡挑战,围绕现有处理手段展开综述、比较与自主实验。三类主流解决方案——预处理(重采样、特征选择)、成本敏感学习及集成方法均被详尽考察,结合三种神经网络骨干(MLP、LSTM、Mamba)在中国期货数据集上开展了全面实验。
图表辅助说明了标签分布极端不均衡(近80%标签为无盈亏类别),以及因子与收益关联波动巨大,强调当前模型面临的特征和标签双重难题。实验结果明确表明,成本敏感加权和敏感损失策略在多种骨干模型中整体表现优于其他方法,尤其是在LSTM和Mamba模型上效果最佳;相反,部分传统或广泛使用的重采样及焦点损失方法不一定适合本任务,有时甚至表现更差(如图6所示)。
本文不仅提供了标签不平衡的理论框架和技术选型指南,也深入剖析了高频交易数据的特点、训练策略与实际挑战。尽管模型和方法尚有进步空间(如未充分利用Transformer/BERT编码器、归一化策略存在域漂移争议等),报告成功证明了深度学习结合成本敏感调整在盈利预测中的实用价值和可行性,具备较好的应用推广潜力。
综上,作者强调合理设计的标签不平衡调整策略是提升高频交易收益预测模型性能的关键,未来可沿多模态融合、逐步优化数据噪声处理及域适应、扩展更为复杂模型架构等方向深化研究。
---
参考标注
- 引言及相关工作综合论述详见第0至2页 [page::0, page::1, page::2]
- 架构设计、数据处理方法及骨干模型详见第2至5页 [page::2, page::3, page::4, page::5]
- 成本敏感学习数学细节和方法详见第6页 [page::6]
- 数据描述、实验配置及结果详见第6至9页,包含图6和图7的深入分析 [page::6, page::7, page::8, page::9]
---
附:重要图表与公式链接展现
— 成本矩阵示例
-

— 方法流程展示
-

— LSTM单元结构
-

— 因子与收益相关性图
---
总结
本报告在高频交易金融领域针对标签不平衡的建模问题提出了全面且系统的解决方案,兼顾理论框架、算法实现和实证检验。通过详尽的对比与分析,揭示成本敏感学习在此类高难度任务中的实用价值,为金融工程师及算法研究者提供了宝贵指南和参考。