`

高频收益如何及何时可预测? (中)

创建于 更新于

摘要

本报告作为《高频收益如何及何时可预测》系列中篇,详尽介绍了国内期货高频市场的实证研究流程,涵盖研究对象、数据集、因子构建、预测目标设定及多模型回归方法(包括OLS、Ridge、Lasso及随机森林、XGBoost、LightGBM)。针对国内数据限制,构建了超过130个高频因子,并采用多步滚动窗口与样本外验证方法进行模型训练和特征筛选,为下一篇实证结果分析奠定基础 [page::0][page::2][page::3][page::4][page::9][page::10]

速读内容

  • 研究对象和数据集选择 [page::0][page::2]:

- 选取上期所流动性较好的燃料油FU和螺纹钢RB主力期货合约作为研究对象。
- 使用2023年8月17日至11月16日的高频Tick数据,包含时间戳、成交价、成交量、买卖五档报价等多维度信息。
  • 高频因子库构建及挑战 [page::3]:

- 国内期货数据缺乏逐笔成交数据及纳秒级报价快照,导致经典文献中13个因子仅6个可完全复现。
- 启动大规模高频因子收集与开发,最终整理出超过130个高频因子用于建模。
  • 因子回溯区间优化 [page::3]:

- 对因子历史均值采用多区间回溯捕捉短中长期影响,优化为连续指数级回溯(1,2,4,...,512 ticks),提升模型样本外表现。
  • 预测目标定义 [page::4]:

- 预测未来10个Tick(约5秒)区间的收益率,考虑交易延迟,将预测目标向后推迟一个tick计算。
  • 多模型建模框架 [page::4-7]:

- 采用三种线性回归模型:OLS(最小二乘法)、Ridge(L2正则化)、Lasso(L1正则化);
- 三种机器学习集成模型:随机森林、XGBoost、LightGBM,详述各模型原理、优缺点及适用场景。
  • 特征预筛选机制 [page::8-9]:

- 面对逾1300个特征,采用小样本数据对各模型分别做预筛选(Lasso通过非零系数,Ridge选前200系数绝对值,随机森林/XGBoost/LightGBM基于特征重要性)。
- 有效特征再用于全样本训练,提高效率与预测精度。
  • 模型训练与验证流程 [page::9-10]:

- 设计基于5日训练5日测试的滚动窗口机制,时间窗口向前滚动20交易日,实现超参数调优和样本外R²评价。
- 训练周期覆盖60个交易日,样本外测试期为40个交易日,确保模型稳健验证。


  • 量化策略生成思路 [page::3-10]:

- 利用高频因子库构建多回溯区间特征,结合传统线性回归与先进机器学习工具,形成高维度回归预测框架。
- 滚动窗口带来动态更新能力,有效应对高频市场时间变化,提高策略实时适应性。
- 采取完善的模型验证机制,减少过拟合风险,保障策略预测能力。
  • 机器学习集成模型说明及示例图 [page::6]:

- 介绍决策树原理,图示简单决策树示例以便理解树模型构建逻辑。


深度阅读

报告详尽分析报告:《高频收益如何及何时可预测? (中)》



---

一、元数据与概览


  • 报告标题:《高频收益如何及何时可预测? (中)》

- 作者及发布机构:华泰期货研究院量化组,高天越及团队成员李光庭、李逸资、麦锐聪、黄煦然
  • 发布日期:未具体标明,但包含2023年数据,报告系系列中篇

- 研究主题:围绕国内期货市场中的高频收益率预测,重点阐述实证研究的流程,包括数据选取、因子构造、预测目标设定、模型选择与训练方法
  • 核心论点:建立一套针对国内期货市场高频数据的实证研究体系,解决国内市场与国外市场数据差异导致的因子复现难题,利用丰富的因子库和多样的机器学习与线性模型,验证高频收益的可预测性方法

- 后续计划:下篇报告将公布实证结果及其在实际交易策略中的应用
  • 目标读者:量化研究人员、期货投资从业者、高频交易策略开发者


综上,本报告旨在介绍华泰期货针对此前理论研究的国内实证路径,尤其是怎样构建预测模型,选择因子和数据,以及如何训练和验证模型,重点为读者铺设理解实证结果的基础框架[page::0][page::2][page::10]。

---

二、逐节深度解读



2.1 摘要与研究对象选择



报告选取了两个具有较好流动性且数据较完整的主力期货合约:上期所燃料油(LU)和螺纹钢(RB),基于2023年8月中至11月中三个月的数据作为样本区间。考虑市场流动性和数据完整性,研究保证了数据可靠性和市场代表性[page::0][page::2]。

2.2 数据集与因子构造


  • 数据字段覆盖了时间戳、成交价、成交量、持仓量、买卖五档报价及挂单量等常见高频市场信息,为因子构造和模型建立提供了丰富维度的定量指标。
  • 因子构造难点:与国外高频股票市场相比,国内期货市场难以获得逐笔成交的精细数据,且盘口数据推送频率低(约500毫秒间隔内无法解析具体变化),故缺失文献中常见的逐笔成交和纳秒级报价快照,导致原文13个因子仅6个能复现。这6个因子涵盖总成交量、报价不平衡、成交不平衡、历史收益、换手率、报价价差。
  • 创新做法:基于上述限制,报告团队自行开展了广泛因子收集与开发工作,最终形成了超过130个高频因子的丰富库,为模型提供多样特征支持。
  • 回溯区间调整:针对文献中的因子计算回溯区间方式(9个非重叠区间,增长为指数序列),团队微调为10个回溯区间,目的是提升模型样本外预测表现,以捕捉因子在不同时间尺度的影响[page::3]。


2.3 预测目标定义



预测目标明确为未来10个Tick(约5秒)内的收益率,计算方式是未来区间内成交均价与当前中价的比值减一,且考量实际交易中可能的延迟,将预测目标向后推迟1个Tick,体现出严谨的实用主义思想。

公式表示为:

$$
\mathrm{Return}(T,\Delta,M) = \mathrm{Average}[Pt^{\mathrm{txn}} : t \in \mathbf{D}^{\mathrm{txn}} \cap \mathrm{Int}^{\mathrm{forward}}(T,\Delta,M)] / PT -1
$$

其中,T指当前时点下一个Tick,$\Delta=10$,M为日历时钟[page::4]。

2.4 模型介绍与比较



报告系统介绍了6种回归模型,分为线性模型和机器学习模型:
  • 线性回归模型:包括最小二乘法(OLS)、岭回归(Ridge)、LASSO回归

- OLS优点是参数估计无偏且简单,缺点对异常值敏感、多重共线性易导致不稳定
- 岭回归引入L2正则化,解决多重共线性的稳定性问题,优点是控制复杂度防止过拟合,缺点是需调节超参数λ,且解释性降低
- LASSO采用L1正则,实现特征选择,因而可剔除无效变量,缺点是模型系数需标准化处理,泛化能力受限,且解释性不如OLS直观[page::4][page::5][page::6]
  • 机器学习模型:随机森林、XGBoost、LightGBM三种基于决策树的集成模型

- 随机森林(RF):利用bootstrap采样和随机特征选择构建多棵树,增强泛化能力,鲁棒性强,缺点是训练时间长,解释性较差。
- XGBoost:基于GBDT,通过正则化降低偏差与方差,支持并行计算,速度快、效果好,但有调参复杂和易过拟合等缺点。
- LightGBM:基于GBDT更进一步优化,使用直方图算法及梯度采样技术提高计算效率,引入互斥特征捆绑和叶子生长策略提升模型性能,训练速度更快,适合大规模数据。[页面6-9]
表2:对比XGBoost与LightGBM关键改进点
| 特征 | XGBoost | LightGBM |
|------------------|------------------------------|--------------------------------|
| 树构造 | 按层生长 | 叶子优先(leaf-wise) |
| 计算加速 | 并行计算,近似算法 | 直方图分裂,梯度采样 (GOSS) |
| 特征降维 | 无 | 互斥特征捆绑 (EFB) |
| 适用场景 | 中大型数据 | 更大规模,速度更快 |

此部分深入讨论了模型优缺点与适用场景,为后续实证中模型选择和调参奠定基础[page::6][page::7][page::8][page::9]。

2.5 特征预筛选方法



考虑到超过130因子,乘以10回溯区间后形成超过1300个特征,直接训练复杂且可能影响预测精度;团队设计了针对每种模型的预筛选流程:
  • 用小样本(前10天)全特征训练

- LASSO:选取系数不为0的因子
  • Ridge:选取绝对值系数排名前200的因子

- Random Forest、XGBoost、LightGBM:选取特征重要性大于0的因子
  • 用筛选后的有效特征进行全样本训练


这种步骤有效控制特征维度,提高训练效率,同时保留了对模型预测贡献较大的特征[page::9]。

2.6 模型训练流程



训练采用滚动窗口验证法,细化为:
  1. 学习阶段:用连续5个交易日数据训练,预测未来5天,计算预测的样本外$R^2$

2. 调参阶段:选择15个测试日$R^2$平均最大时的超参数,并固定
  1. 预测阶段:用滚动窗口中的最近5交易日数据训练预测第t天

4. 滑动窗口递进:时间窗口每次前移20天,重复上述步骤

图3清晰展示了训练和测试时间窗口的设置及交替,用40天作为测试集实现较为稳健的样本外验证。

此阶段方法高度契合学术文献,符合时间序列预测中切实可行的方法论规范,确保结果可信且具有推广性[page::10]。

---

三、图表深度解读



图1:期货高频Tick数据样例(页面2)


  • 展示了样本数据的结构和字段,如日期、时间、合约、成交价、买卖五档价格及对应挂单量等

- 明确显示成交价与买卖盘口数据的实时流动性特征,体现出数据采集的详细程度,支撑后续因子计算和模型输入
  • 说明数据来源为天软及华泰期货研究院,保证数据权威性和专业性


此表作为数据基础支撑,显示研究针对的是常规且易于获取的期货tick数据而非更为精细的逐笔成交,使后续实际应用具有现实可操作性[page::2]。

图2:西瓜好坏的决策树示例(页面6)


  • 用简单易懂的“西瓜好坏决策树”示例阐释决策树模型原理

- 形象展示特征如何分层次影响分类结果,增强对决策树分类回归机制的理解
  • 作为介绍机器学习模型的辅助图,有助读者对后续随机森林及BOOST模型的核心构建理念形成直观认识


该图未直接关联定量数据,但对于非机器学习专业背景的读者具有教学引导效果[page::6]。

图3:模型调优及测试时间窗口示意(页面10)


  • 图示训练-调参-测试滚动过程详细时间线

- 蓝色箭头表示训练期,每期训练5个交易日
  • 橙色箭头标示测试期5个交易日,红色标示每日测试点

- 绿色横轴标注调参期(20天)和测试期(20天)具体时间划分,整个样本内重复此过程

该图显示模型训练和验证细致到天级,使得样本外效果计算的时序性得到保障,体现研究设计的严谨性和对时间序列预测特性的把控[page::10]。

---

四、估值分析



报告本身并未涉及具体的估值方法或财务预测,而是专注于高频数据的预测模型设计与培训,因此无传统意义上的PE、DCF或EV/EBITDA估值分析内容,亦无目标价。研究的核心是预测未来短期收益率的统计与机器学习模型表现,估值更多体现在模型表现的统计指标$R^2$和预测精度[page::0-10]。

---

五、风险因素评估



报告未专门设立风险因素章节,但从实证设计可隐含识别关键风险:
  • 数据完整性风险:由于国内期货市场高频数据缺乏逐笔成交细节,可能造成因子构造不完善,限制预测能力。

- 模型过拟合风险:机器学习模型复杂且参数多,若特征筛选不严或调参不足,易导致训练集过拟合,样本外表现差。
  • 市场结构变化风险:高频市场动态快速,结构调整或交易规则变动可能影响模型的普适性及长期预测能力。

- 计算资源和时间风险:超大规模特征和数据集训练需求高,计算延迟可能制约模型在实盘运用中的时效性。

报告通过样本外验证、滚动窗口训练和特征筛选等方法缓解上述风险,但仍存在系统性风险,投资者应用时需警惕这些潜在因素[page::9][page::10]。

---

六、批判性视角与细微差别


  • 数据限制与因子复现差异:报告中明确指出文献中原有因子难以复现,且对回溯区间进行了调整以提升模型表现,体现对原文献方法的灵活应用,同时也暴露出国内市场数据环境的局限性,这可能导致模型预测性能较国外研究逊色。

- 模型多样但未明确比较:尽管介绍了六种模型并采用相同训练框架,但报告并未在本篇中详细探讨各模型的实际效果对比,未来实证结果将是关键。
  • 模型复杂度与解释性权衡:机器学习模型具有强大预测能力,但解释性较差,尤其在高频交易策略中,策略透明度和风险管理依赖模型解释能力,此点未在本报告中深究。

- 超参数选择未详述具体方法:调参过程是核心,但仅讲到取最大平均$R^2$,缺少调参细节,例如网格搜索或贝叶斯优化等方法的应用细节。
  • 预测延迟的考量表明对实用层面的关注,但未讨论实际执行中更复杂的时延问题,如市场冲击、滑点等潜在影响。


整体而言,报告严谨客观,但对模型效果的讨论留给了后期篇章,实测结果缺失需要谨慎解读方法论层面的贡献[page::3][page::9][page::10]。

---

七、结论性综合



本报告以“高频收益如何及何时可预测?”为题,对接前期理论研究,系统构筑了国内期货市场高频收益预测的实证研究框架。报告首先选定了具代表性且数据完备的燃料油和螺纹钢主力合约,从2023年8月至11月的60个交易日高频Tick数据出发,全面梳理了因子构筑的实际困难及创新设计,扩充至超过130个高频因子,以迭代地捕捉时间序列中的多尺度影响。

预测目标具体定位为未来10Tick(5秒)内的收益率,计算方式和时序设计兼顾了实际交易延迟。模型方面,报告结合经典的线性回归(OLS、Ridge、LASSO)与先进的树基集成机器学习模型(随机森林、XGBoost、LightGBM),介绍其数学原理、优缺点及实际应用场景。为应对海量特征与样本的计算挑战,设计了一套细致的特征预筛选流程,确保训练效率与预测准确之间的平衡。

训练方法采用滚动窗口与分阶段调参策略,保证模型样本外预测的稳健性和时序一致性,利用40天的测试集进行实证验证。图表方面,报告通过样例Tick数据和决策树示意图辅助讲解技术细节,并清晰描绘了模型训练及验证的时间流程,增强方案可操作性。

不足之处在于,因篇幅与研究不断推进的缘故,报告未公开具体预测结果与模型比较,后续报告将成为验证模型实力的关键。本篇更多着重于方法论、数据处理与模型架构的系统构建,奠定了国内期货市场高频预测实证研究的坚实基础。[page::0-10]

---

图示Markdown引用


  • —— 图2:西瓜好坏判断的决策树示例

- —— 图3:模型调优及测试时间窗口

---

小结



本报告详尽介绍了在数据受限的国内实际环境下,如何创新构建高频因子,谨慎选择多模型组合,通过科学验证流程,系统探索期货高频收益的预测可行性。整体研究立场中立坚定,方法专业严密,对未来在实战策略中的应用持开放期待。后续成果发布势必对行业及投资策略设计产生重要指导意义。

报告