【国盛金工 量价选股】 高频数据 $^+$ 离散化构建方式 在因子研究中的重要性
创建于 更新于
摘要
本报告系统论述了未来量价因子研究中高频数据与离散化构建方式的重要性。通过基于日频、分钟及逐笔数据的连续性与离散化因子簇批量生产及筛选,发现离散化因子尤其是逐笔离散因子,虽因子回测表现未必优于连续性因子,但在沪深300指数增强组合层面实现了超额年化收益提升超1%,显著提升组合收益与稳定性,验证了逐笔高频数据+离散化构建方式的核心价值 [page::0][page::1][page::20][page::21]。
速读内容
高频数据与离散化构建方式的重要性 [page::0][page::1][page::2]

- 未来量价因子研究的关键是结合逐笔高频数据和离散化构建方式。
- 离散化因子聚焦若干关键时间点计算特征,避免与传统低频因子相关,挖掘增量信息。
连续性因子构建全流程及表现 [page::2][page::3][page::4][page::5][page::6][page::7]
- 基于日频数据构建量价相关性因子簇共18760个,筛选后形成日频连续因子,年化收益约21%,信息比率约2.59。
- 基于分钟数据的连续性资金流指标准化处理后,构建分钟连续因子,年化收益约36%,信息比率3.34。
- 基于逐笔数据连续性因子共477个,保留有效因子后合成逐笔连续因子,年化收益约38%,信息比率3.29。
- 连续性因子综合堆叠效果显著,年化收益提升至43%,信息比率3.56。
- 沪深300指数增强组合叠加分钟连续和逐笔连续因子,超额年化收益仅提升0.5%-0.6%。
离散化因子构建流程及性能 [page::11][page::12][page::13]
- 分钟离散因子围绕趋势资金事件识别及量价相关性定义,回测年化收益约32%,信息比率2.85。
- 逐笔离散因子通过识别当日95%分位事件并计算未来20笔量价相关性构建,回测年化收益38%,信息比率3.22。
- 离散化因子单独性能弱于连续因子,但在组合叠加中贡献明显。
离散化因子的组合增量表现 [page::14][page::15][page::16]

- 叠加离散化因子后,组合超额收益提升明显,连续+逐笔离散组合超额年化收益达8.15%,信息比率2.14,月度胜率75.68%。
- 离散化因子虽因子层面提升有限,但组合层面革新收益与稳定性。
- 离散化尤其是逐笔离散因子提供了与现有连续因子低相关且显著的增量信息。
逐笔离散因子详细表现及多指数增强组合回测 [page::17][page::18][page::19][page::20]

- 逐笔离散因子剔除Barra风格和行业影响后仍有效,信息比率达2.57。

- 构建分别对应沪深300、中证500、中证1000的指数增强组合,超额收益分别达到7.17%、10.43%和16.90%,信息比率均高于2。
- 月度胜率均保持在75%以上,最大回撤均低于5%。
结论与风险提示 [page::20][page::21]
- 高频数据结合离散化构建方法在多因子研究中具有突破性增量价值,尤其是逐笔离散因子带来组合层面的显著收益提升。
- 风险提示:结论基于历史数据和模型,未来市场环境变化可能导致模型失效。
深度阅读
元数据与概览
- 报告标题:【国盛金工 量价选股】 高频数据 $^+$ 离散化构建方式 在因子研究中的重要性
- 作者:沈芷琦、阮俊烨、刘富兵法
- 发布机构:国盛证券研究所金融工程团队
- 发布时间:2025年5月16日
- 主题议题:量价因子构建方法,特别是高频数据与离散化构建方式的应用及其在因子研究中的重要性
- 核心论点:在量价因子研究领域,获取低相关性增量信息的关键是采用逐笔等高频数据结合离散化的因子构建方式。连续性因子虽有效,但在组合层面增量有限,离散化构建的因子,尤其是逐笔数据的离散化因子,可以提升组合表现。
- 主要结论:
- 以连续性方式基于日频、分钟、逐笔数据构建的因子簇,叠加分钟和逐笔连续因子可提升因子回测绩效,但组合层面增量微弱(沪深300组合超额年化收益提升仅0.5%-0.6%)。
- 采用离散化方式构建的分钟、逐笔因子簇,虽然回测IC增益不大,但在组合层面能显著提升收益和信息比率,逐笔离散因子尤其有效,沪深300增强组合超额年化收益提升超过1%。
- 风险提示:模型基于历史数据,未来市场环境变化可能导致模型失效。[page::0,1,20,21]
---
逐节深度解读
1. 前言:因子研究背景与数据构成
- 量价类新因子挖掘难度增大,传统多因子模型饱和。
- 数据频率分类:
- 低频:日度行情
- 中频:分钟行情
- 高频:逐笔成交、委托、撤单数据
- 高频包含更详细交易行为,因子有效性普遍更强。
- 因子构建方式:
- 连续性:基于某一连续段数据计算因子,例如日内前一小时分钟涨跌幅序列。
- 离散化:基于若干“关键”离散时间点,使用对应数据计算因子。
- 连续性因子相关性高,增量有限,尤其机器学习模型普及后离散化因子拥挤度提高,而利用逐笔原始高频数据构建离散化因子较少被涉猎,未来高频数据+离散化构建是突破口。[page::1]
2. 不同频率数据+连续性因子的构建及表现
2.1 日频连续因子
- 设计56种日度量价指标,以大小单相关指标拓展到48种,再考虑开盘、最高等基本数据得56种指标。
- 计算指标两两相关性(18480个因子)、单指标自相关性(280个因子),共18760个因子。
- 通过两阶段筛选(2016-2018,2019-2021),剔除高相关性因子,保留低相关性且有效的因子集合组成“日频量价相关性因子簇”。
- 因子组合横截面标准化等权合成形成 “日频连续” 因子。
- 表现(2016/01/01-2025/04/30):
- 月度IC均值:0.047,年化ICIR 2.36
- 10分组多空对冲收益:20.99%,信息比率2.59
- 最大回撤6.76%
图表3显示了10分组因子净值及多空对冲净值的显著分化,说明该因子有效区分强弱股票。
基于该因子构建沪深300指数增强组合,年化超额收益6.55%,信息比率1.57,最大回撤4.09%。[page::2,3,4]
2.2 分钟连续因子
- 逐笔数据先降频至1分钟级,设计多维资金流指标(交易方向、交易者类型、买卖方向、量价类别等)。
- 三步构建:
1. 设计资金流指标(超大单、大单、中单、小单,买入、卖出、金额等多个维度)
2. 标准化处理:无标准化,同行业内标准化,全市场标准化
3. 计算因子:资金流与收益相关性、资金流间相关、自相关性等
- 获得大量分钟连续因子,经筛选形成“分钟连续量价相关性因子簇”。
- 等权合成为分钟连续因子。
- 表现:
- 月度IC均值0.079,年化ICIR3.57,信息比率3.34,月度胜率88.29%
- 多空对冲年化收益35.99%,最大回撤8.10%
图表6展示10分组净值及对冲净值走势,表现明显优于日频连续因子。[page::5,6]
2.3 逐笔连续因子
- 利用逐笔原始数据(成交、委托、撤单)的量、价格、方向指标共9种维度。
- 计算两两相关性及自相关性,形成477个连续性因子。
- 筛选出有效且低相关性因子簇,等权合成“逐笔连续因子”。
- 表现:
- 月度IC均值0.075,年化ICIR3.20,信息比率3.29,月度胜率86.49%
- 多空年化收益38.22%,最大回撤9.29%
图表8展示10分组及多空对冲净值显著分化,说明因子有效。[page::6,7]
2.4 分钟及逐笔连续因子叠加效应
- 分别将分钟连续、逐笔连续或两者同时叠加于日频连续因子,得到复合因子。
- 回测显示:
- 分钟连续因子个体表现最佳,年化RankICIR4.28,信息比率3.34,胜率近90%
- 叠加后因子表现提升明显,但在组合层面超额收益仅增加0.5%-0.6%(沪深300增强组合基准)
- 复合因子年化收益43.08%,信息比率3.56,最大回撤9.11%,优于单一因子表现
图表9、10、11、12、13汇总连续性因子的IC和10分组多空绩效及沪深300增强组合表现验证上述结论。[page::8,9,10]
3. 离散化因子的构建及表现
- 离散化因子构建:基于分钟、逐笔数据,提取“关键时点”(事件点),仅利用事件点附近数据计算因子。
- 对日频数据不构建离散化因子,数据点过少,相关系数计算误差大。
3.1 分钟离散因子
- 事件识别借鉴先前报告,围绕趋势资金流的识别:依据价格趋势、成交量及波动率异常等判定趋势资金是否行动。
- 因子定义集中在事件发生后量价相关性特征,计算量价自身数值及其与趋势资金发生前后数据的互相关系数。
- 使用逐笔数据降频为1分钟数据集,进行因子批量生产。
- 筛选形成分钟离散量价相关性因子簇,并合成为分钟离散因子。
- 表现:
- 月度IC均值0.067,年化ICIR2.81
- 多空年化收益31.77%,信息比率2.85,最大回撤7.84%
图表14、15详细展现构建流程及10分组绩效。[page::11,12]
3.2 逐笔离散因子
- 事件定义为逐笔成交、委托、撤单三个数据方向中的量级超过当日95%分位点,即“放量”,共9种事件识别方式。
- 因子定义等同于逐笔连续因子中量价相关性计算,聚焦事件触发后未来20笔数据。
- 两两组合产生4293个因子,筛选出有效低相关簇,合成为逐笔离散因子。
- 表现:
- 月度IC均值0.073,年化ICIR2.87,信息比率3.22
- 多空年化收益38.30%,最大回撤11.87%,月度胜率81.98%
- 剔除常用风格(如波动率、流动性)与行业因素后,纯净因子仍有效,年化ICIR2.84,信息比率2.57(日常波动率降低至6.15%)。
- 逐笔离散因子与常用Barra风格因子低到中等相关性(最大相关性约0.3-0.31)。
图表16、17、24、25及相关分年度表现(图23、26)验证其有效性和稳定性。[page::12,13,17,18]
3.3 离散化因子增量及组合层面表现
- 将分钟离散、逐笔离散分别/合并叠加于连续因子簇(即日频连续+分钟连续+逐笔连续因子):
- 离散因子的单体因子表现弱于连续因子(IC、RankIC较低)
- 叠加离散因子回测IC小幅提升,RankICIR及收益指标差异不大
- 然而在沪深300指数增强组合层面,离散因子提供显著增量:
- 连续+逐笔离散组合,超额年化收益8.15%,信息比率2.14,跟踪误差3.81%,月度胜率75.68%,最大回撤4.27%
- 相比仅用连续因子,超额年化收益提升超1%
图表18至22对比因子与组合绩效数据,明确显示组合层面离散因子的价值,从而验证前文论点。
---
图表深度解读
- 图表1(第2页)明确指出因子构建的核心有两大要素:数据频率及构建方式。报告强调高频数据(尤其逐笔成交、委托)加上离散化因子构建这两点缺一不可,作为未来挖掘增量因子的关键。
- 图表2(第3页)展示日频量价指标构建与相关性计算路线:
- 56种日频量价指标组合多维度计算相关性,产生近2万个因子,展现构建的细致与规模。
- 图表3、4(第4页)日频连续因子对应10分组多空对冲表现及沪深300增强组合净值曲线,表明因子在筛选后有效区分强弱个股,组合表现稳健。
- 图表5、6(第5-6页)分钟连续因子构建流程:
- 资金流指标多维度设计(成交类型、买卖方向、金额、笔数等)
- 标准化处理与相关性计算,量价相关性结合显著提升因子质量。
- 图表7、8(第7页)逐笔连续因子构建类似,通过三种量价指标的组合,计算相关性生成多项因子,体现高频原始数据因子挖掘能力,图表净值展示因子分组净值倍数达到4倍以上。
- 图表9(第8页)汇总连续因子IC及多空绩效:
- 逐笔连续与分钟连续因子IC指标明显优于日频连续
- 叠加后的综合因子提升显著,但组合层面增量有限。
- 图表10-13(第9-10页)连续因子在沪深300组合上表现验证:
- 超额收益提升有限,信息比率提升不明显,说明连续性因子增量边际收益递减。
- 图表14、15(第11-12页)分钟离散构建方法和分组净值:
- 精准事件识别,结合离散点构建因子,呈现较好的分组效果与信息比率。
- 图表16、17(第13页)逐笔离散构建方法与分组净值:
- 事件点定义严格(高量阈值),配合量价相关计算产生大量因子,最终净值分组展现极佳收益与稳定性。
- 图表18(第14页)连续与离散因子融合回测数据表明:
- 离散因子单体IC不及连续因子,但叠加后组合收益明显提升,强调组合层面增量。
- 图表19-22(第15-16页)沪深300组合中,叠加离散因子的增强效果:
- 超额收益提升超过1%,信息比率大幅提高至2.14。
- 图表23、26(第17-18页)逐笔离散因子分年度表现显示整体稳定且持续有效。
- 图表24逐笔离散因子与标准风格因子低相关,剔除风格与行业因子后因子仍然有效(图表25),表明其具有独立的选股信息。
- 图表27-29(第19-20页)逐笔离散因子构建的沪深300、中证500、中证1000指数增强组合净值曲线,展现高信息比率与稳健超额收益表现,验证其跨指数的适用性及稳健性。
---
估值分析
本报告聚焦于因子构建和组合绩效表现分析,未涉及具体的估值方法、目标价设定等内容,因此无估值模型及敏感性分析。
---
风险因素评估
- 模型风险:所有结论基于历史统计数据和模型测算,未来市场环境若发生显著变化,模型有效性可能下降或失效。
- 因子拥挤度:尤其是分钟离散因子,由于机器学习等自动搜索技术提升,离散因子的拥挤度上升,有效性可能衰减。
- 数据依赖:利用高频和逐笔数据对数据质量和完整性要求较高,数据异常可能影响因子表现。
- 报告没有详细说明缓解策略,但通过持续的因子筛选和组合验证试图控制风险。[page::1,21]
---
批判性视角与细微差别
- 报告强调离散化因子在组合层面的增量显著,但因子本身回测IC提升有限,这种差异表明单因子选股能力与组合优化效果之间可能存在非线性关系,未来还需更多研究厘清这种关系。
- 离散化因子拥挤度问题被提及,但具体影响及缓解机制未作深入探讨,可能是后续研究方向。
- 对逐笔数据的离散化构造大幅增强组合收益,可能与逐笔数据捕捉微观结构的独特信息有关,报告未深入挖掘这一机制,留待进一步展开。
- 报告中多处统计指标表现优异,但最大回撤较一般风险偏好模型略高,需投资者关注资金管理。
- 模型均基于近十年历史数据,面对未来极端市场风险和监管变化不确定性,模型鲁棒性存疑,披露的风险提示信息重要。
---
结论性综合
本报告系统地分析并比较了量价因子的连续性构建方式与离散化构建方式,利用不同频率的数据源(日频、分钟、逐笔成交数据)批量生产对应因子簇,经多维筛选与合成,构建多组因子指标。透过全市场的回测及沪深300指数增强组合的实证检验,报告得出以下关键结论:
- 连续性因子:无论是日频、分钟还是逐笔数据构建的连续性因子,单体因子和因子叠加均表现稳定有效,分钟连续和逐笔连续因子表现最优,叠加可提高因子IC与信息比率,但其在组合层面的超额收益增量有限,沪深300增强组合年化超额收益仅较日频连续因子提升约0.5%-0.6%。
- 离散化因子:基于分钟和逐笔数据的离散化因子,单因子回测表现相对较弱,但对组合的增量显著,尤其是逐笔离散因子,通过关键事件识别与未来量价相关性特征刻画,能够捕捉连续因子之外的独立选股信息,使组合超额年化收益提升超过1%,信息比率明显改善到2以上。逐笔离散因子不仅与传统风格因子相关性低,剔除风格行业作用后依然有效,表现稳定。
- 高频数据+离散化构建的重要性:结合高频(逐笔)数据与离散化因子构造方式挖掘新的增量因子,是突破传统多因子模型增量瓶颈的有效路径。该方式充分利用微观市场结构信息,增强组合表现。
- 实证验证:逐笔离散因子构建的沪深300、中证500、中证1000指数增强组合均表现优异,稳健超额收益达7%-17%不等,信息比率均超过2,月度胜率约75%-82%,最大回撤控制在4.5%以内,显示因子研究方法具有较好的普适性和适用价值。
综上,报告明确提出“高频数据+离散化构建方式”因子研究路径,不仅理论上具有创新意义,实证数据也充分支持其提升组合投资绩效的价值。此观点对于未来量价选股因子开发及策略优化提供了重要参考框架。
---
图表展示示例





---
总结
本报告通过深入细致的因子构建路径设计和严谨的多阶段筛选验证,结合丰富的图表数据支持,系统地说明了高频数据与离散化构建方式在因子研究中的重要性。研究结果印证了利用传统连续性因子难以获得显著组合收益增量的现状,提出逐笔数据离散化因子的独特价值,展现其在投资组合稳定性和超额收益率上的优势,对量价因子研究具备重要而实用的指导意义,为量化投资策略的未来发展路径提供了清晰方向。
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21]