`

日内成交量分布因子及 Logsig-Alpha 因子生成

创建于 更新于

摘要

报告从日内成交量分布出发,构建对数成交量、时间、收益率及价格四大维度的成交量分布因子,并提出基于序列log-signature的Logsig-Alpha因子生成器。各类因子均通过丰富回测检验,Logsig-Alpha因子表现最优,年化多空收益达36.39%,且因子相关性低,特别适配中小市值股池,具备较强选股能力和实用价值 [page::0][page::7][page::23][page::25][page::29]

速读内容


1. 日内成交量分布因子体系构建 [page::0][page::4][page::7]

  • 从对数成交量的日内分布出发,设计波动、偏度等因子,解决成交量稀疏和周期性问题。

- 构建时间维度U形成交量分布因子,关注早盘和收盘成交量的异常与稳定性,设计比例及稳定性因子。
  • 利用收益率不同区间内成交量分布,开发价格显著上行时段的价稳量比和价量波动因子及其稳定性因子。

- 价格维度考虑成交量在价格区间上的偏移和反转,反映公允价区域偏低或偏高及日内反转信号。

2. 关键成交量因子性能表现与回测数据 [page::8][page::10][page::15][page::20]


| 因子名称 | Rank IC | ICIR | 多头年化收益率 | 多空年化收益率 | 多空Sharpe Ratio |
|-------------------------|---------|-------|---------------|----------------|------------------|
| 对数成交量日内偏度因子 | 5.94% | 0.72 | 16.43% | 26.29% | 3.16 |
| 早盘成交量占比稳定性因子 | 4.89% | 1.06 | 13.95% | 22.62% | 4.26 |
| 价格显著上行价稳量比因子 | 6.30% | 0.83 | 18.01% | 23.14% | 2.95 |
| 成交量在价格上的分布反转因子| 5.50% | 0.73 | 14.00% | 30.88% | 3.29 |
  • 价格显著上行价稳量比及其稳定性因子表现较优,且稳定性因子显著提升收益和稳健性。

- 成交量在价格上的分布反转因子增强了传统日内反转因子,多空表现更佳。
  • 各类时间分布因子均表现稳定,早盘和早午开盘比例因子效果优于晚午收盘因子。



3. Logsig-Alpha 因子生成及优势 [page::22][page::23]

  • 基于成交量序列的lead-lag变换计算高阶(10阶)log-signature特征,提取序列完整信息。

- 结合MLP因子正交化模块,降低因子相关性同时保留选股能力,最终输出等权合成因子。
  • Logsig-Alpha周度因子和月度因子表现优异,Rank IC分别为7.52%和9.12%,多空年化收益达36.39%和26.18%,Sharpe比率超过5,显著高于单一手工因子。

- 基础正交因子相关系数均值低于5%,显示了高信息含量的低相关性优势。


4. 因子合成、相关性与多市场适用性 [page::25][page::27][page::28]

  • 各类因子分类合成后表现更稳健,Logsig-Alpha-v大类因子表现最佳。

- 人工构造因子间存在一定相关性,Logsig-Alpha与之相关性较低,为组合提供信息增益。
  • 合成后的周度因子多头年化收益约20.17%,多空年化收益29.69%,调仓年化换手率约20次。

- 在沪深300、中证500、中证1000等不同市值层级股票池均表现较好,且更适合中小市值股票。


5. 研究结论与应用价值 [page::29]

  • 报告系统性总结了日内成交量分布因子体系,覆盖对数成交量、时间、收益率和价格四大分布维度。

- 利用log-signature特征及正交转化,提出具有强选股能力的Logsig-Alpha生成模型。
  • 因子表现稳定且突出,适合高频序列信息挖掘,特别契合中小市值股票,具备良好的实际投资应用前景。

深度阅读

金融研究报告深度分析报告


报告标题:日内成交量分布因子及 Logsig-Alpha 因子生成 — 因子选股系列之六
发布机构:东北证券股份有限公司
作者:王琦(首席分析师)、贾英(研究助理)等
发布日期:2023年11月末
研究主题:基于日内成交量分布构建选股因子,特别是创新应用Logsig-Alpha因子生成方法对成交量序列的提取与选股能力分析

---

1. 元数据与概览



本报告系统地研究了日内成交量分布特征,并围绕该特征构造了一系列因子,用以进行股票收益的预测与选股。核心创新在于引入Logsig-Alpha模型,对成交量序列的log-signature特征进行提取加工,实现了序列到因子的高效转化。报告详细展示了人工构造的四大类成交量分布因子的理论设计与实测表现,其中包括:
  • 日内对数成交量经验分布相关因子

- 日内成交量在时间上的分布因子
  • 日内成交量在收益率上的分布因子

- 日内成交量在价格上的分布因子

此外,报告通过机器学习方法结合log-signature特征引入Logsig-Alpha因子生成器,极大提升了因子表现,且因子相互间相关性较低、符合流动性与特异波动率的Barra风格特征,适合应用于中小市值股票池。
因子表现整体良好,尤其是Logsig-Alpha-v因子,展现了高Pick能力和稳健的收益质量。

风险提示明确指出本研究基于历史数据和模型推断,具有模型失效可能,历史表现不等同于未来表现。

---

2. 逐节深度解读



2.1 引言:成交量分布中的信息



报告开篇回顾了此前高频数据低频化构造收益率分布因子的研究,进一步明确成交量作为流动性指标不仅自身重要,其日内的稀疏性、周期性等特征也富含信息,值得细致分析。采用5分钟粒度可缓解稀疏性问题,对数变换后成交量序列近似正态,方便定义统计因子。

成交量与流动性风险溢价相关,成交量的分布形态能够反映交易情绪和多空博弈,依此构建因子有助于捕捉趋势或反转信息。

四维度构建因子的思路明确,为后续章节铺垫了蓝图。[page::4-6]

2.2 日内成交量分布相关因子构造及测试



2.2.1 日内对数成交量的经验分布因子(第2.1节)



两大核心因子:对数成交量的日内波动因子和偏度因子,分别度量成交量的稳定性和偏移程度。
  • 逻辑上,两者与预期收益呈负相关:波动或偏度较低通常对应平稳交易情绪和较小的信息冲击,可能带来更优表现。

- 实证表现:
- 偏度因子周度Rank IC高达5.94%,多头年化超额约15.82%,表现优于波动因子(Rank IC 1.55%)[page::7-8]。
  • 图表说明:

- 图6-9展现该分组策略净值和Rank IC稳定上涨,偏度因子表现更稳健明显。
  • 数据清洗和中性化处理确保因子纯净性。


2.2.2 日内成交量在时间上的分布因子(第2.2节)



关注成交量典型的日内U形分布,通过比例和稳定性概念设计多因子:
  • 早盘成交量占比及其稳定性

- 早盘成交量波动及其稳定性
  • 早午开盘与晚午收盘成交量比例及稳定性


因子构造基于克服周期性影响,通过日间对比与窗口期整合。
实测反映:
  • 早盘占比因子Rank IC 4.61%,稳定性因子更好达4.89%,多头收益年化13.95%-9%左右,均为负向因子(即越低表现越好)[page::9-13]。

- 相关性较高的稳定性因子有助于筛选出表现更稳定的股票池。
  • 图10-25清晰展示因子的分层回测收益,排名IC平稳增长。

- 相关性表(表13)体现同一类因子间较强相关,但不同类别间低相关。

逻辑解释强调早盘成交量的合理性与稳定性对应更低的过度反应及更健康的市场参与结构。

2.2.3 日内成交量在收益率上的分布因子(第2.3节)



通过关注价格显著上升区间的成交量波动和占比,构造了4个因子:
  • 价格显著上行价稳量比因子及其稳定性

- 价格显著上行价量波动因子及其稳定性

重点衡量价格上涨时收益率与成交量组合的稳定性,有效筛除过度交易信号。
实证表现:
  • 因子Rank IC达到6%以上,稳定性因子表现更优(5.20%-6.30%),多头年化收益达到20%左右,稳健超额收益显著[page::14-17]。

- 因子间相关性高,建议合成。
  • 退化因子测试证实包含收益率波动的因子更有效,强调稳定结构的重要性。


图26-33打印显著的收益分层及排名IC,进一步佐证因子有效性。

2.2.4 日内成交量在价格上的分布因子(第2.4节)



通过日内价格分段成交量聚合和POC(成交量最大的价格区间)计算,构造了:
  • 成交量在价格上的分布偏移因子(Pearson中值偏度测度成交量分布偏移)

- 成交量在价格上的分布反转因子(结合POC与收盘价距阵增强反转特征)

因子逻辑:成交量更偏向高价区或价格收敛POC区域,暗示未来走势。
表现方面:
  • 偏移因子Rank IC约2.93%,反转因子较高达5.50%,均具备显著稳定的多头、双向收益表现[page::20-21]。

- 两因子相关性极低(0.07),故选股信息互补。
  • 反转因子优于简单日内反转因子,指明成交量分布提升传统反转信号效能。

- 图38-41显示因子净值走势和Rank IC稳定攀升。

---

2.3 Logsig-Alpha因子生成(第3章)



区别于上述人工构造因子,Logsig-Alpha采用深度学习框架与路径签名理论全面提取成交量序列信息:
  • 先对5min对数成交量序列进行lead-lag变换,并计算log-signature高阶特征(阶数截断为10)

- log-signature作为高维特征,含原序列绝大部分信息
  • 利用多层感知机(MLP)实现“因子正交转化”,减少基因相关性,强化选股能力

- 损失函数设计为最大化因子IC并罚相关矩阵L2范数
  • 回测区间为2018年至2023年,采用滚动训练,周度及月度生成因子


实证测试结果突出:
  • Logsig-Alpha-v周度因子Rank IC达7.52%,月度因子更高达9.12%

- 多头年化收益20%和17%左右,双向年化收益均超20%,Sharpe比率显著高于人工因子[page::22-26]
  • 因子独立性强,基础因子平均相关率<5%

- 有效利用高截断阶序列特征和正交转化模块提高信息提炼效率
  • 均值方差衡量和智能标签标准化提升模型稳定性

- 图43-49及后续表格充分展示因子效能与稳健性。

---

2.4 因子合成及稳健性测试(第4章)


  • 类内细分因子存在较高相关性,报告施行合成方法将同类别因子合成为大类因子,提升整体稳健性及表现

- 表26显示不同大类因子间相关性较低,Logsig-Alpha-v与其他类别因子相关最弱,说明其信息含量独特
  • 表27与Barra风格因子相关性分析指出所有因子略偏向流动性与特异性波动率风格,符合量价特性

- 多项回测结果(表28)表明合成因子表现均优于细分单因子,Logsig-Alpha-v表现最为突出
  • 图50-51展示五分组收益成长,趋势清晰且稳定增长

- 因子在不同指数—沪深300、中证500和中证1000中测试(表34-36),均显示更适合中小市值股票
  • 大类因子合成后周度Rank IC 约6.50%,五分组年化收益约20.17%,年化换手率约20倍,体现良好流动性与可操作性。


---

2.5 总结(第5章)


  • 以四维度详尽解析了日内成交量分布及其关联因子,利用低频化5分钟数据解决了稀疏性与周期性困境

- 因子设计合理,且通过去极值、标准化、行业市值中性化预处理,保证因子纯净和独立性
  • Logsig-Alpha基于先进的log-signature理论与机器学习模型,优于传统因子,表现卓越,捕获序列深层信息

- 因子间相关性较低,组合后效能进一步提升,且与主流风险因子关联合理,契合中小市值及流动性特征
  • 风险提示充分提醒模型依赖历史推断,存在失效可能

- 细分因子及合成因子详尽回测数据显示因子稳定、策略盈利能力强,具备实操潜力

---

3. 图表深度解读(部分重点图表)



图1~4(日内成交量经验分布与时间分布图,页5)


图1显示股票在日内以5min为粒度的成交量分布具有明显偏态,单点成交量范围广泛,反映出现有部分时段成交量稀疏。图2对成交量取对数后呈近正态分布。图3和图4示出了1min与5min成交量时间分布,前者波动较大且稀疏,后者平滑呈现典型U形成交量分布。

表1及图6-9(日内对数成交量分布因子的表现,页8)


表1显示偏度因子Rank IC达5.94%优于波动因子1.55%;两者多头年化收益分别高达16.4%和9.9%。图6和8对应分层收益线,多头收益层与基准明显分离。图7和9的Rank IC图展示偏度因子稳定递增的IC贡献。

表4及图10-25(日内成交量时间分布因子表现,页10-12)


早盘占比及其稳定性因子Rank IC均在4.61%到4.89%之间,表现稳定,相关图表展现均值向上分层净值曲线,趋势明显。比例因子与波动因子均显示出稳健的分组收益与较高的信息系数。

表14及图26-33(价格显著上行相关因子表现,页16)


价格显著上行价稳量比因子Rank IC约6.3%,多头年化收益18%左右,稳定性因子表现更强。图26至33的净值和IC表现曲线均体现因子强大的踩点能力和稳定性。

表20、21、22及图38-41(成交量价格分布偏移与反转因子,页20-21)


反转因子的Rank IC达5.5%,多头年化收益超过14%,显著优于偏移因子。净值曲线展现清晰的多头超额累计效应。
这些图表确认了成交量在价格上的动态分布对于提升反转模型具有实际的强化效果。

表23及图46-49(Logsig-Alpha因子测评,页23-24)


Logsig-Alpha-v周度因子Rank IC达7.52%,月度达9.12%,超过传统因子,五分组收益优异,证明机器学习与高阶路径签名方法能有效提高信息提取能力。

表26及表28(大类合成因子相关性与表现,页25)


相关矩阵揭示Logsig-Alpha-v与传统因子几乎无显著相关,具备差异化选股能力。大类合成因子表现持续优于单因子,均衡提升信息捕获与稳健性。

---

4. 估值分析



报告未涉及传统的企业价值估值,主要专注因子构建及策略回测,侧重量化因子选股模型的设计与表现验证,无明显估值模型内容。

---

5. 风险因素评估


  • 模型失效风险: 报告多次提示因子基于历史数据和模型推断,可能面临未来表现衰减或市场结构变化导致模型失效的风险。

- 数据稀疏及周期性: 流动性较差股票日内成交量稀疏,周期性强,可能推导因子存在噪声。报告通过5分钟窗宽及日间平滑对比部分缓解。
  • 市场异常事件风险: 高频数据和因子在极端行情下可能失效,报告暗示增强因子稳定性以减缓该风险。

- 超参数选择风险: Logsig-Alpha模型依赖截断阶数、正交转化等参数,调优不当可能影响结果。
  • 样本外效能风险: 因子表现存在样本内外差异,实际应用需进一步检验稳健性。


缓解策略主要依赖因子稳定性因子的引入、多维度因子组合和滚动训练更新模型。

---

6. 批判性视角与细微差别


  • 样本依赖性较强,因子均为历史回测揭示,未来行情变化可能削弱因子效果。

- 复杂模型的可解释性有限,Logsig-Alpha虽带来信息量和收益提升,但其内在机理及因子贡献缺乏直观解读,应用需谨慎。
  • 因子间部分相关,穷维难免。如时间分布因子间相关较高,合成虽可提升稳健性,但一定程度可能损失信息多样性。

- 高阶log-signature的截断阶数选择为折中考量,太高阶导致维度膨胀、太低阶信息丢失,实际选择为10阶合理但可能非最优。
  • 流动性风险偏向明显,因子更适合中小市值股票池,应用到大市值及流动性差异股时表现不一,需区别管理。

- 超额收益与换手率兼顾,模型构造存在短期内过拟合风险,特别多头和多空收益对冲策略需结合实盘交易成本评估。

---

7. 结论性综合



本篇报告为日内成交量分布构建与因子筛选提供了系统完整的方法框架。通过基于经验分布、时间分布、价格分布和收益率分布四维度的因子设计,以及创新的Logsig-Alpha生成模型方法,全面提炼成交量序列中的丰富信息,构建了一系列具有良好预测性和稳健性的选股因子。

人工构造因子中,日内对数成交量偏度因子和价格显著上行价稳量比因子表现优异,是较稳健的信息来源;时间分布因子和价格分布因子则提供了补足性信息。Logsig-Alpha因子基于10阶log-signature和正交变换模块,显著提升因子预测能力和多样性,有效捕获序列深层信息,表现优于人工设计的因子。合成后的大类因子不仅等级IC和收益率较单因子更优,而且因子线性独立性强,具备更良好的组合应用潜力。

图表全面支持以上结论:
  • 几乎所有因子均展现稳定上升的均值累计净值(图6-17,26-33,50-51),

- 因子Rank IC多数在3%-9%以上,表现稳定优于市场无效假设,
  • Logsig-Alpha因子进一步验证了路径签名方法在高维时序特征提取中的潜力(图43-49)。


总体上,报告展现了成交量时序数据在量化投资中深耕细作带来的价值与潜力,提供了兼具理论与实证的全面视角,尤其是结合人工因子与机器学习方法,为未来因子工程开辟了新路径。推荐关注及进一步测试Logsig-Alpha因子及其融合版,对于资产配置、量化选股具有实际应用指导价值,但仍需考虑模型失效及市场变动带来的不确定风险。

---

附录补充


  • 作者团队背景雄厚,包含金融数学、统计学、机器学习等多个跨学科领域专家,保障研究专业与创新 [page::30]

- 报告严格遵守证券分析师执业标准和信息披露规范,并在声明中明确解释投资评级定义与免责声明,符合行业合规要求。[page::30-31]

---

溯源标记示例:
该结论基于章节7-8页相对应表1和图6-9数据[page::7,8],因子构造与相关性基于章节9-13页表4、图10-25[page::9,11],Logsig-Alpha相关性能参考章节22-26,表23及图46-49[page::22-24],风险提示等内容参考页30[page::30]。

---

总结



本报告通过研发和测试日内成交量分布相关的多维度因子,尤其结合现代机器学习的path-signature方法提出Logsig-Alpha因子生成器,显著提升选股因子质和量,表现出了强大的预测能力与稳健的实证表现。因子组合同样实现了优异的多头及多空收益表现,适合于中小市值及流动性股票池。尽管存在模型失效风险与应用限制,但报告提供了强有力且系统的理论基础、数据验证和设计框架,对量化投资因子工程具有重要指导意义和应用参考价值。[page::0-31]

报告