`

“量价淘金” 选股因子系列研究(九):Memory Map 在因子生产加速上的应用 ——以构建羊群效应因子簇为例

创建于 更新于

摘要

本文首次尝试利用Memory Map数据存储技术,显著提高因子数据读取效率,结合事件研究框架体系化批量构建羊群效应因子簇,最终保留50个优选因子,构建的综合因子表现优异,在A股全市场显著提升选股能力,并基于该因子构造沪深300、中证500、中证1000指数增强组合,均获得稳健超额收益和良好信息比率 [page::0][page::6][page::15][page::16][page::18][page::19][page::22]

速读内容


Memory Map数据存储技术优势显著 [page::4][page::6]


  • Memory Map通过内存映射方式省略显式文件IO,大幅提升数据访问速度。

- 读取某交易日所有股票分钟收盘价数据,Memory Map耗时仅792微秒,约为Parquet(206ms)和CSV(264ms)的260倍、330倍。
  • 因子计算整体耗时也大幅缩短,内存映射格式下从分钟数据计算高频波动率用时显著少于传统格式。


羊群效应因子构建框架系统化详尽 [page::7][page::8][page::11]

  • 基于事件识别、因子定义、数据频率三大关键要素体系化设计羊群效应因子。

- 事件识别通过观察成交量(大小单+方向)、价格涨跌幅、波动率、量价相关性多维度异常,定义多达上千种趋势资金行动判定方式。
  • 因子定义以趋势资金行动后量价表现的绝对值、相关关系和相对比值多角度刻画羊群效应强弱,因子构造方式亦千余条。

- 数据频率以上证1分钟数据为核心,辅以逐笔数据等多频次信息。

羊群效应因子簇的批量生产与筛选 [page::15]


| 因子 | 月度IC均值 | 年化ICIR | 月度RankIC均值 | 年化RankICIR | 年化收益率 | 年化波动率 | 信息比率 | 月度胜率 | 最大回撤率 |
|------|------------|----------|----------------|--------------|------------|------------|----------|----------|------------|
| 因子1 | -0.060 | -2.63 | -0.092 | -3.44 | 29.13% | 10.62% | 2.74 | 79.81% | 9.05% |
| 因子12 | 0.039 | 2.90 | 0.059 | 3.94 | 19.58% | 6.15% | 3.19 | 86.54% | 3.21% |
| 因子20 | 0.069 | 3.59 | 0.090 | 3.69 | 33.91% | 10.26% | 3.31 | 88.46% | 8.97% |
  • 构建了约50万个羊群效应因子,经过分阶段筛选,最终确定50个效果优且低相关因子组成“因子簇”。

- 因子簇表现稳定,均年化ICIR绝对值均超2,显示出良好的Alpha信号。

羊群效应综合因子表现优异 [page::16][page::17]


  • 综合因子由因子簇中信息比率最高的10个因子等权合成。

- 在2016-2024年期间,综合因子月度RankIC均值0.116,信息比率达4.23,10分组多空对冲年化收益43.21%,胜率超过84%,最大回撤6.31%。
  • 剔除行业和主流风格后,纯净因子仍保持显著选股能力,年化RankICIR 3.67以上。


指数增强组合表现抢眼 [page::18][page::19][page::20]




  • 利用综合因子为核心信号,针对沪深300、中证500、中证1000成分股构建月度指数增强组合。

- 沪深300增强组合超额收益9.06%,跟踪误差4.47%,信息比率2.03,最大回撤4.42%。
  • 中证500增强组合超额收益12.20%,跟踪误差5.44%,信息比率2.24,最大回撤4.36%。

- 中证1000增强组合超额收益17.78%,跟踪误差6.57%,信息比率2.71,最大回撤6.24%。

Memory Map技术极大提升因子生产效率 [page::5][page::15]

  • 典型计算示例:单进程CPU读取分钟数据计算日度因子,Memory Map耗时约10分钟,而CSV需45分钟,Parquet需25分钟。

- 技术优势助力大规模因子批量生产和快速迭代。

深度阅读

国盛金工《“量价淘金”选股因子系列研究(九)》报告详尽分析



---

一、元数据与概览



报告标题:
《“量价淘金”选股因子系列研究(九):Memory Map 在因子生产加速上的应用——以构建羊群效应因子簇为例》

作者及机构:
国盛证券研究所,分析师沈芷琦、刘富兵,研究助理阮俊烨

发布时间及主题:
2024年,聚焦量化选股中的因子构建方法,特别针对提升因子生产效率的技术应用以及羊群效应因子的体系化构建与实证。

核心论点与评级:
本报告提出并论证了“Memory Map”数据存储技术相较传统存储格式对提升因子生产效率的显著优势,并基于该技术构建了庞大的羊群效应因子簇,筛选并合成高质量综合因子,最终展示其优秀的实证表现和应用于指数增强组合的潜力。报告无明确的买卖评级,核心信息聚焦在因子的技术与实证创新,强调因子构建和投资策略的统计显著性与稳健性。

---

二、逐节深度解读



1. 前言与研究背景



报告指出当前量化策略面临边际效益递减的问题,传统因子的Alpha逐渐减弱,人力挖掘新因子的难度不断上升,亟需借助新技术手段提升因子生产效率。国盛金工系列研究聚焦“因子生产加速”,从数据存储、计算框架等多个维度系统提升因子产出速度和数量,通过技术创新保持未来Alpha挖掘能力[page::0,3]。

图表1展示了因子生产的核心环节——数据存储与读写、体系化因子构建思路、因子计算、回测与筛选以及算力配置,明确了因子生产过程中的全链条要素[page::3]。

2. Memory Map 数据存储技术



2.1 概念



Memory Map采用内存映射方式,直接将文件数据映射为内存地址空间,极大减少文件显式I/O,提升访问速度,特别适合频繁访问大规模高频量价数据[page::4]。

2.2 数据存储实例



报告比较了宽表与窄表存储方式:宽表将特征按二维矩阵存放,方便矢量化操作;窄表以股票代码和时间戳为索引,适合常规数据库查询。因量价因子为截面计算需求,宽表更适用于提升计算效率[page::4]。

图表2和3展示了宽表和窄表的示例结构,宽表行为时间索引,列为股票代码,数据为分钟收盘价;窄表采用多列存放价格外更多字段,但遍历成本高[page::4]。

2.3 Memory Map实现细节及性能测试



以2024年9月30日某日的分钟收盘价宽表为例,详细说明Memory Map数据结构—基础信息存放4字节,字符串索引(行17242字节,列9N字节)以及浮点数据(242N字节)。该布局支持高效内存访问[page::5]。

代码示例演示了如何用Python/Numpy将DataFrame写入Memory Map,涉及动态确定索引长度并调用memmap API申请内存空间与写入数据[page::5]。

性能测试环境为64核AMD 7T83+NVIDIA RTX4090+NVME RAID0,测试对比了Memory Map、Parquet和CSV的读取速度,得出Memory Map读取一分钟宽表数据仅需约792微秒,分别是Parquet和CSV的260倍与330倍速度[page::6]。

此外,因子计算(如计算波动率)耗时显著降低,从CSV的36秒,Parquet的22秒,缩短至内存映射的8秒[page::6],这一性能优势成为批量快速因子生产的技术保障。

3. 羊群效应因子簇构建



3.1 因子构建的体系化思路



结合事件研究框架,报告提出以“趋势资金是否行动”作为核心事件,通过量价数据观察跟随者极端交易行为刻画羊群效应,明确三个关键因素:
  • 事件识别(是否有趋势资金参与)

- 因子定义(羊群效应强弱的量价特征)
  • 数据频率(不同数据层级相比表现可能不同)


这一体系化思路明确了因子批量生产的逻辑框架,有利于自动化和系统化挖掘Alpha[page::7]。

图表7形象展示了三个关键因素对应的方法论:事件识别基于成交量与价格异常,构建因子利用跟随行为等多维量价指标,数据频率覆盖日频分钟至逐笔数据[page::7]。

3.2 事件识别:趋势资金是否行动



覆盖量的维度丰富:
  • 成交量指标(数量、金额、笔数、单笔金额)

- 大小单划分(基于Wind固定金额阈值和浮动百分位,体现不同资金体量行为)
  • 方向区分(主买、主卖,即主动买卖控制方)

- 放大判断(日内固定均值+1.5倍标准差、或基于历史5日滚动90%分位)

通过4因素组合产生168种趋势资金行为识别方案,体现体系化的广度,同时避免参数调优的避免过拟合,呈现先验合理性[page::8-9]。

图表8、9展现大小单划分标准与逐笔成交买卖方向的具体数据结构,展示数据层面对事件识别的支持[page::8-9]。

图表10总结168种识别方式的层次关系和交叉组合[page::9]。

价格涨跌幅、波动率及量价相关性等复杂指标的引入:
  • 价格涨跌幅极端放大缩小(日内或历史分位判断,共4种方式)

- 波动率极端放大,基于振幅或滚动标准差,4种方式
  • 量价相关性极端变化,价格与量的多种滞后前置关系(对齐,量先价行,价先量行),结合不同量价变量,共计2016种识别方式[page::10-11]。


图表11详细展示了量价相关性的多维组合及可产生的巨大识别方案数量[page::11]。

3.3 因子定义:羊群效应如何衡量



基于事件识别后的时间点,定义量价特征,用以衡量羊群效应强弱:
  • 成交量维度84种变量(大小单、买卖方向、数量、金额多重划分),与5种极端跟随行为强度量化方式结合,共420因子定义[page::12-13]。图表12呈现维度与构建方法细节。
  • 价格涨跌幅与波动率因子构造5种与10种定义方式,分别考察极端跟随收益率和波动率本身及相对趋势资金的关系[page::13]。
  • 量价相关性维度多达2520种因子定义(价格数据选择、量的数据细化、相关性时序错位、相关性指标及与趋势资金相关性组合等)[page::14]。图表13清晰呈现多维构造体系。


报告强调不做参数优化,选择合理先验参数,防止过拟合,保证因子的稳健与普适性。

3.4 数据频率选择



以1分钟数据集为主,包括由逐笔数据合成的分钟级量价特征,支持事件识别与因子定义的高频精细度[page::14]。

3.5 因子的生产、筛选与表现



3.5.1 批量因子生成与筛选

基于上述识别方式简化版本,构建约50万个羊群效应因子。通过2016-2020年时间段的IC(信息系数)、ICIR(信息系数信息比率)、多头收益及相关性筛选,先筛选出200个优质且相关性较低因子;再用2021年至今数据回测,最终筛选出50个优质低相关性因子,组成羊群效应因子簇[page::15]。

表14网络显示20个代表因子的详细性能指标,其中大多数未经行业/市值中性化,因子IC绝对值均超过0.02,并且信息比率多在2以上,ICRankIR亦呈明显正向,部分因子年化收益率超过20%,信息比率高达3以上,最大回撤一般控制在6-9%以内,显示量价因子簇具有显著选股能力和风险控制能力[page::15]。

示例因子详细描述,基于逐笔主买单数据检测趋势资金行动,通过未来5分钟买卖单差异加权平均构造,并结合Memory Map提高计算效率,实现因子计算用时大幅压缩(CSV 45min,Parquet 25min,Memory Map 10min)[page::15]。

3.5.2 综合因子构建及表现

选取50因子中信息比率最高的10个等权求和生成羊群效应综合因子。2016/1-2024/9期间,综合因子表现亮眼:
  • 月均IC=0.088,年化ICIR=3.45

- 月均RankIC=0.116,年RankICIR=4.23
  • 10分组多空对冲年化收益43.21%,波动率11.41%,信息比率3.79,月度胜率84.62%,最大回撤6.31%[page::16]


图15展示10分组分层收益净值分布,分组间表现分明,示范因子选股能力强[page::16]。图16显示各年度分组10对冲分组1收益及风险指标,近年整体优秀,风险控制稳定[page::17]。

与风格因子关联性

与Barra 10个风格因子相关系数均较低,仅与波动率和流动性相关性在0.37-0.40的中等水平,表明该综合因子在剔除常见风格影响后仍保留较强信号[page::17]。图17详细展示具体相关系数[page::17]。

纯净因子表现

剔除市值、行业等风格影响后,构造纯净因子,回测依然表现稳健:
  • 月度IC均值0.051,年化ICIR3.74

- 月度RankIC均值0.054,年RankICIR3.67
  • 多空对冲年收益24.76%,波动率6.5%,信息比率3.81,月度胜率83.65%,最大回撤2.07%[page::18]


图18、19展示纯净因子10分组多空对冲净值及年度表现[page::18]。

3.5.3 指数增强组合应用

基于综合因子,构建月度调仓的沪深300、中证500、中证1000等指数增强组合:
  • 沪深300增强组合年化收益12.74%,超额收益9.06%,跟踪误差4.47%,信息比率2.03,月度胜率73.08%,最大回撤4.42%[page::18-19]。图20展示净值曲线[page::19]。
  • 中证500增强组合年化收益12.61%,超额收益12.20%,跟踪误差5.44%,信息比率2.24,月度胜率72.12%,最大回撤4.36%[page::19]。图21展示净值曲线[page::19]。
  • 中证1000增强组合年化收益14.82%,超额收益17.78%,跟踪误差6.57%,信息比率2.71,月度胜率82.69%,最大回撤6.24%[page::19-20]。图22展示净值曲线[page::20]。


4. 国盛金工因子库简介



报告说明国盛金工持续将量价因子纳入因子库进行维护,涵盖风格、多因子、技术指标等类别,已将羊群效应因子簇纳入其中,并将持续更新后续成果,便于投资决策支持[page::21]。

图表23展示因子库示例数据结构,体现透明化管理与大规模系统化管理能力[page::21]。

5. 总结



报告总体总结了Memory Map技术相对于传统存储技术在因子计算层面的革命性效率提升,并基于深入的事件驱动、量价异动框架,系统性构建了海量羊群效应因子。通过严格的筛选和回测,提炼出50个优质因子簇,并合成信息比率优异的综合因子。综合因子在A股历史数据中显著有效,剔除传统风格影响后依然表现稳健。基于该因子的指数增强组合提供持续稳定超额收益,表现出实战应用价值[page::22-23]。

---

三、图表深度解读



图表1:因子生产过程中的重要环节



展示因子生产链条中“数据存储与读写”“体系化因子构建”“因子计算”“因子回测筛选”“算力支持”五大核心组成,强调构建思路与技术实现并重[page::3]。

图表2-3:宽表与窄表存储示例



宽表以分钟为行、股票为列,易于批量矢量化处理,大小表体现不同存储优化策略[page::4]。

图表4-5:Memory Map存储结构及代码



内存布局及代码演示体现文件转存内存映射的技术细节[page::5]。

图表6:速度对比



Memory Map 读取792μs,约为Parquet和CSV的260倍和330倍,说明存储技术对因子计算性能影响巨大[page::6]。

图表7:羊群效应因子构建框架



事件识别、因子定义、数据频率三大核心要素贯穿各阶段,图示形象清晰[page::7]。

图表8-11:事件识别细分维度



展示大小单划分标准、逐笔成交方向示意及如何组合7
342(generate 168)等策略识别趋势资金行为,图11进一步扩展到2016种基于量价相关性的识别方式[page::8-11]。

图表12-13:因子定义维度及数量



420种基于成交量,2500出基于量价相关性的定义方法,体现因子构造的丰富性[page::13-14]。

图表14:羊群效应因子簇回测绩效



指标完备展示因子多维度选股性能,年化ICIR普遍超2,信息比率优良,最大回撤较小,胜率高达80%以上,验证因子的稳健有效[page::15]。

图表15-16:综合因子净值与年度表现



净值曲线平稳丰富,多空对冲收益稳定,年度表现除某些牛熊周期外表现持续优良[page::16-17]。

图表17:与风格因子相关系数



低相关性说明该因子代表独立alpha源泉,尤其与流动性和波动率相关较高[page::17]。

图表18-19:纯净因子表现



剔除风格后依旧强劲,胜率和收益稳定,风险指标大幅改善[page::18]。

图表20-22:指数增强组合净值



沪深300、中证500、中证1000增强组合较基准均显著跑赢,最大回撤控制优秀,反映因子在实际组合构建中的有效落地[page::19-20]。

图表23:因子库示例数据



展示因子统一管理、版本化存储,支持持续维护与更新[page::21]。

---

四、估值分析



本报告主要聚焦于因子构建、技术实现和策略实证层面,未涉及传统意义上的估值分析(如DCF、P/E等),核心内容围绕因子信息比率、IC指标、收益率和风险调整表现展开,体现量化alpha因子研究的特点。

---

五、风险因素评估



报告提示所有结论基于历史数据和统计模型,未来若市场环境显著变化,模型可能失效,暗示因子和策略具有一定的模型风险和市场适应性风险,但未详细展开风险管理策略[page::0,23]。

---

六、批判性视角与细微差别


  • 报告未进行参数优化遍历,避免过拟合,这是严谨之举,亦可能限制了进一步提升因子表现的空间。
  • 因子构建方法庞杂,虽体系化,但复杂度极高,对算力和数据质量要求较高,实际部署门槛较大。
  • 虽有风格剔除测试,但因子间及对市场风格长周期动态相关性可能更复杂,报告未覆盖多期动态稳定性验证。
  • 报告依赖逐笔交易数据,这种数据获取和处理门槛较高,数据覆盖限制可能影响实际应用范围。
  • 报告回测和组合构建基于单一市场(中国A股),跨市场适用性未知。


---

七、结论性综合



本报告系统展现了Memory Map技术对提升量价因子大规模生产与计算效率的革命性价值,真正解决量化因子“算力瓶颈”。基于此技术,结合事件研究方法论,报告设计并试验构建了超过50万个羊群效应选股因子,从中筛选出50个表现优异且低相关因子组成簇,这些因子在8年以上数据回测中表现稳健,综合因子年信息比率约3.8,选股能力显著,剔除行业与风格影响后依然有效。

实证进一步显示利用相关综合因子,构建的指数增强组合在沪深300、中证500及中证1000指数上均获得了显著的超额收益和优异的风险调整表现。其中,中证1000组合超额收益达到17.78%,信息比率高达2.7,最大回撤控制在6.24%。

报告架构严谨,数据丰富,图表清晰详实,因子构造逻辑严密且可扩展,兼顾理论与实践价值,为量价因子及事件驱动因子研究提供了范式示范与技术路径指引。报告同时指出未来模型仍有受市场环境变动风险,需持续动态维护与迭代。

综上,此报告为量化投资领域提供了突破算力瓶颈的示范实践,并结合大数据及事件驱动深化Alpha因子构建的系统框架,展望对量化策略持续创新和超额收益挖掘具有积极指导意义。

---

报告中主要图表按页码溯源如下:
图1[page::3]
图2-3[page::4]
图4-5[page::5]
图6[page::6]
图7[page::7]
图8-10[page::8-9]
图11[page::11]
图12-13[page::13-14]
图14[page::15]
图15-17[page::16-17]
图18-19[page::18]
图20-22[page::19-20]
图23[page::21]

---

以上即为国盛金工《“量价淘金”选股因子系列研究(九)》报告的极其详尽和全面分析,覆盖其所有核心论点、数据明细、图表解读和方法论逻辑,深刻体现报告的专业性和实证价值。

报告