`

基于大单的 alpha 因子构建

创建于 更新于

摘要

本报告基于沪深逐笔成交数据构建大单相关的四个alpha因子,包括大单买入占比、早盘大单买入占比、大单涨跌幅和早盘大单涨跌幅,验证了大单背后资金实力雄厚投资者所带来的选股超额收益。早盘大单买入占比因子在沪深300中月度RankIC均值最高达7.33%,多空组合年化收益25.4%,因子表现稳定且对大单划分阈值不敏感。同时因子与传统大类因子低相关,表现出较强动量特征,且在平滑周期拉长下仍具有效果,兼顾了选股能力和交易成本控制,展示了基于大单行为捕捉alpha的有效路径 [page::0][page::3][page::4][page::6][page::8][page::11]

速读内容


大单因子构建与定义 [page::2][page::3][page::5]

  • 依据逐笔成交的委托单号合成订单大小,选取每日最大5%的订单定义为大单,平均金额阈值约12.3万元,累计金额占比达46.3%,尽管阈值因算法拆单下降,但累计占比稳定,说明主力资金依旧捕获有效alpha。

- 四个因子包括:大单买入占比、早盘(10点前)大单买入占比、大单涨跌幅、早盘大单涨跌幅,均取20日均值进行回测分析。
  • 大单涨跌幅通过主动大单成交对应对数价格变动累积计算,区别于基于分钟线的涨跌幅,表现出动量特性。


因子表现及样本空间分析 [page::4][page::6]


  • 早盘大单买入占比因子在沪深300样本中表现最优,月度RankIC均值7.33%,多空年化收益25.37%,夏普率1.59,最大回撤约-16.98%;

- 大单涨跌幅和早盘大单涨跌幅因子在沪深300中均表现良好,早盘版本RankIC均值约7.37%,年化收益20.4%,显著优于整体市场;
  • 因子在大市值股票池的有效性显著高于小市值,且表现稳定未见衰减现象;

- 多空组合分组收益曲线及回撤显示因子具有较好的风险调整收益能力。

因子稳健性及交易成本控制 [page::7][page::8]

  • 大单划分阈值调节(1%、5%、10%)对因子表现影响较小,早盘大单买入占比和大单涨跌幅在不同划分下均展现较好稳定性;

- 平滑周期延长降低换手率,大单买入占比12个月平滑换手率仅约20%,选股效应依然明显,显著降低交易成本压力。

因子相关性及信息增量分析 [page::9][page::10]

  • 大单买入占比与多数传统大类因子无显著相关性,但与反转因子呈现强负相关,体现动量特征,信息互补性强;

- 大单涨跌幅因子偏好流动性差、低波动股票,与波动率类因子相关度较高;
  • 四大因子与多种日内量价指标相关性较小,充分体现alpha因子在因子库中的独特信息价值。


结论及风险提示 [page::11]

  • 大单背后资金实力雄厚投资者行为具备信息优势,基于大单行为构建的4个alpha因子均有效捕捉超额收益;

- 早盘大单买入占比因子表现最佳,兼具较低换手率和持续有效性;
  • 因子表现稳定、对大单划分敏感度低,具备推广适用价值;

- 风险方面提示量化模型存在失效风险,且极端市场环境可能导致收益波动和亏损。

深度阅读

报告详尽剖析:《基于大单的 alpha 因子构建》



---

1. 元数据与报告概览


  • 标题:基于大单的 alpha 因子构建

- 作者与发布机构:东方证券研究所,证券分析师朱剑涛(执业证书编号:S0860515060001)与王星星(执业证书编号:S0860517100001)
  • 发布日期:2021年10月27日

- 主题:面向A股市场,以逐笔成交和逐笔委托数据中对大单定义与识别为基础,构建多个基于大单行为的alpha因子,分别是大单买入占比、早盘大单买入占比、大单涨跌幅和早盘大单涨跌幅,并对这些因子的选股效果及稳健性进行系统验证。

核心论点
  • 大单成交背后的资金实力更强,具备信息优势,跟踪大单买卖方向及其对股价的推动可挖掘新的alpha因子。

- 由于沪深两市委托明细数据覆盖差异,采用逐笔成交委托单号合成订单成交金额划分大小单,确定交易日内成交金额最大的5%订单为大单。
  • 大单买入占比及早盘大单买入占比因子表现优于卖出占比,且早盘数据的alpha效果更好;

- 大单涨跌幅同样具有动量效应,且早盘因子表现更佳;
  • 因子的表现对于大单阈值划分不敏感,因子存在较好稳定性和较低换手率下的有效性;

- 多数大单因子与传统大类因子相关性低,完全补充反转因子,展示独立的动量特质,且部分因子偏好波动率低流动性差的股票。

基于以上,报告表明该系列大单因子有效且稳定,是具有实际操作潜力的量化alpha因子[page::0, 2, 3, 5, 11]。

---

2. 逐节深度解读



2.1 数据说明



2.1.1 大单的识别


  • 论点:大单反映资金实力强劲的投资者意图,这些投资者具有信息优势。

- 数据特点
- A股L2级别逐笔委托和逐笔成交数据详细记录了订单金额及行为。
- 上交所历史委托明细覆盖不足,采用逐笔成交的委托单号汇总成交金额替代实际订单金额,虽然受撤单等因素影响,存在一定偏差,但能在相当程度反映资金量的大小。
  • 大单划分方法

- 按每日每只股票订单成交金额排序,取最大的5%订单为大单。该比例的订单交易金额累计占46.3%,平均成交金额门槛约12.3万元。
- 虽然近年来大单金额门槛有所下降,主要因拆单行为增加,但大单累计金额占比稳定,表明大单拆单后仍旧保持其“大单”特质。
  • 图1通过20天滚动数据展示不同百分位订单成交金额及累计占比趋势,反映大单金额与占比稳定性[page::2]。


2.1.2 因子测试说明


  • 由于alpha因子依赖于日内数据,实际因子值采用过去20交易日的均值进行平滑,以降低日内噪声。

- 测试周期为2013年末至2021年9月底,覆盖沪深两市的沪深300、中证500等不同市场样本。
  • 评估指标:RankIC(月度秩相关系数)与多空组合年化收益及风险指标,如夏普率[page::3]。


2.2 大单买入占比



定义


  • 汇总同一买卖委托单号内所有成交金额;

- 使用所有订单中前5%成交金额作为大单划分门槛;
  • 计算当日大买单成交总金额占所有大单成交金额之比,即为大单买入占比;

- 同时计算上午10点前的早盘大单买入占比;
  • 采用20日均值为因子输入。


表现


  • 大盘指数样本(如沪深300)中,早盘大单买入占比的RankIC均值较大单买入占比更高(7.33% vs 5.51%),多空组合年化收益更优(25.4% vs 20.12%);

- 小市值样本中因子表现较弱,说明资金实力大单对大盘股影响更显著;
  • 大单买入占比的top组合中收益率异常偏低现象在早盘因子中有所缓解,说明早盘大单信号更精准;

- 因子时序稳定,近两年未出现显著衰退[page::3, 4]。

2.3 大单涨跌幅



定义


  • 每笔成交定位主动订单(时间靠后的委托单);

- 计算该笔成交的对数价格变动;
  • 汇总所有由大单驱动的成交的价格变动,获得大单涨跌幅;

- 同样计算上午10点前的早盘大单涨跌幅;
  • 因子取20日均值平滑。


表现


  • 与买入占比因子类似,早盘大单涨跌幅的alpha表现优于全天大单涨跌幅;

- 秩相关系数均有较高的正值,表现出动量特征,非传统分钟线大单反转的反向表现;
  • 多空组合年化收益较好,最大回撤集中在2019年初,表明因子面临市场极端事件敏感[page::5, 6]。


---

3. 图表深度解读



图1:A股订单已成交金额分布(20天滚动)


  • 横跨2013末至2021年中,展示不同订单规模分位数的成交金额及其累计占比。

- 前1%订单金额波动较大,超过37万元峰值;
  • 前5%订单金额门槛明显下降(当下约12.3万元);

- 累计成交金额占比基本保持稳定,前5%订单累计占比约46.3%,说明拆单未改变资金实力集中度。
  • 该图为大单定义合理性和稳定性的关键视觉佐证[page::2]。


图2和图3:大单买入占比和早盘大单买入占比各样本空间RankIC与年化收益


  • 表格显示沪深300样本中因子月度均值RankIC达5.51%-7.33%,而中证全指仅约1.08%-3.27%,显示大盘股因子表现明显更好;

- 多空组合年化收益率差异明显,早盘因子高达25%左右,凸显早盘大单交易的重要性;
  • 夏普率均在1以上,风险调整后收益稳健;

- 图4、图5的中证800分组年化收益柱状图显示高分组(top decile)收益持续领先,月度RankIC序列平稳,净值曲线单边向上,回撤相对有限,充分展示因子有效性[page::4]。

图6和图7:大单涨跌幅与早盘大单涨跌幅多样本空间表现


  • 各种指数样本月度RankIC均在5%-8%以上,早盘数据的因子更优;

- 多空组合收益率年化达20%-30%区间,早盘因子表现特别突出;
  • 最大回撤均发生于2019年初市场大幅回调;

- 分组收益梯度明显,多头端显著超额收益清晰[page::6]。

图10、11:不同大单阈值(1%、5%、10%)因子表现对比


  • 无论为1%(极大单)、5%(基准大单)、10%,因子主要指标如RankIC、年化收益差异不大;

- 体现因子稳健性,5%阈值兼顾标的覆盖和资金实力区分合理[page::7]。

图12、13:不同平滑周期(月、3月、12月)表现与换手率比较


  • 换手率随平滑周期增大明显降低(月度约70%,12月约20%),适合不同交易频率需求;

- 12个月平滑因子依旧保持双位数以上年化收益和正RankIC,表明长期稳定性;
  • 夏普率及胜率随平滑周期延长略有下降,平衡收益稳定性与交易开销[page::8]。


图14、15、16:因子相关性分析


  • 与传统大类基本面因子相关性极低,尤其大单买入占比与成长、价值等因子相关系数在0.1-0.3左右。

- 大单买入占比与反转因子呈显著负相关(接近-0.9),显示其动量特征;
  • 大单涨跌幅因子与流动性、低波动因子有较高正相关(约0.4-0.6),表明偏好流动性差低波股票;

- 与日内常见量价因子相关亦较弱,显示因子信息具有较好独立性,为因子库有效补充[page::9, 10]。

---

4. 估值分析


  • 本报告未直接开展公司估值分析,因子以量化选股模型为主,未涉及DCF、市盈率等传统估值方法。

- 所有因子构建均基于逐笔成交及委托数据,侧重于短中期alpha捕捉及收益预测,估值层面不涉及,属于因子策略研究范畴。

---

5. 风险因素评估


  • 量化模型失效风险:因子基于过去数据构建,不排除未来市场结构变化导致alpha失效;

- 市场极端环境冲击:如股市剧烈波动、大事件冲击,模型可能表现异常,收益波动加大;
  • 报告建议持续监控模型表现,适时调整并警惕交易成本与突发风险所致的损失[page::0, 11]。


---

6. 批判性视角与细微差别


  • 虽然大单买入占比及涨跌幅因子表现稳定且丰富,但对小市值股票的alpha表现较弱,可能限制策略的整体适用范围;

- 拆单行为对大单定义的冲击虽被定性分析及图表佐证,但未精确量化拆单对因子纯粹性的影响,可能带来潜在噪声;
  • 因子换手率高问题对于交易成本敏感型策略存在隐患,虽长周期平滑缓解效果较好,短期应用仍需谨慎;

- 因子与传统因子较低相关性彰显有效补充性,但同样提示对投资组合构建时注意组合优化,避免风险积聚;
  • 因子主要基于A股特定逐笔数据,扩展应用到其他市场需谨慎。


---

7. 结论性综合



本报告系统构建并检验了基于A股大单行为的四个核心alpha因子:大单买入占比、早盘大单买入占比、大单涨跌幅与早盘大单涨跌幅。关键成果及洞察包括:
  • 大单定义科学且稳定:基于逐笔成交委托单号划分大单,以成交金额最大5%订单为阈值,具较高覆盖率和稳定资金量代表性;

- 早盘信号重要性突出:早盘大单买入占比与大单涨跌幅的因子表现均优于全天数据,早盘大单买卖方向蕴含更多alpha信息;
  • 因子表现稳健且有效

- 在沪深300等大盘股池中表现尤为突出,单月RankIC多达7%以上,年化多空组合收益率可达25%,夏普率超过1.5;
- 因子维持多年的稳定性与较低的回撤率,说明不显著衰减,适合量化实操;
  • 因子具备动量与流动性特征,且与传统因子相关性低,可作为组合中的有效补充,增加投资组合多元性和收益弹性;

- 稳健性较强:因子对大单阈值敏感度低,适用多种划分标准;不同平滑周期下换手率和收益率权衡良好,长期平滑依然保持显著alpha;
  • 存在风险提示:量化因子可能失效,特别在极端市场情境下表现可能恶化,需要持续监控与动态优化[page::0-11]。


综上,报告提供了一个基于微观交易数据、兼顾数据覆盖与选股效力的成熟alpha因子构建框架,对A股量化策略研究者及实操者具有较大指导价值和应用潜力。

---

主要图表展示


  • 图1:A股订单成交金额分布(20天滚动)体现大单界限与资金实力的时间序列稳定性


  • 图4:大单买入占比在中证800中分组收益表现多空组合净值增长趋势


  • 图5:早盘大单买入占比对应多空组合净值及月度RankIC序列,展示更佳早盘因子表现


  • 图8:大单涨跌幅在中证800中分组收益及净值曲线,清晰的动量风格体现


  • 图9:早盘大单涨跌幅多空组合净值上行趋势及因子稳定表现



---

总结



东方证券团队的本报告基于微观逐笔成交数据创新构建大单相关alpha因子,以科学方法定义大单、验证早盘信号的重要性及因子稳健性,并通过多层次的统计指标与实证测试系统呈现了大单买卖行为对于A股选股的有效引导作用。该因子体系既填补了日内alpha因子领域的空白,又为量化投资者提供了较强的alpha来源和策略优化方向,具有实际研究和实操价值,同时提示了模型风险与市场适用性的注意事项。

---

[全部内容均基于报告内容,所有关键论据均附带页码溯源标记。]

报告