选股因子系列研究(七十二)——大单的精细化处理与大单因子重构
创建于 更新于
摘要
本报告基于对逐笔成交数据买卖单号的还原,针对大单界定偏度明显的问题,提出对数调整及多日滚动窗口筛选大单的新方法,构建了大单净买入占比与强度因子。回测显示,两类因子剔除常规低频因子影响后,依然具有显著且稳健的月度选股能力,月均IC达0.03~0.05,年化ICIR超过3.5,月度胜率超80%,部分超90%。在沪深300及中证500不同选股空间均表现优异,且对大单筛选阈值参数敏感性较低,阈值设在“均值+0~1倍标准差”区间效果较好。引入绝对金额阈值在标准差阈值较低时能改善因子表现。将大单因子纳入多因子模型能有效提升沪深300增强组合收益表现。市场流动性、系统性风险及政策变化或影响策略表现 [page::0][page::4][page::6][page::8][page::9][page::10][page::12][page::13]
速读内容
- 大单因子改进方法:针对股票买卖单分布偏度大影响大单阈值计算,采用买卖单成交额对数调整后,结合多日滚动成交分布,用均值加1倍标准差作为大单筛选阈值,更科学地界定大单,提升选股逻辑性和稳定性 [page::4]

- 大单因子构建:构造开盘后30分钟及全天时间段的大单买入占比和净买入占比因子,以及买入强度和净买入强度因子,刻画大单买入行为的强度和方向 [page::5]
- 因子选股能力及统计表现(以正交后数据为主):
- 大单净买入占比和强度因子月均IC为0.03~0.05,年化ICIR均超过3.5,月度胜率超过80%,部分达到90%。
- 因子多空差收益约1.3%~1.8%。
- 近七年期间,因子表现稳健,2018年略显弱势,但开盘后大单净买入占比仍有13%的多空收益表现。




- 回归法验证:因子月均溢价在0.35%~0.5%,大单净买入占比因子累计净值稳步上升,开盘后因子收益表现更突出 [page::7]


- 因子相关性分析:大单净买入因子与股票前一个月涨幅高度相关,且开盘后大单净买入因子与盈利因子和账面市值比(BP)等存在一定IC序列相关性,体现了动量和盈利风格属性 [page::7][page::8]
- 不同选股空间表现:大单因子在全市场、沪深300、中证500等多个股票池均表现出显著选股能力,尤其是在沪深300指数内开盘后大单净买入占比及强度因子表现更强,个别年份多头组合年化超额收益达20%以上 [page::8]
- 年度多头空头超额收益(沪深300,2014-2020):

- 多头年度超额收益最高达25.7%(2020年)
- 多空收益差均超过40%
- 改进前后因子表现对比:改进方法(对数调整+多日滚动+合理标准差阈值)大幅提升了选股能力和稳定性,特别是在标准差阈值为1倍时表现更稳定 [page::9]
- 大单筛选阈值敏感性测试:
- 筛选阈值在“均值”到“均值+1倍标准差”区间时,因子表现稳定且显著。
- 阈值过高导致因子失效,阈值过低表现亦下降。
- 绝对金额阈值的加入在低标准差阈值时改善因子,过高绝对金额阈值反而削弱选股效果,适度设置即可 [page::10][page::11]
- 组合实证:
- 采用大单净买入占比和强度因子构建的多因子模型加入沪深300增强组合后,组合在2016-2020年表现优于基础模型,超额收益增加,2020年提升尤为显著。
- 中证500增强组合中大单因子贡献不如沪深300显著,但2019年及2020年超额收益有所提升。


- 风险提示:策略易受市场系统性风险、资产流动性及政策变化影响,投资需谨慎 [page::0][page::13]
深度阅读
选股因子系列研究(七十二)——大单的精细化处理与大单因子重构
分析师:冯佳睿、袁林青
发布机构:海通证券研究所
日期:报告未明确显示具体日期,数据回测区间覆盖2014年至2020年
主题:针对股票买卖单中的大单因子进行改进,提升大单因子的选股能力和实用性
---
一、元数据与概览
本报告为海通证券研究所发布的系列专题研究报告第七十二篇,聚焦于股票交易中“大单因子”的精细化处理与重构。报告的核心论点是通过改进大单的界定方法,从而提升大单因子的月度选股能力,具有较强的实证支撑和系统的因子回测验证。报告提出并验证了多日滚动窗口与对买卖单成交额数据做对数调整相结合的大单筛选方法,从而得到更稳定且具有逻辑性的筛选阈值。通过该方法构建的大单净买入因子在不同回测维度均展现了较佳表现,能够有效辅助指数增强策略的构建。作者推荐将大单因子纳入沪深300及中证500的多因子模型中应用,强调其中沪深300指数增强效果更为显著。风险提示主要包含市场系统性风险、流动性风险以及政策变动风险[page::0,4,5,13]。
---
二、逐节深度解读
1. 大单因子的改进
- 关键论点:前期因子定义基于股票买卖单成交额的N倍标准差界定大单,但该方法未充分考虑买卖单分布的强偏度,导致标准差受极端值影响较大,筛选阈值稳定性不足。
- 改进措施:采用对数变换减少偏度影响,配合多日滚动窗口计算均值加标准差阈值定义大单,确保界定更符合逻辑且稳定。
- 数据与图表:图1为某股票买卖单分布(对数调整前),高度偏态且极度右偏;图2为对数调整后,分布近似正态,极端值对标准差影响减弱。该变化为后续阈值设定提供了统计学上的合理基础[page::4]。
- 数学表达:报告提供了大单买入占比、大单净买入占比及其强度的计算公式,强调大单净买入因子不只是买入量的衡量,也涵盖净买入力度(均值除以标准差),反映资金流入的稳健性[page::4,5]。
2. 因子选股能力回测
2.1 月度选股能力
- 关键论点:基于2014年数据,构建的多种大单因子(包括全天及开盘后30分钟数据)均表现出与未来一个月股票收益的正相关性。
- 回测效果:未剔除其他因子影响时,因子月均IC在0.03~0.05之间,年化ICIR超过3.5,月度胜率超过80%甚至90%,多空收益差达1.3%-1.8%。正交后(剔除行业、市值、估值等六个常规因子影响)表现更优,说明大单因子具有独立的Alpha价值。
- 图表说明:图3和图4展示大单净买入占比及强度因子分10组月度超额收益排序,曲线呈明显上升趋势,表明更高因子组获得更好收益。图5和图6中,因子多空相对强弱稳健增长,体现了因子的收益稳定性和长期有效性[page::5,6]。
- 年度表现差异:表2指出,2018年表现回落,但开盘后大单净买入占比表现相对较好,仍取得13%年化多空收益,显示该阶段仍有一定Alpha潜力[page::6]。
2.2 因子相关性
- 关键论点:大单因子与传统低频因子如市值、估值等虽有一定相关性,但仍保持独立的选股能力。尤其与前一月涨幅的相关性较强,表明大单因子本质上与动量属性有关。
- 数据支持:表4显示大单净买入因子与股票前一月涨幅正相关,且表5的正交后IC序列相关性验证了开盘后大单因子与盈利因子、账面市值因子仍有较明显联系[page::7,8]。
2.3 不同选股空间表现
- 关键论点:大单净买入因子不仅在全市场有效,在沪深300、中证500等指数范围内同样保持显著选股能力,且在沪深300表现更为突出。
- 实证细节:表6显示大单净买入因子的月均IC在沪深300中高于全市场,特别是开盘后大单净买入因子。图9详细展示了该因子在沪深300内2019、2020年多头组合超额收益分别达到22.5%和25.7%,且多空收益差超过40%,证明选股收益区分度极高[page::8,9]。
2.4 改进前后因子效力对比
- 论点:改进后的方法使得不同标准差阈值下因子的选股能力更稳健,尤其在1倍标准差阈值时,改进前后差异显著,改进后更显优异且稳健。
- 表7数据:显示在0倍阈值下差异小,1倍标准差阈值时表现提升明显,改进后因子年化ICIR和多头收益都得到增强[page::9]。
3. 大单筛选阈值敏感性分析
- 关键论点:大单筛选阈值的设定对因子表现有较大影响,阈值过高或过低都会导致选股能力下降。
- 细节说明:阈值从“均值+1倍标准差”升至+3倍,选股能力明显下降,原因是筛选标准过严,无法筛选出足够多的大单,区分度降低。降至“均值-1倍标准差”时,能力同样减弱,但阈值从“均值”降至此区间多为稳定或微增。最佳区间为“均值”至“均值+1倍标准差”。
- 绝对金额阈值引入:为避免某些成交额较小股票因高偏度仍界定出伪大单,报告建议结合绝对金额阈值形成“双重筛选标准”,使大单定义更具稳健性。
- 表9结果:绝对金额阈值在标准差阈值较低时(如“均值-1倍标准差”)显著提升选股能力,绝对金额过高(5万、10万以上)则可能屏蔽标准差阈值,造成选股能力下降。绝对金额阈值并非必须,可视依据实际需求取舍[page::10,11]。
4. 组合表现对比
4.1 沪深300增强组合
- 组合构建:将开盘后大单净买入占比与强度因子纳入多因子模型,构建沪深300增强组合。
- 表现改善:表10显示加入大单因子后,2016、2017、2018、2020年超额收益均有提升,特别是2020年表现尤为突出。
- 图10解读:组合净值相对沪深300指数显著提升,因子累积收益线走高,说明该因子有效增强组合收益和选股能力[page::11,12]。
4.2 中证500增强组合
- 表现表现:整体收益提升不明显,但2019和2020年加入开盘后大单净买入强度因子后,超额收益表现有所改善。
- 图11说明:组合净值增长较为一致,但在后期体现出一定的优势,显示因子在中证500范围内效果较沪深300弱,但仍具备辅助作用[page::12,13]。
5. 总结
- 本文基于对大单买卖单成交数据的多日滚动样本及对数转换处理,重构了大单筛选标准,提升了阈值的统计合理性及因子的稳定性和选股能力。
- 构建的大单净买入占比及强度因子具有显著的月度选股能力和持续性收益表现,且在多个市场范围和组合策略中表现良好。
- 大单筛选阈值N的合理取值为0~2,绝对金额阈值的引入可以改善部分极端情况下的因子表现,但非必须。
- 将大单因子纳入多因子模型,有效提升沪深300及中证500指数增强组合表现,尤其对沪深300贡献更大。
- 报告提示风险包括市场系统性风险、流动性风险和政策风险[page::13]。
---
三、图表深度解读
图1与图2(买卖单分布对比)
- 图1显示原始买卖单成交额分布极度右偏,多数值接近0,极端大单导致分布不对称。图2对成交额做对数转换后,分布趋于对称,峰值集中,标准差等统计量更加稳定,更适合用来计算基于标准差的大单筛选阈值。此图解说明了大单界定机制的改进方向的合理性和必要性[page::4]。
图3与图4(因子分10组超额收益)
- 图3为大单净买入占比因子,图4为大单净买入强度因子,各自按分值从低到高分成10组,显示越高组别的超额收益越好,且开盘后因子表现略优于全天因子。曲线两端分化明显,表明大单因子具有较强的区分度和选股信号强度[page::6]。
图5与图6(因子多空相对强弱)
- 这两幅时间序列图显示大单净买入因子及开盘后大单因子自2014年以来均稳步攀升,累计收益稳健增长,表明大单买入行为所反映的资金流入优势持续有效[page::6]。
图7与图8(因子累计净值)
- 通过回归检验得出的因子溢价计算的累计净值趋势图,反映因子在剔除常规低频因子效应后依然拥有独立Alpha。开盘后因子累积收益更高,说明市场开盘时段大单交易信息价值更大[page::7]。
图9(沪深300内开盘后大单净买入占比因子年度多空收益)
- 条形图展现2014年至2020年不同时期多头和空头组合的超额收益,2019、2020年多头收益显著高于空头收益,超额收益分别约22.5%和25.7%,多空收益差大于40%。说明该因子特别在近两年沪深300内表现极为强势,且具有明显盈利能力[page::9]。
图10(沪深300增强组合净值)
- 三条线分别为基础模型及包含开盘后大单净买入占比和强度因子的增强模型,后两者累计收益明显优于基础模型,尤以包含占比因子的组合最优,显示大单因子显著提升了指数增强组合的风险调整后收益[page::12]。
图11(中证500增强组合净值)
- 同样三条净值线显示中证500增强组合加入大单因子后提升有限,尤其累计收益差距较沪深300小,体现大单因子在中小盘市场的表现较沪深300逊色,但在晚近年份仍有提升效果[page::13]。
---
四、估值分析
本报告未涉及传统意义上的估值方法(如DCF、市盈率等),因其专注于量化因子的构建与回测,而非单一公司估值。因子绩效以信息系数(IC)、信息比率(ICIR)、多空组合收益等统计指标衡量。正交处理及多元回归体现了对因子定价能力的严谨验证。
---
五、风险因素评估
报告指出三大风险:
- 市场系统性风险:整体市场波动或趋势下跌将影响所有策略表现,包括大单因子策略。
- 资产流动性风险:大单在流动性不足时可能影响成交成本及因子信号可靠性。
- 政策变动风险:宏观及行业政策调整带来的影响可能导致因子表现异常或失效。
报告未详述具体缓解方法,仅提示投资者关注风险[page::0,13]。
---
六、批判性视角与细微差别
- 报告充分基于数据和实证展开,逻辑严密且回测丰富,体现专业研究深度。
- 但绝对金额阈值引入虽能改善部分场景,却增加了参数设定复杂度,实际操作中需权衡简洁与精准。
- 因子与动量因子存在高度相关,应注意在多因子框架中可能存在的信息重叠风险。
- 在不同选股空间表现不一,部分年份出现表现下滑,显示因子非在所有市况下均有效,需动态调整。
- 报告重点在沪深300表现,未涉及更细分行业或小盘股票表现,后续研究可扩展。
---
七、结论性综合
该报告系统且详尽地分析了基于买卖单数据构建的大单因子,提出了对原有筛选方法的合理改进(主要是对数调整及多日滚动统计),有效解决了大单筛选阈值计算中偏态分布带来的误差。回测结果表明改进后的大单净买入因子能显著增强月度选股能力,表现稳定且具备较强收益预测力。详实的图表和表格充分展示了因子的收益分布、多空表现、与传统因子的相关性及组合回测效果。尤其是因子在沪深300指数范围内的突出表现,验证了其在主流蓝筹股池选股中的价值。由于大单因子捕捉的是市场中资金面流向和动量特征,该因子与盈利、账面市值因子等仍有一定相关性,适宜纳入多因子模型优化。大单因子也已被实证证实能提升沪深300及中证500指数增强组合的超额收益。
总的来说,报告立场积极,明确推荐使用改进后的大单因子作为指数增强及量化选股的重要工具,且提供了风险提示及参数敏感性分析,为实际应用提供了科学指导和选股策略的结构性优化方案[page::0-13]。
---
(注:所有依据均详见[page::0-13]相关内容,图片均已引用并匹配页码)
附:主要图表引用(部分)
- 图1、图2:买卖单成交额分布对比,体现偏度调整必要性[page::4]
- 图3-6:大单因子多空收益表现及趋势图,支持因子有效性[page::6]
- 图7、8:因子净值走势,验证因子的独立Alpha价值[page::7]
- 图9:沪深300选股空间内年度多头收益高达25.7%[page::9]
- 图10、11:指数增强组合净值,证实因子实用性[page::12-13]
---
综上,本文对大单因子展开了深入改进和实证验证,提供了量化投资领域提升选股因子能力的专业案例,具有较高的理论和实践价值。