扎堆效应的识别:以股东户数变动为例 ——开源量化评论(66)
创建于 更新于
摘要
本报告基于A股股东户数信息披露的三个阶段演变,提出了股东户数变动(SNC)和人均持股占比变动(PCRC)两个因子,采用间隔多期选取及时序标准化处理,有效避免数据静止导致分组失效问题。PCRC因子在中证1000等小市值指数表现最佳,年化超额收益可达9.08%,且稳定性较优。不同披露频率的数据域下,因子表现存在显著差异,高披露频率组效果更佳。报告还探讨了约束优化增强投资组合的实现方式及相关风险提示,为选股提供了新型量化因子视角[page::0][page::2][page::4][page::7][page::8][page::10][page::11]
速读内容
股东户数信息披露分阶段演变 [page::2][page::3]

- A股股东户数信息披露经历低频(1992-2002)、定期财报(2002-2012)、高频互动平台(2012年至今)三个阶段。
- 尽管整体披露频率提升,但多数公司仍以定期财报为主,滚动12个月内披露多于4次的公司比例约为50%。
股东户数变动因子(SNC)表现分析 [page::4][page::5]

| 分组 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|------|------------|------------|------------|----------|--------|
| 0 | -0.7% | 29.2% | -0.023 | -60.7% | 48.9% |
| 1 | 5.9% | 28.9% | 0.203 | -53.2% | 52.1% |
| 2 | 7.4% | 28.5% | 0.259 | -52.3% | 53.2% |
| 3 | 10.0% | 27.6% | 0.361 | -42.4% | 54.3% |
| 4 | 13.4% | 27.4% | 0.487 | -39.5% | 58.5% |
| 多空对冲 | 13.4% | 5.4% | 2.501 | -3.9% | 79.8% |
- SNC因子多空对冲显示高胜率约80%,年化收益率达13.4%,最大回撤低,表现稳健。
人均持股占比变动因子(PCRC)及参数调优 [page::5][page::6][page::7]

| 分组 | 年化收益率 | 年化波动率 | 收益波动比 最大回撤 | 胜率 |
|------|------------|------------|----------------------|--------|
| 0 | 0.1% | 29.0% | 0.004 -58.5% | 48.9% |
| 1 | 5.1% | 29.0% | 0.175 -55.8% | 52.1% |
| 2 | 6.7% | 28.6% | 0.233 -54.1% | 50.0% |
| 3 | 10.0% | 27.5% | 0.362 -41.9% | 53.2% |
| 4 | 14.1% | 27.5% | 0.512 -37.8% | 60.6% |
| 多空对冲 | 13.3% | 5.1% | 2.613 -2.9% | 77.7% |
- PCRC因子回撤控制更优,最大回撤-2.9%,收益波动比更高。
- 最优参数为选取间隔4个月,滚动窗口9期,显著性最高,RankIC达5.79%。调参后因子区分度和收益均有提升。


宽基指数中PCRC因子增强表现 [page::8][page::9]



| 指数 | 组别 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|-----------|--------|------------|------------|------------|----------|--------|
| 沪深300 | 增强组 | 4.14% | 21.12% | 0.196 | -37.66% | 57.45% |
| | 基准组 | -0.09% | 21.17% | -0.004 | -40.56% | 56.38% |
| | 对冲组 | 4.18% | 3.19% | 1.311 | -4.00% | 61.70% |
| 中证500 | 增强组 | 5.84% | 26.68% | 0.219 | -46.09% | 59.57% |
| | 基准组 | 1.12% | 25.61% | 0.044 | -58.18% | 50.00% |
| | 对冲组 | 4.83% | 5.04% | 0.959 | -7.87% | 57.45% |
| 中证1000 | 增强组 | 9.61% | 31.28% | 0.307 | -53.06% | 53.19% |
| | 基准组 | 0.55% | 30.48% | 0.018 | -66.56% | 47.87% |
| | 对冲组 | 9.08% | 6.02% | 1.508 | -6.22% | 65.96% |
| 国证2000 | 增强组 | 10.47% | 30.83% | 0.340 | -47.51% | 54.26% |
| | 基准组 | 4.34% | 30.18% | 0.144 | -59.33% | |
| | 对冲组 | 5.95% | 5.20% | 1.145 | -5.35% | 64.89% |
- PCRC因子在中证1000指数选股显著性最强,增强收益和稳定性最高。
- 沪深300中表现相对较弱,且市场情绪亢奋期间可能出现因子失效。
高频披露信息增益与披露频率影响对比 [page::10][page::11]




- 纳入全样本披露数据较单纯定期财报对因子RankIC提升有限(从4.26%提升至4.40%)。
- 高披露频率样本组RankIC达到4.68%,优于低披露组的3.85%。
- 高频披露组多头年化收益率15.2%,多空对冲年化收益率13.8%,分别高出低披露频率约2%和1%。
深度阅读
元数据与概览(引言与报告概览)
本报告标题为《扎堆效应的识别:以股东户数变动为例 ——开源量化评论(66)》,由开源证券金融工程研究团队于2022年11月22日发布。首席分析师为魏建榕,团队包括多位具备证券分析师证书的专业人员。报告主题聚焦于A股市场股东户数的变化信息,试图挖掘股东户数相关因子在选股中的预测能力及其投资价值,探讨“股东扎堆”现象对股票未来表现的影响,并对信息披露频率的高低对因子增强表现的作用加以分析。
报告核心论点为:股东户数的变动,尤其是个人投资者扎堆买入,通常预示着未来股价承压,表现为负向alpha。因此,利用股东户数及其衍生指标构建选股因子,具有稳健的选股能力,能够实现持续的超额收益。报告提出了股东户数变动(SNC)和人均持股占比变动(PCRC)两个核心因子,并对其参数敏感性和在不同股票池上的表现进行了详尽测试。作者通过严谨的实证和多维度分析,强调PCRC因子在中小市值股池(如中证1000指数)中表现最佳。
报告同时警示:该模型基于历史数据,未来可能失效。整体来看,研究团队对股东户数信息的价值持积极乐观态度,推荐重视此类高频与低频结合的因子作为投资模型增强手段。[page::0,2]
逐节深度解读
1. 股东户数信息披露衍化
该章节回顾了A股市场股东户数信息披露的演变历程,划分为三个阶段:
- 低频阶段(1992-2002年):信息披露不完善,股东户数数据缺失严重,披露次数远低于上市公司数量。
- 中频阶段(2002-2012年):股东户数主要通过定期财务报告披露,披露频率与上市公司数量高度匹配,但缺乏第三方辅助平台。
- 高频阶段(2012年至今):伴随深交所互动易(2010年上线)和上交所e互动(2013年上线)平台的推出,股东户数披露逐渐变为不定期高频,及时反映上市公司股东变化。
图1直观显示近年来披露次数大幅上升,至今已远超过同期上市数量(蓝线远高于红线),但图2显示,滚动12个月内披露超过4次的公司仅占整体约50%,且近两年略有下降,表明高频披露仍集中于部分公司。由此推断高频信息虽增多,但披露集中度高,绝大多数公司依旧以低频披露为主。
这种分层披露特征为后续因子构建带来挑战,也指出了数据缺失和时序零值需被合理处理的必要性。[page::2,3]
2. 股东户数相关因子构建
2.1 股东户数变动因子(SNC)
基于最新披露的股东户数信息,构建股东户数变动因子(SNC)。为避免相邻月份数值相同导致的零变动值过多,采用“间隔选取多期”+“时序标准化”处理,滚动窗口内数据经过均值和标准差计算标准化。默认参数为3个月间隔,滚动选取8期(约两年跨度)。
公式详述了因子计算方式,体现了统计标准化的严谨性。筛除上市不足1年的新股、退市停牌股,剔除异常值后实行行业市值中性化处理,保证因子纯净且可用于回测。
实证结果显示该因子表现稳定,测试期内RankIC均值4.5%,RankICIR达2.50,74%的时间段RankIC为正,表现显著优于无效因子。表1数据显示,最高分组年化收益达13.4%,多空对冲年化收益13.4%,最大回撤仅-3.9%,胜率79.8%。图4的多空对冲收益曲线反映因子整体稳健持续增长,分组走势清晰区分,标明选股效能扎实且抗风险能力强。[page::3,4,5]
2.2 人均持股占比变动因子(PCRC)
PCRC因子表达股东户数变化的另一视角,即人均持股比例的时序变动。测试结果表明PCRC与SNC高度相关,但在控制最大回撤方面表现更佳,回撤仅为-2.9%,收益波动比更高达2.6,风险调整后收益优于SNC。分组收益率方面多头端表现更突出,多空对冲收益13.3%,胜率77.7%。
图6展现PCRC因子超额收益趋势稳定,分组之间分化明显,显示该因子兼具收益性和稳定性,为实用的投资策略组成部分。[page::5,6]
2.3 参数敏感性分析:选取间隔与滚动窗口
为优化因子构造参数,分析了数据选取间隔(Gap)和滚动窗口长度(Window)对因子表现的影响。考量股市3-5年周期性波动与数据缺失带来的零值问题,设置Gap为2-6个月,Window为1-5年长度。
测试结果发现:
- 选取间隔较短(Gap<3月)时,较长滚动窗口优;
- 选取间隔较长(Gap>3月)时,滚动窗口不宜过长;
- 综合表现最佳的参数为Gap=4月,Window=9期(近3年),RankIC均值最高达5.79%。
RankICIR最高为Gap=3月,Window=4期,达2.75,表现出较高稳定性。调参后,PCRC因子RankIC微升至4.6%,五分组走势分化更为明显,多头端年化收益提升至14.5%,体现参数优化带来的实质性效益。
图9和图10显示调参后因子在收益水平和分组区分度上的明显改进,增强了策略的可推广性和实战意义。[page::6,7]
3. 股东户数相关因子的增强实践
将PCRC因子应用于主流宽基指数成分股进行选股绩效验证,发现选股效果与股票池市值水平显著相关:
- 在沪深300成分中表现较弱,RankIC均值仅2.19%,稳定性(RankICIR)约0.93。
- 中证1000指数中因子选股显著性最强,RankIC均值4.88%,胜率达66%,年化超额收益9.08%,收益波动比1.508。
- 国证2000指数因子稳定性最佳,RankICIR高达2.59。
图11和图12分别展示了不同指数中因子表现的显著性和稳定性分布,突出中证1000和国证2000的优异表现。
利用约束优化模型对宽基指数进行增强测试,基于PCRC因子暴露度最大化,设定行业偏离、风格暴露、权重区间等多重约束,控制组合跟踪误差。
实测结果表明,增强策略在中证1000指数表现最佳,累计超额收益与稳定性均优于其他指数。2014年底至2015年中,由于市场极度亢奋,强化的PCRC因子出现阶段性负超额,表现出个人投资者集体追涨的复杂市场反馈。
在大市值蓝筹股较多的沪深300指数中,PCRC因子所体现的超额收益较小,且最大回撤有限,在指数配置策略中体现一定防御性特征。[page::7,8,9]
表3细读:
- 沪深300增强组年化收益4.14%,基准略负,超额收益最大回撤-37.66%。
- 中证500增强组年化收益5.84%,基准1.12%,超额收益回撤-46.09%。
- 中证1000增强组9.61%,基准0.55%,超额回撤较高但胜率表现良好。
- 国证2000增强组10.47%,基准4.34%,超额表现稳定。
数据充分说明PCRC因子在中小市值市场有更强的增强潜力。[page::9]
4. 拓展讨论:额外披露信息的增益
为探寻高频股东户数信息对选股表现的增益,报告从两个维度进行比较:
- 定期财报信息与全样本(含互动平台数据)对比:
构建的PCRC因子在仅靠财报数据情况下表现已然优异,纳入互动平台额外披露信息带来的RankIC微幅提升(从4.26%至4.40%),且RankICIR维持不变,说明高频数据主要是锦上添花,增益有限。
- 高披露频率与低披露频率样本对比:
按滚动12个月内披露次数≥4次定义高频样本,发现高披露组PCRC因子显著性更强(RankIC均值4.68% vs. 3.85%),多头端及对冲端的收益表现均优于低频组。高频组多头年化收益15.2%,多空对冲13.8%,均显著超过低频组,表明披露积极的上市公司,其股东户数变动信息反映更有效,投资价值更大。
图17-20直观呈现了以上对比,验证了高频披露信息对选股策略的边际贡献,尽管幅度不算巨大,但具备稳定的增益效应。[page::10,11]
5. 风险提示
报告明确提示因子模型基于历史统计特征,未来存在失效的可能性,投资者应审慎使用,不应盲目依赖。
图表深度解读
- 图1展示上市公司股东信息披露次数与上市数量的趋势对比。披露次数自2010年以来逐步快速增长,尤其得益于互动平台的发展,披露频率显著超过公司数量,表现出高频披露的兴起。
- 图2绘制了过去12个月内各披露次数对应的上市公司累计数量,验证了较高披露频率的上市公司数量明显少于整体,且披露频率超4次的公司不超过总数的50%。此图支持低频披露仍占主导,数据缺失和披露积极性差异显著。
- 图3和图5分别展现SNC和PCRC因子的时序RankIC表现,蓝色柱状反映因子每期排序相关系数表现,红线为累计RankIC,均值及整体趋势向上,体现因子长期有效性。
- 图4和图6为多空对冲组合累计收益走势图,灰色阴影为对冲组合基准,颜色曲线为各分组表现,收益分组清晰区分,多头端稳定强劲,回撤受控,验证了分组策略的稳健性。
- 图7和图8为参数选取的RankIC和RankICIR矩阵,横纵分别为选取间隔和滚动窗口长度,不同参数组合对应因子显著性与稳定性,提供策略调优依据。
- 图9和图10为调参后PCRC因子RankIC提升及不同分组收益曲线,显示调参收获收益提升及高区分度。
- 图11和图12比较不同宽基指数中PCRC因子RankIC和RankICIR,突出中证1000显著性和国证2000稳定性优。
- 图13至图16描绘PCRC因子在沪深300、中证500、中证1000和国证2000的超额收益走势,确认中证1000表现卓越,沪深300表现相对弱。
- 图17和图18展示定期财报与全样本覆盖数据对比,RankIC轻微上升与收益提升,印证高频数据虽有增益但幅度有限。
- 图19和图20对比高频与低频披露组RankIC及收益情况,高频披露组明显优于低频。
综上,所有图表相辅相成,系统验证了股东户数相关因子的有效性与稳定性,体现出较强的实证逻辑和数据基础。[page::3,4,5,6,7,8,9,10,11]
估值分析
报告未涉及传统意义上的企业估值或个股目标价设定,研究核心关注金融工程领域的因子构建及投资回测分析,故无DCF、PE等估值方法陈述。该报告重点在量化因子质量与股票池增强效果评估,设计精细的参数敏感性分析和实际指数增强测试,用于投资策略优化,不直接针对单一公司估值。[page::0-11]
风险因素评估
报告特别强调:
- 模型基于历史统计回测数据,具有一定的滞后性和假设限制。
- 市场环境变化可能导致历史规律失效,尤其在行情极端波动阶段,如2014末至2015年上半年,因子表现偏离常态。
- 股东户数披露数据不均衡,部分公司披露频率低或信息缺失,可能影响因子计算的完整性和有效性。
- 投资者行为异质性及市场结构的动态变化可能削弱因子稳定性。
风险提示清晰且中肯,无过度承诺,提示投资者需结合多因子与市场动态加以使用。[page::0,11]
批判性视角与细微差别
- 报告对于股东户数变动与超额收益的负相关关系呈现了积极结论,但也坦承该因子在大市值蓝筹股中表现较弱,显示策略的适用范围有限,暗含中小市值市场信息更充分。
- 高频数据的增益被证明存在,但幅度有限,报告没有忽视高频信息噪声的可能性,说明因子改进空间和局限性。
- 参数调优部分虽提升因子表现,但部分组合返回结果出现“空白无解”,提示数据缺失和分组挑选存在一定技术限制,可能限制因子普适性。
- 报告未涉及因子与其他经典因子(如价值、动量等)合并后的交互效应,未来研究可进一步探索。
- 研究未对因子实际投资策略实施成本、交易滑点等操作性因素做深入探讨,应用时需加以考量。
整体来看,报告保持谨慎科学态度,避免绝对化判断,体现了较高的专业性和学术规范。[page::0-11]
结论性综合
本报告系统地挖掘了A股市场上市公司股东户数信息披露的演进历程,揭示股东户数特别是个人投资者扎堆行为与股票未来收益的负相关关系。通过构建股东户数变动(SNC)和人均持股占比变动(PCRC)两个高频量化因子,结合严格的数据预处理及时序标准化计算,实现了稳健的选股因子表现。
实证显示,PCRC因子多空对冲组合年化收益率超过13%,最大回撤仅约3%,胜率近80%,表现出良好的风险调整收益能力。参数调优进一步提升了因子显著性与稳定性,特别是在中小市值宽基指数(如中证1000、国证2000)中,该因子表现优越,年化超额收益高达9%以上,且收益走势平稳。沪深300等大盘股池中因子表现相对逊色,显示因子适用性与市值结构密切相关。
高频披露数据虽带来信息增益,但整体幅度有限,且披露积极的上市公司股东户数变动信息更具预测价值。图表和数据全面佐证了因子构建合理、效果显著、应用场景明晰。
报告同时强调模型基于历史数据,存在失效风险,投资者应结合实际审慎判断,注意操作细节和风险控制。报告理论与实证兼备,框架严谨,数据详实,是对股东户数信息在量化选股领域应用的深刻而全面的探索。
总之,基于股东户数变动的量化因子为A股投资提供了一条有效捕捉市场中个人投资者行为的重要路径,特别适合应用于中小市值股票池,兼具稳健性与超额收益性,值得投资者关注与践行。[page::0-11]
---
(注:所有论述均基于报告全文内容,页码标识详见括号)