扎堆效应的识别:以股东户数变动为例 | 开源金工
创建于 更新于
摘要
本报告基于A股全市场股东户数信息,提出隔季选取多期数据并时序标准化的新型因子构建方法,重点构建股东户数变动(SNC)和人均持股占比变动(PCRC)因子。测试显示两因子均具备稳定的选股能力,特别是PCRC因子在中证1000等小市值指数中表现优异,年化超额收益达9.08%。此外,报告探讨了股东信息披露频率对因子有效性的影响,发现高披露频率样本和加入投资者互动平台增量信息均能带来一定的选股增益,但幅度有限。整体结论表明,投资者非理性扎堆行为所形成的股东户数变动信息是有效的选股alpha来源,为增强型量化策略提供了实证支持 [page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9]
速读内容
- 股东户数信息披露经历低、中、高三个阶段,投资者互动平台的搭建显著提升了披露频率与及时性,但高频披露集中于少数股票,近半数股票披露次数有限 [page::0][page::1][page::2]


- 股东户数变动因子(SNC)通过间隔选取+时序标准化处理解决了数据零值过多问题。SNC因子在全市场测试中表现优异,RankIC均值4.5%,多空对冲年化收益率13.4%,最大回撤仅-3.9%,胜率约80% [page::3][page::4]


| 分组 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|------------|------------|------------|------------|----------|--------|
| 0 | -0.7% | 29.2% | -0.023 | -60.7% | 48.9% |
| 1 | 5.9% | 28.9% | 0.203 | -53.2% | 52.1% |
| 2 | 7.4% | 28.5% | 0.259 | -52.3% | 53.2% |
| 3 | 10.0% | 27.6% | 0.361 | -42.4% | 54.3% |
| 4 | 13.4% | 27.4% | 0.487 | -39.5% | 58.5% |
| 多空对冲 | 13.4% | 5.4% | 2.501 | -3.9% | 79.8% |
- 人均持股占比变动因子(PCRC)与SNC高度相关,但表现更加稳健,最大回撤仅-2.9%,收益波动率比2.6,年化多头收益率14.1%,胜率约78%,细化调整参数后PCRC因子进一步优化,年化收益率提升至14.5% [page::4][page::5][page::6]




| 分组 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|------------|------------|------------|------------|----------|--------|
| 0 | 0.1% | 29.0% | 0.004 | -58.5% | 48.9% |
| 1 | 5.1% | 29.0% | 0.175 | -55.8% | 52.1% |
| 2 | 6.7% | 28.6% | 0.233 | -54.1% | 50.0% |
| 3 | 10.0% | 27.5% | 0.362 | -41.9% | 53.2% |
| 4 | 14.1% | 27.5% | 0.512 | -37.8% | 60.6% |
| 多空对冲 | 13.3% | 5.1% | 2.613 | -2.9% | 77.7% |
- PCRC因子参数优化发现:间隔(Gap)每4个月选一次,滚动窗口(Window)9期时显著性最高(RankIC达5.79%),间隔3个月窗口4期时稳定性最高(RankICIR为2.752);参数对因子有效性有显著影响,需要综合选择 [page::5][page::6]
| Gap/Window | 3 | 4 | 5 | 6 |
|------------|---------|---------|---------|---------|
| 3 | 2.25% | 3.22% | 3.36% | 3.66% |
| 4 | 3.05% | 4.02% | 3.85% | 4.19% |
| 5 | 3.50% | 4.09% | 4.03% | 4.30% |
| 6 | 3.85% | 4.34% | 4.27% | 4.39% |
| 7 | 4.10% | 4.38% | 4.55% | |
| 8 | 4.27% | 4.40% | 4.53% | 4.69% |
| 9 | 4.32% | 5.26% | 5.79% | 5.61% |
| Gap/Window | 3 | 4 | 5 | 6 |
|------------|-------|--------|--------|--------|
| 3 | 1.777 | 2.490 | 2.440 | 2.489 |
| 4 | 2.258 | 2.752 | 2.527 | 2.659 |
| 5 | 2.447 | 2.618 | 2.528 | 2.579 |
| 6 | 2.496 | 2.676 | 2.564 | 2.442 |
| 7 | 2.611 | 2.595 | 2.657 | |
| 8 | 2.657 | 2.529 | 2.582 | 2.155 |
| 9 | 2.628 | 2.192 | 1.662 | 1.757 |
- PCRC因子在主流宽基指数中表现存在显著差异,表现与股票池市值规模负相关:中证1000指数(RankIC 4.88%、年化超额收益9.08%)和国证2000指数(RankICIR最高2.59)表现最好,沪深300和中证500表现较弱 [page::6][page::7][page::8]






| 指标组别 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|---------|------------|------------|------------|----------|--------|
| 沪深300增强组 | 4.14% | 21.12% | 0.196 | -37.66% | 57.45% |
| 沪深300基准组 | -0.09% | 21.17% | -0.004 | -40.56% | 56.38% |
| 沪深300对冲组 | 4.18% | 3.19% | 1.311 | -4.00% | 61.70% |
| 中证500增强组 | 5.84% | 26.68% | 0.219 | -46.09% | 59.57% |
| 中证500基准组 | 1.12% | 25.61% | 0.044 | -58.18% | 50.00% |
| 中证500对冲组 | 4.83% | 5.04% | 0.959 | -7.87% | 57.45% |
| 中证1000增强组 | 9.61% | 31.28% | 0.307 | -53.06% | 53.19% |
| 中证1000基准组 | 0.55% | 30.48% | 0.018 | -66.56% | 47.87% |
| 中证1000对冲组 | 9.08% | 6.02% | 1.508 | -6.22% | 65.96% |
| 国证2000增强组 | 10.47% | 30.83% | 0.340 | -47.51% | 54.26% |
| 国证2000基准组 | 4.34% | 30.18% | 0.144 | -59.33% | 48.94% |
| 国证2000对冲组 | 5.95% | 5.20% | 1.145 | -5.35% | 64.89% |
- 额外披露的股东户数信息整体提升了因子表现,但幅度有限:定期财报数据下PCRC因子RankIC为4.26%,纳入全部数据后RankIC提升至4.40%;高频信息更多是锦上添花效应 [page::8][page::9]


- 高披露频率股票样本(滚动12个月披露次数≥4)对应的PCRC因子表现明显优于低披露频率组,RankIC均值达4.67%,多头端年化收益率达到15.2%,对冲端年化收益率约13.8%,优势显著 [page::9]


- 综合来看,投资者的非理性扎堆行为通过股东户数变动信息被提取出来,构成可稳定获取超额收益的选股因子。通过因子调参和股票池选择,可进一步提升因子性能,为量化选股策略提供重要参考 [page::0][page::3][page::5][page::6][page::9]
深度阅读
扎堆效应的识别:以股东户数变动为例——报告详尽分析
---
1. 元数据与报告概览
- 标题:《扎堆效应的识别:以股东户数变动为例 | 开源金工》
- 作者及发布机构:开源证券金融工程首席分析师魏建榕及团队,开源证券金融工程团队,2022年11月22日发布。
- 研究领域:因子量化、另类数据,重点聚焦股东户数变动信息和量化选股因子的研究。
- 核心论点与结论:
- A股市场股东户数信息的披露历经三个阶段(低、中、高),现阶段披露频率虽然整体提升但集中在少数上市公司。
- 基于股东户数变动及人均持股占比变动构建的因子,尤其是PCRC因子,具备较强的选股能力和超额收益稳定性。
- PCRC因子在小市值股票池(如中证1000)表现尤为优异,在沪深300等大市值指数中表现较弱。
- 高频股东户数数据虽然带来选股信息增益,但幅度有限,核心收益来源依旧来自定期财报数据。
- 主要贡献:一方面对股东户数披露行为的演变进行了系统梳理,另一方面通过创新的间隔选取与时序标准化方法构建反映股东户数变动因子,验证其在不同市场环境及指数样本上的表现。同时探讨了披露频率对因子有效性的影响。
---
2. 逐章深度解读
2.1 股东户数信息披露衍化阶段
- 内容总结:
报告揭示A股股东户数信息披露经历三个主要阶段:
1. 低披露阶段(1992-2002年):数据缺失严重,上市公司股东户数披露不完善,财报信息不足。
2. 中披露阶段(2002-2012年):定期财报信息较为完整,但缺少第三方补充平台,披露仅限于财报披露频率。
3. 高披露阶段(2012年至今):受益于深交所“互动易”平台(2010年上线)和上交所“e互动”平台(2013年上线),股东户数数据披露从定期向高频转变,投资者可获得较为及时的股东数据。
- 逻辑说明:新平台的建设扩大了数据披露的渠道和频率,提升了数据的时效性,但同时披露行为依旧呈现集中化,多数公司未大量利用投资者互动平台。
- 关键数据与图表:
- 图1 展示股东户数信息披露次数与上市公司数量的增长趋势,突出披露次数远超上市公司数量的现象,反映出信息披露频率的提升。青睐于近年来披露次数的跃升及披露集中性的特点。
- 图2 显示滚动12个月内披露最新股东户数超过4次的上市公司占比约50%,且近年来略有下降,说明虽然披露增多,但高频披露的公司仍属少数。
- 结论:披露行为的历史演进奠定了后续数据处理和因子构建的基础,及时、高频的数据对于捕捉股东行为变化尤为重要。[page::0,1,2]
---
2.2 股东户数相关因子构建
- 因子设计理念:
股东户数增加通常反映个人投资者的扎堆行为,这种行为表现出明显的非理性和跟风特征,往往预示个股后续表现承压。因此,股东户数变动反映市场投资者情绪,是对未来股价走势的预测指标。
- 数据处理和因子计算方法:
- 数据预处理:缺失月份用前值填充,月度多条记录选取最新值,剔除上市不足一年新股及异常值,进行行业和市值中性化处理。
- 创新点:为避免连续月份股东户数不变导致变动率计算中存在大量零值,采用“隔期选取+时序标准化”方法,将数据点间隔一定期数(默认3个月),并对选择数据集做时序均值和波动标准化,计算公式如下:
$$
factort = \frac{xt - \tilde{x}}{\sqrt{\frac{1}{N}\sum{i,j=0}^N (x{t - i \times j} - \tilde{x})^2}}, \quad
\tilde{x} = \frac{1}{N} \sum{i,j=0}^N x{t - i \times j}
$$
其中$x_t$为当前值,$\tilde{x}$为选取数据时序均值,$N$为滚动窗口大小。
- 两类因子:
- SNC(股东户数变动)因子:针对股东户数直接变动构建,取负后作为正向因子。
- PCRC(人均持股占比变动)因子:从人均持股比例变化角度刻画投资者持股状况的变化,理论上与SNC高度相关但表现有所差异。
- 性能测试及结果:
- SNC因子表现:
- RankIC均值4.5%,RankICIR 2.50,74%时间RankIC为正,表明因子稳定有效。
- 多空组合年化收益13.4%,最大回撤低至-3.9%,胜率约80%,显示极强的选股能力与风险控制力(表1,图3、4)。
- PCRC因子表现:
- RankIC均值4.4%,RankICIR 2.53,与SNC高度相关但回撤更小(最大回撤-2.9%),收益波动比更优(表2,图5、6)。
- 多头端收益表现优于SNC,空头端则稍逊,适合作为稳定因子。
- 参数灵敏度分析:
通过调节选取间隔(Gap)与滚动期数(Window),发现当间隔小于3个月时需较长窗口回溯,反之窗口宜短,累计跨度约2年最佳。参数组合(Gap=3或4,Window=8到9)使RankIC达到最高,不同组合间稳定性也达提升(图7、8)。局部最优参数(Gap=2,Window=12)下,PCRC因子RankIC提升至4.6%,各分组走势区分显著,多头年化收益率达14.5%(图9、10)。
- 总结:两种因子均有效,PCRC因子相对更稳健且风险控制更佳,参数调优显著提升因子表现。[page::2,3,4,5,6]
---
2.3 股东户数相关因子的增强实践:不同宽基指数比较
- 目的和方法:
- 考察PCRC因子在主流宽基指数成分股中的表现,检验其在不同市值层次股票池的适用性与稳定性。
- 使用约束优化方法控制行业风格偏离及指数成分权重偏差,实现PCRC因子的组合“增强”效果。
- 关键发现:
- 因子显著性和稳定性与股票池市值负相关,市值越小,因子效果越强:
- 沪深300:RankIC均值2.19%,RankICIR约0.93,因子表现较弱。
- 中证1000:RankIC均值4.88%,显著性最强;有效增强年化超额收益9.08%,胜率约66%。
- 国证2000:RankICIR 2.59,稳定性最佳。
- 综合来看,中证1000指数的增强表现最优(图11、12,表3,图13-16)。
- 特别观察到2014年底至2015年中,因子增强组合出现负超额,反映极端市场情绪下个人投资者扎堆行为导致因子效应暂时扭曲。
- 数学表达式:
因子增强优化模型通过约束条件控制组合的风格暴露、行业权重与成分股权重的偏差,保障组合跟踪误差在容忍范围内,最大化因子预期收益,即“$\max \alpha^T w$”条件下,带有线性不等式和等式约束。
- 结论: PCCR因子在小市值、中低流动性市场中更具优势,适合做为中小盘量化策略的核心因子之一。[page::6,7,8]
---
2.4 拓展讨论:额外披露信息的增益与披露频率影响
- 定期财报 vs 全样本股东户数数据:
- 通过区分股东信息披露来源(财报和互动平台增量披露),发现仅靠定期财报数据已能产生约4.26%的RankIC,包含全部披露数据提升至4.40%,Marginal improvement明显但幅度有限。
- 换言之,高频数据带来边际收益但非核心收益来源(图17,18)。
- 高披露频率 vs 低披露频率股票样本表现对比:
- 使用滚动12个月披露次数≥4次定义为高披露频率样本,表现显著优于低披露频率样本。
- 高披露组RankIC均值达4.67%,多头年化收益15.2%,多空对冲收益13.8%,均明显优于低披露组(图19,20)。
- 理论推断:
高频披露增益存在,但更多表现为“锦上添花”。频繁披露的公司信息更透明,因子效果更显著,适宜作为研究和投资标的。
- 风险提示:历史数据模型不保证未来适用,投资需相应管理风险。[page::8,9]
---
3. 图表深度解读
图1(第2页)
- 描述:展示1992年至2022年间,A股股东信息披露次数(蓝线)和上市公司总量(红线)的变化趋势。
- 解读:披露次数远高于上市公司总数,尤其2012年后披露次数迅猛增长,丁显股东户数信息披露由低频向高频转变。
- 关联:印证披露行为由定期财报向互动平台不定期披露迁移的论述,为构建高频股东户数因子提供数据基础。
图2(第2页)
- 描述:滚动12个月内披露最新股东户数达到不同次数的上市公司数量分布。
- 解读:披露越频繁的公司数量越少,披露超过4次的公司约占半数,且近两年略有下降趋势。
- 关联:表明尽管披露增多,但信息仍集中,投资者对频繁披露公司信息把握更大。
---
图3-4(第3-4页)
- 图3解读:SNC因子RankIC持续为正,累计RankIC显示稳步上升,说明该因子具备较强预测未来收益的能力。
- 表1解读:从分组收益看,最低组(0组)损失0.7%,最高组收益13.4%,多空对冲组合表现显著且稳定,最大回撤仅-3.9%,胜率达80%,证明因子区分度强且风险控制良好。
- 图4解读:多空对冲收益曲线稳定上升,各分组走势差异明显。
---
图5-6(第4-5页)
- 图5解读:PCRC因子RankIC表现类似SNC,累计收益稳步增长。
- 表2解读:PCRC因子风险控制更优,最大回撤仅-2.9%,收益波动比达2.6。多头端收益高达14.1%,表明其更适合构造正向暴露的量化组合。
- 图6解读:多空收益稳定分层,显示因子具有稳定性及较好区分能力。
---
图7-10(第6页)
- 表格(图7-8)解读:不同间隔(Gap)与窗口(Window)组合下,因子RankIC和RankICIR表现展示,(Gap=4, Window=9)获得最高RankIC,(Gap=3, Window=4)获得最高RankICIR。因子表现对参数敏感,但整体稳定。
- 图9-10解读:调参后PCRC因子单调性和分组区分性增强,多头端收益提升至14.5%,分组曲线差异明显,提升因子实际应用价值。
---
图11-16(第7-8页)
- 图11-12解读:PCRC因子在中证1000指数成分中显著性最高,国证2000指数中稳定性最佳,沪深300表现相对较弱。
- 图13-16解读:增强组合与基准指数比较,PCRC因子带来稳定超额收益,特别是在中证1000和国证2000指数,增强组合股价表现优于基准且超额稳定。
---
图17-20(第9页)
- 图17-18解读:纳入互动易等平台高频数据相比仅定期财报数据提升选股因子性能的幅度有限,体现出高频数据边际贡献低。
- 图19-20解读:高披露频率组股票中PCRC因子表现更为显著,收益和胜率均优于低频组,强调投资者关注信息披露频率的重要性。
---
4. 估值分析
报告不涉及传统财务估值模型,但采用量化因子模型建立预测体系,基于股东户数相关因子进行股票选择和收益增强。
- 因子构建利用时序标准化和间隔取值技术,规避传统股东数据零变动的缺陷。
- 量化增强模型中,使用约束优化策略最大化因子暴露度,保证行业和风格暴露度严格控制,实现超额收益的定量提升。
---
5. 风险因素评估
- 市场结构和未来变化风险:报告明确提示,模型基于历史数据,对于未来结构性变化不一定适用,存在市场环境变化导致因子失效的风险。
- 数据披露不均风险:股东户数披露仍集中在少数公司,信息不完整可能影响因子效果普适性和稳定性。
- 极端行情风险:2014-2015年期间因子在市场极端情绪下表现异常,提示因子在特殊市场状态下可能会失效。
报告未提供具体缓解策略,投资者需结合市场实际,适时调整组合。
---
6. 审慎视角与细微差别
- 报告基于高频股票股东户数信息提出扎堆效应因子,整体逻辑清晰实证充分,创新之处在于数据处理和因子构建手法完善,参数测试详细。
- 然而,报告承认高频数据增益有限,定期财报数据仍是主力,这提示高频股东户数信息或许仍有一定噪音,投资者不宜过度依赖单一因子。
- 各股票池中因子表现差异较大,尤其大市值股中因子作用有限,提醒投资者关注适用场景。
- 报告没有展开对极端市场环境下因子表现的深入机理分析,叙述依赖经验判断,未来或有拓展空间。
- 报告未涉及交易成本、执行难度等实务因素,实际应用时需考虑这些影响。
---
7. 结论性综合
本报告系统梳理并实证了基于A股股东户数变动信息的量化因子构建及其股票选择能力。研究揭示:
- 股东户数披露行为分为低、中、高三阶段,伴随上市公司及交易所投资者互动平台的发展,披露频率提升但仍较为集中。
- 创新的间隔选取与时序标准化方法有效避免零变动带来的因子失效问题,提升因子测算精度和稳定性。
- 基于股东户数变动(SNC)和人均持股占比变动(PCRC)的因子均表现优异,PCRC因子表现更稳健且风险控制更佳。
- 因子优异的选股能力在中小市值股票池(如中证1000、国证2000)尤为突出,沪深300等大市值指数表现较弱,提示因子适用性。
- 实际增强操作中,约束优化方法成功提升组合因子暴露度,实测年化超额收益高达9%以上,风险回撤可控。
- 高频额外披露数据能带来一定增益,但整体效果有限,主要收益仍来自定期财报数据,高披露频率样本表现更佳。
- 因子虽然稳健但在极端市场或结构变化面前存在失效风险,投资者需审慎应用。
图表数据系统支撑了上述论点,显示因子从统计显著性、收益表现、风险控制、参数敏感性及实盘增强均获得正向反馈。整体报告逻辑严密,结论具有较高实践参考价值,为基于股东户数的另类量化选股因子提供了系统的理论和实证基础。
---
图表列表索引(部分)
| 图表编号 | 主题描述 | 关联章节 |
|---------|----------|---------|
| 图1 | 股东户数披露次数与上市公司数量趋势 | 股东信息披露演进 |
| 图2 | 频繁披露股东户数上市公司比例 | 股东信息披露演进 |
| 图3 | SNC因子RankIC表现 | 因子构建与测试 |
| 表1 | SNC因子多空对冲收益统计 | 因子构建与测试 |
| 图4 | SNC因子多空收益走势 | 因子构建与测试 |
| 图5 | PCRC因子RankIC表现 | 因子构建与测试 |
| 表2 | PCRC因子收益及风险指标 | 因子构建与测试 |
| 图6 | PCRC因子多空收益走势 | 因子构建与测试 |
| 表7-8 | 因子参数敏感性测试RankIC与RankICIR值表 | 参数调优 |
| 图9-10 | 调参后PCRC因子性能提升 | 参数调优 |
| 图11-12 | PCRC因子在主流指数中的显著性与稳定性 | 指数增强 |
| 图13-16 | PCRC因子在各指数增强超额表现 | 指数增强 |
| 表3 | 不同宽基指数增强策略收益风险指标比较 | 指数增强 |
| 图17-20 | 高频股东信息及披露频率对因子表现影响 | 信息披露频率 |
(详细图表见报告原文页面)
---
参考文献溯源
上述所有论述均基于开源证券金融工程团队2022年11月22日发布的《扎堆效应的识别:以股东户数变动为例 | 开源金工》报告内容系统提取和解析,页码标识详见文中引用。