扎堆效应的识别:以股东户数变动为例 ——开源量化评论(66)
创建于 更新于
摘要
本报告基于股东户数的公开披露信息,构建“股东户数变动(SNC)”和“人均持股占比变动(PCRC)”两个核心因子,通过间隔选取多期并时序标准化处理的方法,有效避免了数据零值弊端。实证测试表明,股东户数相关因子在全市场范围内表现稳健,尤其在人均持股占比变动因子上,选股稳定性优于股东户数变动因子,最大回撤较小,收益波动比高。PCRC因子在小市值宽基指数(如中证1000)中显著性和增强效果最佳,年化超额收益达9.08%。此外,高频披露样本及额外披露信息对因子表现有一定提升作用,但幅度有限。量化因子参数调优显示,选取两年左右跨度、间隔3~4个月的窗口组合效果较优。风险提示模型基于历史数据存在失效风险 [page::0][page::2][page::4][page::6][page::8][page::10][page::11].
速读内容
- 股东户数信息披露经历三个阶段(低频→中频→高频),当前披露频率虽有提升但主要集中在少数上市公司,约一半公司在滚动12个月内披露最新股东户数超过4次。


[page::3]
- 因子构建采取间隔选取多期后时序标准化处理,以规避因相邻月份数值相同导致的零变动比例问题。去除新股上市一年内数据及停牌退市样本,并进行异常值剪枝和行业市值中性化处理。
[page::4]
- 股东户数变动因子(SNC)表现稳健,测试期内RankIC均值4.5%,RankICIR 2.5,正相关占比74%。多空对冲年化收益率13.4%、最大回撤-3.9%、胜率约80%。


[page::4][page::5]
- 人均持股占比变动因子(PCRC)与SNC因子高度相关但细节不同,表现更优,RankIC均值4.4%,RankICIR 2.53,最大回撤仅-2.9%,收益波动比高达2.6,多头端收益更好,表现更稳健。


[page::5][page::6]
- 因子调参发现:PCRC因子在4个月间隔选取9期数据时显著性最高(RankIC 5.79%),在3个月间隔4期数据时稳定性最好(RankICIR 2.752)。整体最佳表现出现在累计跨度约两年时。调参后因子单调性和分组区分度均有提升,多头年化收益达14.5%。


[page::6][page::7]
- PCRC因子在宽基指数中的表现存在市值依赖性,市值越小选股显著性和稳定性越强。在沪深300表现弱(RankIC 2.19%, RankICIR 0.93),而在中证1000表现最佳,RankIC达4.88%,年化超额收益9.08%,收益波动比1.508,胜率约66%。其他指数表现介于两者之间。






[page::8][page::9]
- 基于约束优化方法构建增强组合,以最大化因子暴露度,约束包括风格和行业暴露上下限,成分股权重下限为0.8。增强组合在中证1000指数上实现最优结果,与基准相比表现稳健且收益显著提升。市场亢奋期可能导致因子表现异动。
[page::8][page::9]
- 高频披露数据对因子表现存在小幅提升。定期财报股东数据已能驱动因子产生良好表现,但额外披露数据作为增量略微提高RankIC从4.26%提升至4.40%。


[page::10]
- 高低披露频率样本对比显示,高披露频率组PCRC因子表现更佳,RankIC均值4.68%,多头端年化收益率15.2%,多空对冲年化收益13.8%,分别较低披露组高约2%和1%。体现高频数据在部分样本中助力选股效果。


[page::11]
- 风险提示:模型基于历史数据统计,存在未来失效风险,投资者应谨慎使用相关因子及策略。
[page::0][page::11]
深度阅读
金融工程研究团队《扎堆效应的识别:以股东户数变动为例》报告详尽分析
---
一、元数据与报告概览
- 报告标题: 扎堆效应的识别:以股东户数变动为例——开源量化评论(66)
- 发布机构: 开源证券股份有限公司,金融工程研究团队
- 发布日期: 2022年11月22日
- 主要作者及分析师: 魏建榕(首席分析师)、胡亮勇(分析师),以及其他多位分析师与研究员
- 研究主题: 通过分析A股市场股东户数的变动,构建相关选股因子,探讨个人投资者扎堆行为的选股能力及其对股价表现的影响,及高频股东户数信息披露的增益效应。
- 核心论点:
1. 股东户数信息披露经历低、中、高三个演变阶段,数据披露越来越及时与频繁,但仍集中于部分上市公司。
2. 基于股东户数变动构造的因子(SNC)及人均持股占比变动因子(PCRC)均表现出稳健的正向选股能力,且在中小市值宽基指数中表现更优。
3. 高频股东数据带来一定的选股增益,但整体幅度有限。
4. 风险提示中明确强调基于历史数据的模型存在未来失效风险。[page::0,2,4]
---
二、逐节深度解读
1、股东户数信息披露衍化
- 关键论点:
披露股东户数信息的频率与全面性历经三个阶段:1992-2002年披露较少且数据缺失严重;2002-2012年依靠定期财报披露;2012年至今由于交易所互动平台等工具,披露频率和及时性大幅提升,趋向高频信息披露,但频繁披露仍集中于少数上市公司,半数左右的公司在12个月内披露最新股东户数超过4次。
- 推理依据: 结合平台上线时间(如深圳交易所互动易2010年、上海交易所e互动2013年)和数据变化趋势,定量统计披露次数与上市公司数量关系。[page::2,3]
- 图表解读:
- 图1清晰展示了披露次数与上市公司数量的关系,披露次数从1992年起缓慢增加,2012年后大幅提升,明显高于同期上市公司数增幅。此趋势印证了信息披露向高频化转变。
- 图2统计了过去12个月内披露频率,详细说明披露主要集中在部分公司,只有约一半上市公司披露次数较高,近两年这一比例出现下降,提示信息披露结构尚未均衡,存在数据覆盖不全可能导致的偏差风险。[page::3]
2、股东户数相关因子构建
- 构建方法:
针对数据缺失与连续零变动的挑战,报告采用“间隔选取多期后进行时序标准化处理”的方法,分离季节性和异质性影响,使用类似Z-score的计算公式对股东户数数据进行标准化,确保因子值有效且具备预测能力。参数默认选取间隔为3个月,窗口长度为8期,即跨度约两年 [page::4]。
- 因子定义:
- SNC(股东户数变动因子)衡量股东户数在选定间隔内的变化幅度,数值取负后构成正向因子(户数增加预期股价表现差,因子负变正,符合负向alpha假设)。
- PCRC(人均持股占比变动因子)衡量股东户均持股比例的时序变化,理论上与SNC互为表里。
- 因子测试结果:
- SNC因子RankIC均值4.5%,RankICIR 2.5,正向次数约74%,表现稳定,组间收益分离明显,对冲组合年化收益率达13.4%,最大回撤3.9%,胜率达80%(表1,图3、图4)。
- PCRC因子表现相似,RankIC均值4.4%,RankICIR 2.53,对冲组合最大回撤更低,仅2.9%;多头端收益更佳(14.1%年化),收益波动比2.6,胜率78%左右(表2,图5、图6)。
- 两因子高度相关但在收益分布和波动控制上存在差异,PCR因子对超额收益的控制更优。[page::4,5,6]
3、不同间隔跨度及滚动窗口的影响分析
- 实验设计:
以PCRC因子为例,测试不同间隔(2-6个月)与不同滚动窗口长度(1-5年跨度内)对因子显著性(RankIC均值)与稳定性(RankICIR)影响。
- 结果与推断:
- 最优显著性参数组合为每4个月间隔选一次数据,滚动选取9期,获得RankIC最高5.79%。
- 最优稳定性参数组合为每3个月间隔选3期,RankICIR最高达2.75。
- 综合观点:间隔短时适宜更长滚动窗口,间隔长时滚动窗口不宜过长,累计跨度在约两年时因子表现最佳。
- 调参后结果:
调参后PCRC因子RankIC可提升至4.6%,分组走势单调性更强,组间区分度更明显,多头端年化收益提升至14.5%(图7~图10)。[page::6,7]
4、股东户数相关因子的增强实践
- 选股池影响:
测试基于沪深300、中证500、中证1000、国证2000等宽基指数成分股。
- 因子表现关系:
- PCRC因子在小市值股票池中显著性和稳定性更强,沪深300表现较弱(RankIC约2.19%,RankICIR 0.93);中证1000最优(RankIC 4.88%),国证2000的稳定性最高(RankICIR 2.59)(图11、12)。
- 基于约束优化的增强策略设计:
采用优化模型约束权重变动在小幅度(±1%)内,控制风格与行业暴露,保障跟踪误差较低,实现增强。
- 增强效果:
中证1000指数增强收益最优,年化超额9.08%,收益波动比1.5,胜率约66%;沪深300因子增强表现较弱且超额收益最大回撤为-4.0%(图13~16,表3)。
- 市场环境影响:
报告指出2014年底至2015年中市场情绪高涨期内,PCR因子表现不佳,反映个体投资者扎堆上涨时出现正反馈,推升价格,但该现象不可持续,反馈消退后因子效果恢复。[page::7,8,9]
5、拓展讨论:额外披露信息的增益
- 研究目的:
分析高频(含互动平台)披露与低频(仅财报披露)股东信息在因子构建中的效果区别。
- 方法论:
- 利用Wind数据库中股东户数数据区分定期财报数据与互动平台披露的增量数据。
- 按照披露频次高低划分样本,比较分组内的因子表现。
- 主要发现:
- 高频数据纳入后,PCRC因子RankIC从4.26%微升至4.40%,增幅有限但稳定性未变,表明高频数据是锦上添花(图17、18)。
- 高频披露公司的PCRC因子显著性及收益显著优于低频披露公司,高披露频率组RankIC4.68%,低披露组约3.85%,高频组多头收益率15.2%,对冲收益13.8%,分别高出低频约2%和1%(图19、20)。
- 总结观点: 高频披露虽带来部分信息增益,但幅度有限,基础信息价值更大。高披露频率公司信息响应更灵敏因而选股功效更好。[page::10,11]
6、风险提示与声明
- 报告重申模型基于历史数据的统计关系,存在未来失效风险。
- 强调评级体系与投资建议的适用范围及局限性,并披露利益冲突声明与版权保护条款。
- 评级体系采用相对评级,预期收益相较市场或行业表现的百分比区间定义。
- 明确数据和方法中含有假设,估值和分析结果存在不确定性。
- 法律责任及免责声明详尽,符合合规要求。[page::0,11,12,13]
---
三、图表深度解读
| 图表序号 | 主要内容 | 解读 | 支撑论点 |
|----------|----------|------|---------|
| 图1 | 1992-2022年披露次数与上市公司数量趋势 | 披露次数长期落后于上市公司数量,2012年后披露次数快速提升至超越上市数量,体现高频披露崛起 | 股东信息披露演化过程 |
| 图2 | 近十年上市公司滚动12个月披露次数分布 | 高披露公司占比约为一半,且近两年有下降趋势,显示信息披露仍不均衡 | 披露集中性与部分公司频繁披露现象 |
| 图3 | SNC因子RankIC时间序列与累计值 | 因子相关性正向,且累计RankIC呈线性攀升趋势,显示因子长期稳定 | SNC因子稳健选股能力表现 |
| 表1 | SNC因子分组年化收益/波动比/最大回撤/胜率数据 | 多空对冲端年化收益13.4%,最大回撤仅-3.9%,交易胜率约80% | 因子交易表现稳健,风险收益优良 |
| 图4 | SNC因子五分组收益与对冲组合走势 | 各分组收益波动清晰区分,对冲组合平稳上升,支持因子分层效应 | 因子区分力度强,量化应用有效 |
| 图5 | PCRC因子RankIC与累计RankIC表现 | 因子表现类似SNC,且累计表现稳定上行 | PCRC因子具有正向预测力 |
| 表2 | PCRC因子分组收益表现及最大回撤 | 多头端收益高于SNC,最大回撤控制更好,胜率优异 | PCRC因子优于SNC |
| 图6 | PCRC因子多空对冲组合收益走势 | 多头组收益领先且对冲组合稳健,支持因子有效性 | 稳定的超额收益 |
| 表7-8(图7-8表格) | PCRC因子不同参数下RankIC/RankICIR表现 | 识别出局部最优(间隔4个月、窗口9期)和稳定性最佳(间隔3个月、窗口4期)参数组合 | 参数优化提升因子效能 |
| 图9-10 | 调参后PCRC因子时序表现及分组走势 | 单调性更强,分组距离明显,年化收益提升 | 参数调优带来收益提升 |
| 图11-12 | 不同宽基指数PCRC因子显著性和稳定性对比柱状及累计曲线 | 小市值指数因子表现更优,沪深300最弱,说明市值规模对因子效用影响明显 | 因子适用范围 |
| 图13-16 | PCRC因子在不同宽基指数增强后超额收益走势及与基准对比 | 中证1000增强效果最佳,沪深300波动最大,国证2000稳定 | 因子实际应用效果 |
| 表3 | 各指数增强组、基准组和对冲组回测指标对比 | 列明收益、波动率、最大回撤及胜率数据,确认中证1000及国证2000优选池效果 | 量化策略可信度 |
| 图17-18 | 定期财报与全样本因子RankIC和分组收益对比 | 高频信息带来小幅提升,提供有限增益 | 高频数据价值评估 |
| 图19-20 | 高低披露频率组RankIC和收益表现柱状对比 | 高频披露样本表现更优,支持精细化信息价值 | 披露频率与信息有效性关系 |
---
四、估值分析
- 本报告主要聚焦于选股因子及量化增强策略的构建与验证,未涉及传统意义上的估值分析(如DCF、PE、EV/EBITDA等)模型。
- 量化增强部分采用约束优化模型,设计了权重偏离约束(±1%),风格和行业偏离限制(±0.01),确保增强组合在最大程度提升因子暴露(即预期收益)同时控制风险和基准跟踪误差。
- 优化目标为因子暴露度最大化,结合实际投资组合构建规则,实现筛选效果量化。此优化结构属于线性不等式约束优化问题。
- 未说明具体折现率或增长率假设,故无传统财务估值结论。[page::8]
---
五、风险因素评估
- 核心风险:
- 模型基于历史股东户数变动与股价关系的统计特征,非因果证明,未来结构性变化可能导致模型失效。
- 高频数据含噪音,信息披露不均衡,数据缺失及后填充方法可能带来偏差。
- 市场极端行情下(如2015年情绪亢奋期),投资者扎堆行为可能产生异常价格反馈,影响因子表现。
- 市场环境变化、投资者行为演变、监管政策变动等均可能影响扎堆效应的稳定性。
- 缓解措施:
- 选择稳健的参数组合,进行行业和市值中性化处理,增强因子适用性。
- 约束优化实质上限制了过度集中风险。
- 报告强调持续监测并更新模型,提醒投资者谨慎使用。
- 概率描述: 报告并未明确给出详细发生概率,但通过统计检验和多样化测试表达整体因子的稳健性和潜在风险。 [page::0,11]
---
六、批判性视角与细微差别
- 数据完整性挑战: 虽然披露频率整体提升,但仍集中于少部分公司,报告中指出近两年披露超过4次的公司比例有所下降,反映数据覆盖仍不均衡,可能对模型准确性构成限制。
- 高频信息价值有限: 高频股东户数数据的增益虽存在,但幅度不明显,是否值得额外成本与复杂度需谨慎评估。
- 因子解释的非因果关系: 扎堆效应背后实际驱动机制可能更加复杂,模型建立在统计相关基础上,未能充分揭示因果逻辑(比如资金流入、行为金融学因素),容易因环境变化而失效。
- 实验窗口影响: 选择的滚动窗口及间隔优化对结果影响显著,不同参数选取可能导致因子表现大幅波动。
- 市场情绪依赖: 2015年市场过度亢奋期间因子表现异常,暗示该因子可能依赖市场环境,存在周期敏感性。
- 未覆盖估值对比: 报告未介绍对比其它经典估值因子或多因子组合,难以全方位衡量该因子的重要性。
- 风险提示较简单: 尽管明确提出模型未来失效风险,相关的风险识别和缓解策略较为基础,尚需结合实际投资行为深化风险控制。
- 表格图表插入多为截图形式,数据深层次可解析性依赖图像,文本表格解析有限。[page::2,10,11]
---
七、结论性综合
本报告系统地回顾并分析了A股市场股东户数信息披露的演变与应用,通过创新的多期间隔选取及时序标准化处理方法,构建了股东户数变动(SNC)及人均持股占比变动(PCRC)两大因子。实证测试结果显示:
- 因子选股能力显著且稳健,RankIC均值一般位于4%-5%左右,表现呈持续上升趋势。
- PCRC因子相比SNC因子,更优于收益波动控制和多头收益端,最大回撤接近-2.9%,交易胜率近78%。
- 优选参数为间隔3-4个月,滚动窗口累计约2年,表现保持稳定且具有局部最优解。
- 在不同宽基指数中,PCRC因子在小市值指数表现优异,尤其是中证1000和国证2000,增强后年化超额收益约为9%-10%。
- 基于约束优化算法实施增强策略,控制跟踪误差和行业风格暴露,实现因子最大化利用。
- 高披露频率上市公司因子表现明显优于低频披露组,但高频信息相较定期财报信息仅带来有限增益,锦上添花效果明显。
- 风险主要在模型依赖于历史相关性的稳定性,市场极端波动期、数据披露不全或行为偏差可能导致模型失效。
总体上,报告展现了股东户数这一传统投资者行为变量的新利用路径,运用高阶量化处理方法挖掘扎堆效应的选股潜力,提供了具有实操指导意义的投资策略框架,特别是在中小市值股票池里因子表现突出,具备较好增强价值。
然而,报告也提醒投资者注意由数据缺失、市场情绪驱动及因子周期敏感性引发的潜在风险,强调因子模型必须不断适应市场环境。高频股东户数数据虽具备一定增益,但其获取成本与信息增益幅度存在权衡。
图表方面,多个图形清晰展示了因子相关性的时间演变、收益分组差异以及不同指数增强效果,图1-2揭示了股东信息披露频率演进;图3-6、9-10直观展示两个主要因子的RankIC表现及区分力;图11-16说明了因子在不同指数中的增强态势;图17-20侧面验证了高频披露信息的有限增益和样本选择的重要性。
综上,报告为量化投资者提供了一个基于投资者行为的新因子构建路径,结合高频投资者互动数据补充传统财报信息,提出了风险与机遇并存的选股策略建议,具有较强理论和实务推广价值。[page::0-11]
---
备注
本分析严格依据报告内容与图表数据,所有结论均附带对应页脚标注,力求客观全面,不做超出文中内容的主观推断。