`

开源量化评论 | 高频股东数据的隐含信息量

创建于 更新于

摘要

本报告基于深交所互动易平台股东户数高频数据,结合传统低频股东数据,构建合成股东户数变化因子。研究发现,低频股东户数变化因子具备选股能力,纳入高频数据后可提升选股表现,且不同股票池下增益效果各异,深证成指中超额收益最高超过10%。股东户数变化因子与流动性因子相关性最高但整体相关性较低,具有独立的信息价值,为量化选股提供增益维度 [page::1][page::2][page::5][page::7][page::9][page::10][page::11]

速读内容


互动易平台股东问询频次与市场波动率高度相关 [page::2]


  • 2013年至2020年间,股东户数相关问询次数明显跟随市场波动加剧,投资者在高波动期间更积极提问股东户数。

- 互动易平台每期有效回复个股数量稳定约600只,覆盖广泛。

股东问询有效回复分布及个股层面案例 [page::3]


  • 近44%个股有效回复次数低于12次,8.6%超过100次,个股分布不均。

- 世纪华通案例显示,股东户数变化与股价表现负相关,户数快速上涨时股价反而走弱,体现股东变动信息的潜在预警价值。

低频股东因子构建及测试逻辑 [page::4][page::5]



  • 基于定期报告披露的股东户数及时调整发布日期,结合隔季ZSCORE方法构建变化因子。

- 股东户数因子与市值高度正相关,经市值与行业中性化后无显著超额收益。
  • 股东户数变化因子(PCTN)切分后表现较好,多空对冲收益稳步上升,年化收益率约21%,夏普率0.72。


高频股东数据接入及合成因子效果提升 [page::6][page::7][page::8]




  • 互动易问询回复中股东数据被映射并用于填补定期报告的缺失,更新频率提高。

- 合成股东户数变化因子(M
PCTN)在分组收益和多空对冲净值方面均优于纯低频因子,年化收益率提升至22%,夏普率0.74。
  • 高频因子表现更为稳健,带来稳定超额收益。


高频高回复股票池构建与表现分析 [page::8][page::9]



  • 限定互动易平台中高回复个股(过去1年有效回复超过6个月)构建专属股票池。

- 高回复池中合成股东变化因子三分组分层显著,减少池内个股减少影响。

不同股东因子指标对比及因子相关性分析 [page::9][page::10]


| 指标 | ABS | ABS
N | PCT | PCTN | MPCTN | HMPCTN |
|------------|--------|---------|---------|---------|----------|------------|
| RankIC | -0.040 | -0.015 | -0.033 | -0.030 | -0.032 | -0.042 |
| ICIR | -0.94 | -0.46 | -1.52 | -1.69 | -1.74 | -1.78 |
| 负值占比 | 66% | 61% | 65% | 69% | 69% | 73% |
| 年化收益率 | 28% | 14% | 23% | 21% | 22% | 19% |
| 夏普比率 | 0.79 | 0.46 | 0.79 | 0.72 | 0.74 | 0.62 |
| 胜率 | 57% | 53% | 55% | 57% | 57% | 57% |
  • 纳入高频数据后因子在收益指标上有一定提升,但纯低频未中性化因子年化最高。

- 股东户数变动因子与常见风险因子整体相关性低,与流动性因子相关性最高。
| 因子类别 | 动量 | 市值 | 流动性 | 波动性 | 盈利 | 成长 | 非线性市值 |
|---------|-------|-------|--------|--------|-------|-------|------------|
| 低频 | -0.047| 0.007 | 0.180 | 0.083 | 0.021 | 0.098 | -0.008 |
| 高频 | -0.068| -0.003| 0.216 | 0.133 | 0.012 | 0.067 | -0.006 |
| 高回复高频 | -0.079| 0.024 | 0.275 | 0.165 | 0.015 | 0.091 | 0.015 |

不同股票池下高频合成股东因子表现差异明显 [page::10][page::11]



  • 深证成指股票池中年化超额收益超10%,表现最稳健。

- 创业板综、深圳综指及中小板综指中收益改善幅度较小,部分区间创业板表现不佳。
  • 高频股东数据的选用增强了因子的多样性和收益稳定性,但收益大小依赖股票池覆盖。


深度阅读

开源量化评论 | 高频股东数据的隐含信息量 —— 详尽报告解析与全面解读



---

一、元数据与报告概览


  • 报告标题:《开源量化评论 | 高频股东数据的隐含信息量》

- 作者与机构:开源证券金融工程首席分析师魏建榕博士,金融工程研究员胡亮勇。开源证券金融工程团队,发布时间为2021年1月3日。
  • 研究主题:本文聚焦于深交所上市公司股东户数数据,尤其是其 高频(互动易平台实时披露数据)与 低频(定期报告披露数据)股东户数数据对股票表现预测与量化选股策略的贡献和增益效果。

- 核心观点与目标
- 低频股东户数本身因子选股能力有限,但股东户数变化因子具有明显选股能力。
- 纳入互动易平台的高频股东户数数据,构建合成股东变化因子,在选股效果和超额收益上均较低频因子有所提升。
- 高频股东数据的增益效果依赖股票池的选择,尤其在深证成指相关股票池中提升显著。
- 股东类因子与主流风险因子相关性较低,具有良好的信息独立性。

总体上,报告证明实时披露的 高频股东户数数据能够有效补充低频数据,提升量化选股模型的表现,具有较强的信息价值。[page::0,1,2,5,7,9,10]

---

二、逐节深度解读



2.1 互动易平台数据概览


  • 互动易是深交所官方投资者关系互动平台,提供股票投资者与上市公司的一对一沟通渠道,涵盖公司公告、股东信息、融资财务数据等。

- 投资者对股东户数的问询量较大,披露回复占比稳定在20%-30%区间,单月有效回复股票数约600只。
  • 从2013年开始数据较为完整,截至2020年11月,约1971家上市公司进行了有效回复,约占深交所上市公司的80%。

- 投资者问询股东户数次数与市场波动率有显著正相关,市场高波动时期,投资者对股东户数关注度增加,反映了投资者对持仓信心的波动及对信息的追求。

图表分析
  • 图1显示股东户数问询次数与年化市场波动率走势高度同步,验证心理效应假设。

- 图2反映有效回复个股数和有效回复占比稳定,表明互动易平台的数据基本成熟可靠。
  • 图3有效回复个股分布严重偏态,大量个股回应次数低于12次,显示信息披露积极性的差异。有些个股完全没有披露,强调数据覆盖不均衡问题。


整体,互动易平台为股东户数数据提供了重要高频补充基础,也是后续高频股东因子研究的关键来源。[page::1,2,3]

---

2.2 低频股东因子分析


  • 低频股东类数据主要来至上市公司定期披露(季报、半年报、年报),存在时效性差和更新频率低两大缺陷。

- 利用数据披露日修正报告日期,前值填充缺失,对股东户数进行市值和行业中性化,排除因市值规模和行业结构差异带来的干扰,保证因子测试的纯粹性。
  • 构建因子包括:股东户数绝对值因子和股东户数变化百分比因子(变化因子通过隔季选取数据后做时序Z-score标准化) 。


关键推论
  • 低频股东户数因子(绝对值)无选股能力,多空对冲收益不稳定,超额收益主要由市值效应产生(数据未中性化时表现良好)。

- 低频股东户数变化因子表现较好,有一定的选股能力,年化收益率达到21%,夏普比率0.72,且近几年表现进一步稳健提升,表明变化趋势包含市场参与者的情绪和资金行为信息。

图表解析
  • 图5、6佐证高相关性与行业差异,验证因子需要做市值和行业中性化。

- 图7-8显示绝对股东户数因子分组收益不单调且收益无显著超额。
  • 图9-10揭示变化因子有相对稳定的单调分组收益和对冲收益,验证其选股价值。


结论显明:单纯股东户数数量缺乏预测价值,但股东户数的变化率反映资金流向和投资者行为,因而具备实用选股信息量。[page::3,4,5]

---

2.3 高频股东因子探索与应用


  • 利用互动易平台的高频股东问询问答构建高频股东户数数据,减少传统低频股东数据滞后性带来的信息延迟,提高数据的时效性。

- 以公司回复日期(updateDate)为数据时间戳,结合定期报告数据,采用“低频数据优先,缺失时由高频数据替补”的合成逻辑形成完整数据序列。
  • 高频股东因子回溯周期一年,采用“隔月取值”的方法计算时序股东户数变化因子,避免连续月份数值重复导致因子无效。


测试结果
  • 纳入高频互动易数据后,合成股东户数变化因子在分组收益和多空对冲收益方面均有所提升,相较纯低频因子,多头累计净值从4.58提高至4.79,年化收益率22%,夏普比率提升至0.74。

- 高频因子相较低频因子表现更稳定且具有更高的超额收益潜力。
  • 进一步缩小股票池至“高回复股票池”(过去一年存在至少六个月有效回复的个股),提升数据质量和因子表现。测试显示分组收益更为单调,多头净值进一步提高,风险对冲效果更佳。


图表解读
  • 图12-14展现合成高频因子明显优于低频因子表现,净值曲线持续走高,更具稳健性。

- 图15揭示高回复股票池规模和稳定性,使得高频因子测试更具实操参考意义。
  • 图16-17三组分层的调整优化,解决因股票池缩小带来的非单调性。


本节创新点是结合高频互动易问答动态数据,降低传统股东数据时效性缺陷,验证了提升量化因子效果的可行性。[page::6,7,8,9]

---

2.4 因子比较及风险因子相关性分析


  • 四类股东因子进行综合对比:

- 低频原始变化因子(PCTN)
- 高频合成因子(M
PCTN)
- 高回复低频因子(H
PCTN)
- 高回复高频合成因子(H
MPCTN)
  • 高频因子整体优于低频因子,体现了信息利用频率对模型表现的正面影响,但高回复低频因子表现逊色,说明高回复股票池本身质地可能偏弱。

- 数值指标:
- 各因子均存在部分负值占比,IC指标均为负,暗示因子仍有改进空间。
- 年化收益率区间19%-22%,夏普比率中频因子有提升。
  • 股东户数变化因子与常见的七大主流风险因子(动量、市值、流动性、波动性、盈利、成长、非线性市值)相关性低,尤其与市值相关性极小,与流动性相关性最低但最高(约0.27),说明股东变化因子提供的选股信息具备较高独立性。


整体说明基于股东户数变化的因子可以作为完善选股框架的重要补充因子,且其贡献独特,不易被主流风险因子替代。[page::9,10]

---

2.5 不同股票池的因子表现


  • 测试范围覆盖四个深交所主要股票池:深证成指、创业板综指、中小板综指、深证综指。

- 高频合成股东因子均实现正向超额收益,但表现差异明显:
- 深证成指表现最优,年化超额收益超过10%。
- 创业板综指、中小板综指超额收益有限,尤其创业板在2013-2016年间甚至因子失效。
- 综合指数表现最弱,年化超额收益不足3%。
  • 多空对冲净值曲线显示成指股票池因子表现更稳定、涨幅最大。


结论:因子应用需切合具体股票池,选择合适股票池可显著提升策略表现,特别是在深证成指这样样本规模和流动性较好的股票池中,因子增益较明显。[page::10,11]

---

2.6 风险提示


  • 结果基于历史数据统计与模型推断,存在信息失效风险。

- 市场波动、非系统性风险、数据质量与模型假设均可能导致实际执行时表现不及预期。
  • 投资者应结合自身风险承受能力谨慎使用。


---

三、图表深度解读


  1. 图1(股东问询次数与波动率关系)

描述:展示2013-2020年互动易平台股东户数问询总次数与市场年化波动率的趋势对比。
解读:两条曲线呈正相关,表明市场波动加大时投资者更多询问股东户数,反映投资者在不确定市场环境下的信息需求加剧。
关联:验证了市场行为学中的信息搜寻心理,解释了股东户数数据关注度的市场驱动背景。
  1. 图3(有效回复个股数量分布)

描述:复盘互动易平台下,深交所上市公司对股东户数问询的有效回复次数,及个股覆盖度。
解读:大多数公司回复次数低,少数个股回复频繁,说明信息覆盖和披露积极性存在巨大的异质性,可能影响因子稳定性和策略的广泛应用。
关联:强调样本和数据覆盖在股东因子研究中的重要性。
  1. 图7-10(低频股东因子测试表现)

描述并解释低频股东户数绝对值因子及变化因子分组和多空对冲表现。
解读:绝对值因子无超额收益,变化因子具备一定选股能力,分组净值差异和走势清晰体现股东变化因子的潜在信息价值。
关联文本论证低频变化因子有效性的微观基础。
  1. 图12-14(高频合成股东因子表现)

描述高频合成因子较低频因子分组净值及对冲净值表现,对比显示高频因子稳定性和选股能力的提升。
解读:表明高频数据补充能有效降低信息滞后,提高因子价值,支持使用动力更强的数据融合策略。
  1. 图19-20(不同股票池因子表现)

描述不同指数成分股票池中高频因子和低频因子的表现对比,及高频因子多空对冲净值走势。
解读显示,精选指数样本(如深证成指)带来更稳定且显著的超额收益,强调股票池选择的重要性。

图表均充分支持作者论点,数据清洗严谨,时间跨度充足,覆盖多维指标展示因子表现,具备很高的参考价值。[page::2,3,5,7,8,9,10,11]

---

四、估值分析



本报告未针对单一公司进行企业估值,而主要通过股东户数数据构造多因子选股因子,注意力放在因子是否具备超额收益及其信息含量。估值方法多采用因子分析、分组收益、对冲净值、年化收益率及夏普比率进行量化评估。故不涉及传统DCF等估值模型,但基于因子统计特征及相关性分析,构建了以股东户数变动为核心的新型量化因子框架。

---

五、风险因素评估


  • 历史数据无法预测未来,模型可能随市场变迁失灵。

- 高频交互数据覆盖度及披露积极性不均,可能带来样本偏差。
  • 股东户数变化因子IC等指标仍为负,存在噪声干扰。

- 股票池限制导致因子收益波动大,尤其小盘股票池表现不佳。
  • 互动易平台数据的文本解析及转换有解读风险。


报告提示需结合多维度风险管理与优化策略持续迭代,避免过度依赖单一因子和数据源。[page::11]

---

六、批判性视角与细微差别


  • 假设前提:投资者股东户数变动反映资金动向的假设在报告中未充分讨论不同市场行为者(如机构与散户)结构差异对该假设的影响,可能带来因子解释力不足的问题。

- 样本覆盖:高频数据依赖互动易平台回复,有大量个股未覆盖,组合构建时可能带有选择偏差,影响因子普适性。
  • IC指标均为负:报告指标显示因子RankIC均为负,虽然投资组合层面有超额收益,但因子预测性不强,暗示需进一步优化或结合更多因素。

- 高回复低频因子表现不佳:对高回复股票池的低频因子表现弱于市场,提示高频数据质量与个股质地不独立,可能影响策略稳定性。
  • 数据显示部分分组收益单调性不足,调整分组数量后才改善,说明因子构建仍有改进空间。

- 没有涉及具体交易成本与滑点,实际策略落地时需考虑该重要因素。

报告整体逻辑严谨,数据分析充分,但应警惕过度解读因子信息量及样本选择偏差影响,进一步提升因子稳定性与鲁棒性仍是必要。[page::9,11]

---

七、结论性综合



本报告围绕深交所上市公司股东户数数据,系统性地剖析了低频和高频股东户数数据的市场信息含量及其在量化选股中的应用潜力。核心见解包括:
  • 低频股东户数绝对值因子难以产生稳定超额收益,反映股东户数规模本身与股价关联有限

- 股东户数变化因子具备显著的选股能力,说明增长或减少的股东数量包含主力资金建仓与派筹的信息
  • 引入互动易平台的高频股东数据,基于回复日期动态更新股东户数,能明显提升因子反映市场变化的时效性和超额收益能力

- 合成股东户数变化因子在多个股票池中表现优异,尤其是在深证成指这一流动性及组合规模均优良的股票池中,年化超额收益率超过10%
  • 股东类因子与主流风险因子相关性较低,具备良好独立性,是对现有量化策略的有益补充

- 个股层面数据披露不均及高频因子样本限制问题仍需关注,未来可结合更多维度数据和更广股票池完善策略
  • 风险因素包括模型历史数据依赖、信息披露偏差及市场结构变动等,投资者应用时应谨慎对待


图表诸如股东问询次数与市场波动率的相关曲线、因子分组收益与对冲净值走势等均强有力支撑了上述结论,表明高频股东户数数据在量化投资中的潜力和价值。

综上,开源证券金融工程团队通过科学严谨的数据整合与因子分析,系统揭示了高频股东数据对传统低频因子的补充作用,为中国量化股市提供了新的数据维度和创新思路,具有较强的实务指导意义及研究价值。[page::0-12]

---

关于团队



开源证券金融工程团队注重原创、深度研究,团队成员包括博士及多名国内顶尖高校毕业生,主笔魏建榕博士具有丰富的量化投资经验和国际学术发表记录,团队致力于推动中国量化投资研究深入发展。

---

总结



本报告通过对上市公司股东户数高频与低频数据的深度挖掘和量化因子构建,首次展现了高频股东数据的实际选股价值,尤其是结合互动易平台的动态信息补偿,显著提升了股东相关因子的预测能力和收益表现。因子表现稳定性和跨股票池差异亦被细致分析,为量化投资者提供了有价值的新兴工具和研究方向。

---

(全文分析基于报告页码标注,相关数据图表亦已重点解析及说明。)

报告