`

自选股与点击量:投资者关注度的选股能力 | 开源金工

创建于 更新于

摘要

本报告基于同花顺海量投资者行为数据构建了投资者关注度因子(个股点击量占比、新闻点击量占比、自选股占比),发现这些因子普遍具备显著稳定的负向选股能力,尤其个股点击量占比因子表现最优,RankIC达到-10%。该类因子与主流风格因子关联度较低,主要通过剔除空头端个股进行指数增强,尤其在中证1000股票池中效果最佳,年化超额收益率达4.7%-6.8%,且回撤控制较好,验证了投资者关注度作为alpha源的有效性与应用价值[page::0][page::1][page::10][page::11]。

速读内容


投资者关注度因子定义与数据特征 [page::1][page::2][page::3]

  • 关注度因子包括个股点击量占比、新闻点击量占比、自选股占比,代表市场及投资者对个股的关注度。

- 个股点击量极值可达到市场总点击量的8%以上,数据呈厚尾右偏分布,经过对数变换后近似正态分布。
  • 行业及市值影响显著,非银金融、银行、有色金属等行业点击量较高;大市值股票被点击概率明显大于小市值股票。





关注度因子表现:显著负向选股能力 [page::3][page::4][page::5][page::6]

  • 个股点击量占比因子RankIC均值为-10%,高关注度股票未来潜在收益显著为负,多空对冲年化收益率达19.83%。

- 新闻点击量占比因子表现稍弱,RankIC均值为-6.1%,但仍具负向选股特征,多空年化收益率9.7%。
  • 自选股占比因子RankIC为-7.58%,夏普比率最高达1.94,显示较稳定的负向选股能力。

- 资金量规模影响明显,低资金量用户的关注度因子负向指标更显著。
  • 自选股关注度变化(新增或剔除)也表现负向选股,且关注度波动小的股票未来表现更优。








关注度因子关联性与风格分离 [page::7][page::8]


| 指标 | 个股点击量占比 | 新闻点击量占比 | 自选股占比 |
|--------------|----------------|----------------|------------|
| 个股点击量占比 | 1.00 | 0.59 | 0.80 |
| 新闻点击量占比 | 0.59 | 1.00 | 0.61 |
| 自选股占比 | 0.80 | 0.61 | 1.00 |
  • 主要关注度因子间相关性较高,尤其个股点击量占比与自选股占比相关达到0.8。

- 投资者关注度因子与传统风格因子相关度较低,最大相关为市值因子约0.49。


投资者关注度因子指数增强应用 [page::9][page::10][page::11]

  • 个股点击量占比为空头端表现最优指标,在沪深300、中证500、中证1000不同指数中均显负向选股能力,最优表现出现在中证1000。

- 指数增强策略通过剔除空头端因子表现差个股,对指数权重进行再平衡或优化求解。
  • 中证1000指数增强策略测试期内累计超额收益达32%-50%,年化超额收益4.7%-6.8%,最大回撤控制在4.4%-14.6%。

- 沪深300增强策略收益提升幅度有限且波动较大,中证500表现居中。




量化策略实现细节与约束优化 [page::10]

  • 指数增强策略包括权重再平衡和约束条件下的最优权重求解。

- 优化模型在设置风格暴露度和行业哑变量的上下限约束基础上,最大化预期收益(最小化因子暴露度)。
  • 优化方法相较权重再平衡提升累积超额收益,但最大回撤相对更大。

深度阅读

报告详细分析:自选股与点击量——投资者关注度的选股能力



---

1. 元数据与概览


  • 报告标题: 自选股与点击量:投资者关注度的选股能力

- 作者与机构: 开源证券金融工程首席分析师魏建榕等,开源证券金融工程团队
  • 发布时间: 2022年3月27日

- 主题: 研究投资者个股关注度(包括个股点击量、新闻点击量、自选股数量等)与其对股票收益的预测能力,以及利用这些关注度因子指导投资策略,尤其是在指数增强框架下的应用。
  • 核心论点:

1. 投资者关注度因子(个股点击量占比、新闻点击量占比、自选股占比)均表现出稳健的负向选股能力,即高关注度的股票未来表现较差。
2. 这三类关注度因子彼此高度相关,但与传统主流风格因子相关性较低。
3. 基于这些关注度构建的指数增强模型,在市值较小(如中证1000指数)股票池中表现更优,多空对冲收益更显著。
  • 结论的投资应用: 利用关注度因子的空头端信息进行尾部个股剔除,可稳健增强指数的超额收益。

- 报告立意: 从海量的投资者行为数据中提取alpha信号,探索另类数据应用于量化选股的有效途径。
  • 评级与目标价: 本文为量化研究报告,未明确给出具体个股评级和目标价。 [page::0,1]


---

2. 逐节深度解读



2.1 投资者关注度因子的构建与表现



2.1.1 个股点击量占比因子


  • 定义: 当日某个股点击次数占全部股票点击次数的比例,反映市场对该股关注的程度。

- 统计特征: 单只股票当天最大点击量占比平均约1.1%,极端可达全市场点击的8%以上(图1)。数据呈明显右偏厚尾分布,经过对数变换后近似正态分布(图2)。
  • 行业与市值分层分析:

- 行业层面,非银金融、银行、有色金属、国防军工行业点击量占比最高,超过5%(图3)。
- 市值层面,高市值股票(尤其>500亿元)点击量占比显著高于小市值股票(图4,图5)。这符合市场关注有限和大市值股票熟知度较高的逻辑。
  • 表现与投资价值: 经过市值和行业中性化处理,及剔除上市不足一年的新股,测试发现点击量占比因子RankIC均值为-10%,多空组合年化收益率19.83%,多头年化收益率11.57%。高点击率股票未来表现普遍较差,验证了“人多的地方不要去”谚语(图6,图7)。

- 资金量级分析: 低资金量用户(持仓10~50万)点击的高浏览股票未来表现最差,说明低资金投资者行为的负面信号更显著(图8)。
  • 逻辑推断: 高频点击可能反映市场的非理性或情绪驱动,过度关注的股票往往是被高估,随后有负向回调。 [page::1,2,3,4]


2.1.2 新闻点击量占比因子


  • 定义: 个股新闻点击次数占所有上市公司新闻点击总次数的比例,体现外部新闻对投资者关注的驱动。

- 表现: RankIC均值为-6.1%,多空收益于2021年3月后经历较大回撤,多头年化收益11.42%,多空年化收益9.71%(图9,图10)。
  • 意义: 虽仍呈负向选股能力,但相较个股点击量因子预测力较弱且稳定性低,暗示投资者对新闻的反应更加波动和不稳定。 [page::4,5]


2.1.3 自选股占比因子


  • 定义: 个股被投资者加入自选股池的用户数占全部自选股用户数的比例,反映投资者主动关注度。

- 表现: 与前两者相似,表现出稳定的负向选股能力,RankIC均值-7.58%,多头年化收益11.08%,多空年化收益16.51%,夏普比率高达1.94(图11,图12)。
  • 资金量效果: 低资金投资者自选股占比中蕴含更负面的选股信号(图13)。

- 关注度变化指标: 通过计算自选股占比的月度差分和变化率,发现增加关注度(新增)和剔除关注度操作均预示未来负回报,且增加操作负效应更强(图14-17)。
  • 解释: 这表明个股未来表现受投资者整体关注度水平影响更大,而非关注度是增加还是减少。关注度变化大可能体现过度炒作或情绪波动。 [page::5,6,7]


2.2 投资者关注度因子间及与主流因子的关系


  • 投资者关注度因子间(个股点击量、新闻点击量、自选股占比)相关性较高,尤其个股点击量和自选股占比达到0.8,说明这几种行为是同一内在关注度反映的不同维度。

- 与传统风格因子(动量、价值、市值等)关联性低,最大为市值因子相关性约0.49。
  • 说明关注度因子反映了市场中相对独特的信息来源,非单纯市值效应(表1,图18,图19)。 [page::7,8]


2.3 基于关注度因子的指数增强策略研究



2.3.1 不同股票池中因子表现差异


  • 在沪深300、中证500、中证1000三大宽基指数中,个股点击量占比因子均表现出稳定负向选股能力,且在中证1000(小市值股票池)表现最优,RankIC均值-11%,RankICIR-3.10(图20,21)。

- 小市值股票池中个股的被关注情况更能反映风险,投资价值机会也更多。 [page::9]

2.3.2 “空头端股票剔除”增强方法(一):权重再平衡


  • 利用个股点击量占比因子的空头端分组,剔除被过度关注且预期表现较差的个股,再对剩余样本权重做归一处理。

- 结果:沪深300超额收益较小且不稳定,仅累积14%;中证500增强稳健但幅度有限,年化3.1%;中证1000效果优异,年化超额4.7%,最大回撤仅4.4%(图22-24)。
  • 该方法简单易行,但对行业风格暴露偏离控制有限。 [page::9,10]


2.3.3 “空头端股票剔除”增强方法(二):约束优化求解


  • 在剔除空头端个股基础上,利用多因子暴露约束(风格及行业)设置上下限,做最优权重配置,优化目标为最小化因子暴露(因子为负向选股因子)。

- 结果:沪深300优化超额收益提升至20%累计,但波动依旧较大;中证1000累计超额达50%,相较权重再平衡多17%,但最大回撤提高至14.6%(图25,26)。
  • 优化方法有助抑制行业风格暴露偏离,但投资风险有所提升。

- 约束设置合理非常关键,避免无解等问题。 [page::10,11]

2.4 风险提示


  • 报告明确提出,模型基于历史数据,且市场环境可能发生重大变化,历史表现不代表未来结果。 [page::11]


---

3. 图表深度解读



图1 & 图2


  • 描述个股点击量占比的极端取值和分布形态。点击量占比具有厚尾右偏分布,经过对数变换后趋近正态,显示极少数个股受大量投资者关注,关注度分布极不均匀。

- 该特性提示关注度因子存在大范围波动和尖峰事件的可能,分析需考虑数据分布特征。

图3 & 图4 & 图5


  • 不同行业和市值的点击量占比差异显著,金融和大市值股关注度显著高于其他。

- 说明行业热门度和规模效应显著影响投资者行为,因子分析需进行行业和市值中性化处理。

图6 & 图7


  • 个股点击量占比因子对应的RankIC及五分组收益路径,均体现明显的负相关性和多空分组较大幅度的业绩分差。

- 高点击量引发股票未来表现下跌或跑输预期的趋势显著。

图8 & 图13


  • 不同资金量级的投资者关注度因子表现均一致,且低资金组的负向信号更强。

- 反映不同资金量级投资者的关注行为含有不同程度的非理性成分。

图9 & 图10,图11 & 图12


  • 新闻点击量占比与自选股占比均同样呈现负向选股能力,表现相似但稳定性略逊于个股点击量因子。


图14–17


  • 自选股占比的差分及变化率展现极度尖峰厚尾分布,且关注度的边际新增操作带来更强烈的负面回报指示,说明关注度的变化方向反而影响有限,关注度水平更重要。


表1 & 图18 & 图19


  • 不同投资者关注度因子均体现负向选股能力,个股点击量占比因子表现最好。

- 高相关性聚合显示为同一类信息不同表现形式,且该信息对传统主流因子基本独立。

图20 & 图21


  • 因子在不同市值池中效果不一,中证1000小市值股池表现最好符合市场行为学逻辑。


图22–26


  • 空头股票剔除增强策略分别通过权重再平衡及优化求解两种实现方式,在中证1000指数中均取得显著稳健超额表现,优化求解获得的收益更高但波动也加大。


---

4. 估值分析



本报告侧重投资者行为因子的实证检验和策略应用,未涉及传统企业估值分析,也未给出目标价格或收益率预测区间,只对因子预测性表现及其应用效果定量呈现。主要估值“模型”是基于因子对未来收益的RankIC与多空组合收益的统计,及以此构建股票剔除的指数增强方法。策略层面采用:
  • 权重再平衡:对空头端个股剔除后,指数成分权重归一化。优点简单直观,限于风格调整不足。

- 约束条件优化:设置风格与行业暴露约束,最低维持指数覆盖度,最大化收益表现(最小化负向因子暴露)。求解递归最优权重。提升业绩但伴随更高波动。

报告对于优化求解约束参数设置有明确解释,包括风格与行业偏离界限±0.01、权重偏离±5%、成分股权重下限0.8帮助避免无解。此框架是典型的量化组合优化方法,充分利用了因子信号。 [page::10]

---

5. 风险因素评估


  • 模型历史数据依赖风险: 模型基于过去行为数据,假设市场环境和投资者行为模式稳定,经历史检验有效。未来市场可能变化,因子有效性可能削弱甚至失效。

- 数据覆盖与代表性风险: 数据主要来源于同花顺等移动交易软件,可能存在投资者样本的偏差,且主要反映散户行为,机构投资者行为影响有限。
  • 行业与风格偏离风险: 在简单权重再平衡时剔除个股可能导致行业、风格配置偏离基准,可能引发非预期风险。优化约束条件虽然缓解该风险,仍需关注约束的选择是否合理。

- 策略执行风险: 空头端个股剔除策略稳定性在不同指数间有差异,沪深300增强表现欠佳,操作需多空间市值指数慎用。
  • 市场极端波动风险: 如流动性紧缩、监管政策变化或黑天鹅事件可能影响因子行为及策略表现。

- 投资者行为变化风险: 随互联网环境演进,投资者行为模式可能改变,影响点击量等行为指标的有效性。

报告强调以上风险,提醒使用者谨慎对待历史因子表现,不作盲目推断。 [page::11]

---

6. 批判性视角与细微差别


  • 负向选股因子解释的复杂性: 报告清晰表明投资者关注度表现为负相关,且低资金投资者贡献更显著负信号。此可能揭示散户投资者短视、情绪化买入过热股票的倾向。但报告未深入剖析机构投资者行为,投资者行为层面的成因未展开,存在解释空间。

- 关注度高低与变化的双重信号: 关注度的“高低”比“变化”更能预测回报,这一点颇为有趣但逻辑略显粗糙,未对具体机制和行为经济学基础做进一步探讨。
  • 因子独立性论断有限: 虽与传统因子相关性不高,但与市值因子仍较高,是否完全独立因子需结合更多多因子模型验证才能判断。

- 风格暴露约束设置: 约束参数设置相对简洁,可能不足以捕捉复杂风格风险,约束太松或太紧都会影响策略稳定性。
  • 回撤风险与收益权衡: 优化策略提升收益但增加最大回撤,可能导致风险管理更加复杂,适用时需权衡。

- 局限性讨论不足: 报告重点在于量化模型验证,对行为金融学理论基础、投资者异质性差异、数据完整性等限制探讨较少。
  • 数据代表性风险承认不足: 主要来源于移动端软件数据,机构投资者和海外市场行为未覆盖。

- 策略实施成本和交易成本未涵盖,实际落地复杂度未知。

整体而言,报告建构严谨,数据详实,但对潜在偏误、外部变量和机制解释深度有限,仍需结合现实投资环境综合判断。 [page::0-11]

---

7. 结论性综合



报告系统地研究了基于投资者个股关注度的三大因子——个股点击量占比、新闻点击量占比和自选股占比,验证了如下关键发现:
  • 投资者关注度因子均具备稳定且显著的负向选股能力,尤其是个股点击量占比因子,RankIC均值达到大约-10%,多空年化策略收益接近20%。这印证了“高关注度股票未来表现较差”的市场经验规则。

- 关注度因子间高度相关(尤以个股点击量与自选股占比最高),与现有主流风格因子相关性较低,因而为独立有效的另类alpha信号来源。
  • 低资金投资者的关注行为呈现更强负向信号,揭示了散户群体的“羊群效应”及过度关注风险。

- 关注度变化(新增或剔除)本身表现为负向选股,且方向性不明,表明整体关注度水平比变化趋势更关键。
  • 应用方面,将个股点击量占比因子空头端个股剔除,纳入指数增强框架,有效提升中证1000及中证500指数的小市值股票池增强效果。

- 优化策略虽提升超额收益至50%累计,但风险及回撤也相应增加,投资者需权衡风险收益。
  • 大市值股票池增强效果弱,提示关注度因子对小盘股效果尤佳。


另外,报告配备大量图表(如图4点击量占比分布、图6反向表现的RankIC、图22-26指数增强的收益走势图)直观呈现各结论依据,数据详实,结论可靠。模型充分考虑行业和市值中性化处理及资金量级分层,展示出对市场行为差异性的深入理解。

总体来看,该研究为量化投资者行为因子挖掘提供了创新视角与实用框架,尤以个股点击量占比作为核心因子,对股票选股及指数增强策略开发具有明显启示意义,值得量化投资团队重点关注和应用验证。

---

图表部分举例


  • 图1(个股单日最大点击量占比) 显示个股最高关注峰值可达8%,体现投资者关注集中分布的极端情况。

- 图6(RankIC趋势) 历史上点击量占比因子的RankIC整体呈负,累积RankIC持续下降,证明负选股能力稳定。
  • 图11(自选股占比RankIC) 同样展现稳定负向选股信号,结合夏普比率较高证明投资价值。

- 图20(不同股票池RankIC走势) 不同指数显示因子表现差异,尤其中证1000效果最佳,市值因素影响显著。
  • 图24(中证1000增强组合累计超额收益) 显示指数增强效果良好,且最大回撤控制较好体现策略稳健。

- 表1 三大关注度因子多空组合收益及风险指标对比,突出点击量占比因子表现优越。

---

溯源



本分析严格基于报告内容推导整理,所有引用已标注对应页码,确保完整性和可追溯性。[page::0-12]

---

总结



该报告通过深入数据挖掘和全面实证验证,揭示了投资者关注度因子的负向选股能力及其应用潜力,尤其是在小市值股票池和指数增强领域的有效性,为量化投资提供了一条极具价值的另类数据应用方向。投资者和研究者应关注个股关注度水平的动态变化,警惕高关注度股票的潜在下跌风险,同时结合合理的风险控制与多因子约束,构建稳健的组合策略。

报告