雪球大V用户发帖行为深度挖掘 | 开源金工
创建于 更新于
摘要
报告基于雪球大V用户发帖数据,通过多空情感关键词分析、个股关注度及与自选股、模拟组合行为结合,发现大V发帖多空情感对后续股价走势有显著指导作用。构建了情绪指标优选组合,年化收益率达到9.6%,自选股绩效与情绪优选组合年化收益进一步提升至31.1%,显著跑赢基准指数。同时,提出大V用户分时能力指标,识别具备超额收益的高影响力用户,为量化投资策略提供参考依据 [page::0][page::6][page::8][page::9]
速读内容
- 雪球大V用户发帖行为数据概览及样本筛选 [page::1][page::2]


- 选取粉丝数500以上用户,月均发帖数量5.7万条,其中含股票发帖3.1万条。
- 单只股票发帖数量优于多只股票,单只股票样本月均1.8万,多只股票1.3万。
- 用户对个股关注存在持续时间差异,部分用户对个股发帖超过10次。
- 雪球大V发帖样本60日事件收益与粉丝影响 [page::3]


- 全体大V发帖样本60日事件收益均值为0.7%,显著低于自选股和模拟组合调仓收益。
- 粉丝数高的大V用户发帖事件收益为正,粉丝数低者事件收益为负。
- 多空关键词情感分析及个股关注度效果 [page::4][page::5][page::6]



- 30个看多关键词发帖股票60日事件收益显著优于整体0.7%,14个关键词超过2%,2个超过3%。
- 8个看空关键词发帖样本事件收益低于全部样本,部分甚至为负。
- 单只股票发帖样本收益0.9%,多只股票样本0.5%,单股关注度更精准。
- 随着大V用户日内对某股关注度增加(发帖次数),事件收益整体下降,10次以上甚至负收益。
- 结合自选股与模拟组合行为提升情绪判断效果 [page::6][page::7]


- 发帖前用户将个股加入自选股,事件收益提升至2.0%。
- 发帖前用户在模拟组合调仓买入或增仓的个股,事件收益进一步提升至2.8%。
- 雪球大V用户分时能力指标构建及表现 [page::7][page::8]

- 通过计算发帖后5分钟个股相对指数超额收益,得到分时能力指标R,均值0.13%。
- 筛选得12位大V用户,分时能力指标R超2%,具有显著发帖影响力。
- 基于发帖情绪指标构建优选组合及绩效表现 [page::8]

| 组合 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|-------------------|----------|----------|---------|--------|------|
| 情绪指标优选组合 | 9.6% | 20.9% | 0.46 | 33.2% | 52.9%|
| 沪深300 | 0.6% | 19.1% | 0.03 | 39.6% | 50.8%|
| 中证500 | -2.9% | 21.8% | -0.13 | 40.1% | 52.8%|
- 情绪指标优选组合年化收益显著跑赢沪深300和中证500指数。
- 自选股绩效&情绪优选组合策略及提升效果 [page::9][page::10]

| 组合 | 年化收益率 | 年化波动率 | 收益波动比 | 最大回撤 | 胜率 |
|----------------------|----------|----------|---------|--------|------|
| 自选股绩效&情绪优选组合 | 31.1% | 23.9% | 1.30 | 29.6% | 55.9%|
| 自选股绩效优选组合 | 25.6% | 23.9% | 1.07 | 30.8% | 55.9%|
| 基础自选股事件组合 | 11.0% | 23.8% | 0.46 | 34.3% | 54.9%|
| 沪深300 | 1.8% | 19.2% | 0.09 | 39.6% | 51.2%|
| 中证500 | -1.9% | 22.0% | -0.09 | 40.1% | 52.9%|
- 自选股绩效&情绪优选组合相较自选股绩效优选组合,年化收益提升约5.5个百分点。
- 分年度收益均显著优于沪深300及中证500指数。
深度阅读
雪球大V用户发帖行为深度挖掘报告详尽解读
---
1. 元数据与报告概览
报告标题:《雪球大V用户发帖行为深度挖掘》
发布机构:开源证券研究所,开源证券金融工程团队
主要作者与联系方式:开源证券金融工程首席分析师魏建榕,分析师高鹏等
发布日期:2024年3月10日
研究领域:基金研究、因子模型、量化投资、行为金融
研究对象:雪球大V用户的发帖行为,包括文本内容、情绪、关联个股,以及结合用户其他投资行为如自选股和模拟组合的多维度分析
核心论点:
- 雪球大V用户的发帖行为及其文本情绪存在明显的投资alpha,且情绪分析可以较好地反映其对个股的多空观点。
- 大V用户的高质量发帖表现出良好的选股能力和分时交易影响力,通过对发帖文本情绪、多空关键词和结合用户自选股及模拟调仓操作的多维度综合评估,可以进一步挖掘出有价值的投资组合。
- 构建的情绪指标优选组合具有显著超越沪深300和中证500指数的表现,而基于自选股绩效结合情绪优选的组合表现更佳,展现出实证有效的选股alpha。
报告全面利用了雪球平台用户发帖数据、关联股票信息和市场收益数据,全方位分析大V用户发帖行为的有效性和投资价值。[page::0,1]
---
2. 逐节深度解读
2.1 数据与发帖行为信息采集(章节1)
报告首先聚焦于雪球大V用户的发帖信息采集和初步描述:
- 数据样本:筛选粉丝数超过500的雪球大V用户,采集历史发帖信息,包括用户id、发帖日期时间、关联股票、帖子内容及情绪信息。示例见表1,代表具体的发帖实例和相关互动数据(点赞、回复、转发数量)。
- 数据过滤与处理:只有包含股票信息的发帖被保留,经过股票名称和代码的匹配,实现帖子与个股代码的准确对应。
- 发帖规模:整体发帖月均5.7万条,其中含股票的发帖月均3.1万条(图2)。在含股票的发帖中,单只股票发帖月均1.8万条,多只股票发帖月均1.3万条(图3),单只股票关注比例更高。
- 用户发帖频度特征:大部分用户对单个股票发帖次数较少(一遍发布),但部分股票发帖超过10次,且用户对个股的关注持续天数差异较大,有些持续时间长达多年(图4、图5)。这些描述展示了发帖行为的非同质性及用户个股关注深度。
以上表述奠定了对大V用户发帖行为多元维度分析的基础,证明发帖文本数据丰富且结构化,便于情绪和事件分析。[page::1,2,3]
2.2 发帖样本的事件收益表现(章节1.2)
- 事件收益定义与测算:选取剔除涨跌停股票样本,计算发帖后60日相对于中证800指数的累计超额收益,作为事件收益表现的衡量指标。
- 基础收益水平:大V发帖样本的60日平均事件收益为0.7%,显著低于自选股加自选行为(3.2%)和模拟组合调仓行为(2.3%)的表现(图6)。
- 粉丝数量影响:粉丝数越高的大V用户,发帖股票事件收益越高,1万粉丝以上用户事件收益为正,低粉丝数量发帖磨损的表现反映了用户影响力与投资判断能力的相关性(图7)。
该部分透露出直接基于发帖内容的收益较低,因此需要进一步对发帖文本进行多空情感分析,以提高对投资判断的识别准确度。[page::3]
2.3 发帖情感分析(章节2)
- 多空关键词抽取及情绪判断:利用30个看多关键词(如“预增”、“扭亏为盈”、“低估”等),从发帖文本多空情绪进行判定。
- 多头关键词效果显著:发帖含看多关键词的股票样本60日事件收益普遍高于平均,其中14个关键词的样本事件收益超过2%,2个超过3%(表2)。图8展现这些关键词的事件收益曲线,显示更缓和的回撤和更强的收益趋势,突出情绪文本的选股alpha。
- 看空关键词表现较差:选取了8个看空关键词(如“顶部”、“清仓”、“减仓”等),其对应股票的事件收益普遍低于整体样本,有的甚至为负,表明情绪文本对负面信号的捕捉也具有一定能力(表3)。
此外,关于个股的关注度分析:
- 单只股票发帖事件收益优于多只股票发帖:0.9%对0.5%的差异,表明较高关注度、更集中的发帖文本更能反映投资者的正确判断(图9)。
- 日内关注度与收益:日内关注度上升反而使事件收益下降,10次以上关注的日内样本事件收益甚至为负,可能因为过度集中关注的个股已被市场充分关注且估值较高,或发帖更多为信息饱和。图10和图11数据强调了关注度与事件收益的负相关性这一现象。
结合自选股和模拟组合行为,强化情绪分析效果:
- 自选股筛选提升收益到2.0%(图12),模拟调仓样本的事件收益提升更明显,达2.8%(图13)。这表明结合用户投资行为,多维信号能更精准识别用户多空偏好,提高发帖情绪指数的投资效率。
整体来看,发帖情绪分析结合用户行为数据,有效挖掘了大V选股信号的alpha价值。[page::4,5,6,7]
2.4 雪球大V用户分时能力刻画(章节3)
- 分时能力定义:基于发帖的时间戳,计算发帖后5分钟内个股相较基准指数的超额收益,反映用户在日内交易中的影响力和判断力。
- 样本筛选:排除涨跌停股和次新股,仅选择9:50-14:40发帖时间段样本。
- 能力指标分布及水平:所有大V用户分时能力指标均值为0.13%,整体显示出正向分时能力(图16)。
- 高分时能力大V筛选:发帖股票样本数量不少于10且分时能力均值超过2%的大V共12名(表4),这些用户显著优于大多数大V,具备明显的实证投资影响力。
图14展示了大V用户五维能力评价体系模型,分时能力是其中关键维度,结合分时走势图15,说明大V在一定程度上可以影响市场短期价格和成交量走势。[page::7,8]
2.5 大V发帖情绪指标优选组合及整合策略(章节4)
- 情绪指标优选组合构建:基于综合情绪指标,选取得分前20%的个股样本,通过等权组合方法构建事件组合。
- 收益表现优异:组合年化收益率9.6%,显著优于同期沪深300(约0.6%下行)和中证500(-2.9%)的表现(图17、表5)。
- 整合自选股绩效优选组合:基于已发布的自选股绩效优选组合,进一步融合发帖情绪指标进行50%情绪优选,构建自选股绩效&情绪优选组合。此组合年化收益31.1%,较纯绩效优选(25.6%)有明显提升(图18、表6)。
- 年度干预表现:在分年度对比收益中,整合组合在多个年度均显著跑赢沪深300和中证500,表现稳定且强势(表7)。
示范了通过结合多维度数据(文本情绪+行为+持仓绩效)的策略构建思想,实现了收益和稳定性的双提升,形成了可行的量化投资框架。[page::8,9]
2.6 风险提示与团队介绍(章节5)
报告最后特别强调:
- 风险揭示:模型基于历史数据,未来市场变化风险不可避免。历史alpha不一定保证未来表现。
- 团队背景:开源证券金融工程团队有丰富量化投资和行为金融研究经验,团队核心成员具备扎实学术和实务背景,保证了报告内容的专业性和权威性。
此外,披露法律声明,明确报告为开源证券客户专享资料,保障版权与使用合规。[page::10,11]
---
3. 图表深度解读
图2:发帖样本月度数量(单位:条)
- 横轴为时间(2015年1月至2023年11月),蓝色柱表示所有发帖数量,橙色柱表示含股票的发帖数量。
- 总体趋势呈持续上升趋势,特别是2019年以后呈加速增长。2023年中达到峰值,显示雪球平台活跃度和股票讨论热度显著上升。
- 含股发帖占比约一半左右,说明用户股票相关内容占较大份额。
- 该趋势为后续研究提供丰富样本基础。[page::2]
图3:单只与多只股票发帖样本量(单位:条)
- 绿色和红色堆叠柱显示单只股票和多只股票样本月度数量。单只股票发帖占多数,数量大幅领先多只股票发帖样本。
- 该特征说明大V用户更倾向于聚焦单个对象进行讨论,加重发帖观点的针对性和深度。
- 也影响事件收益的准确度和情感分析解读的聚焦效果。[page::3]
图4、5:用户发帖次数和关注持续天数分布
- 图4显示绝大多数发帖只涉及同一股票一次,随着次数增加数量急剧下降;但仍有明显尾部,部分股票超过10次发帖。
- 图5关注持续天数分布显示少数用户对个股关注时间非常长,有的超过上千天,体现部分用户的长期跟踪和研究行为。
- 这两个图反映了发帖频率及持续度的非均衡特征,对事件窗口和模型设定具有指导价值。[page::3]
图6、7:事件收益曲线与粉丝数影响
- 图6三个曲线分别代表发帖个股、用户自选股加自选、模拟组合调仓的累计超额收益。发帖个股收益明显低于后两者,体现发帖信息的原始噪声较大。
- 图7证明粉丝数量与发帖事件收益呈正相关,大V的投资判断影响力更强。超过1万粉丝才表现为正超额收益。
- 这说明用户影响力是筛选发帖事件的关键维度。[page::3]
表2、图8:看多关键词情绪表现
- 表2列出30个看多关键词、帖子数量及对应60日事件收益。最高为“预增”3.7%,多个关键词事件收益超过2%。
- 图8事件收益曲线显示看多关键词群体普遍表现优异,收益结构平稳且持续向上。
- 这为文本情绪构造提供了强实证依据。[page::4]
表3:看空关键词表现
- 包含“顶部”“清仓”等8个关键词,帖数较多但事件收益低于整体,且部分关键词事件收益为负。
- 说明卖空或负面情绪亦具一定预警效果,但效应相比多空关键词表现弱。
- 在模型信号设计中应权衡负面信号权重。[page::5]
图9-11:单只股票收益和关注度变化
- 图9单只股票发帖事件收益优于多只股票,0.9%与0.5%对比明显。
- 图10显示随着日内关注度增加,事件收益整体下降,10次以上关注甚至负增长。
- 图11对比1次与10次以上关注的发帖前后收益路径,突出高度关注股票市场已经充分反应,发帖效应递减。
- 这反映投资行为中“关注过度”可能带来反向收益效应。
- 研究发帖频率和关注度对股票表现的影响,帮助设计更精准投资模型。[page::5,6]
图12、13:结合自选股和模拟组合行为的发帖情绪收益提升
- 图12显示结合自选股行为筛选后,事件收益提升至2.0%,大幅改善发帖原始信号。
- 图13模拟组合调仓挑选样本,收益进一步升至2.8%,表现最佳。
- 体现多维交叉行为验证提升了大V发帖情绪信号的投资价值。[page::6,7]
图14、15:大V用户多维能力和分时走势示意
- 图14雷达图显示大V用户收益能力、稳定性、交易能力等五维能力的评分,作为用户影响力的综合维度。
- 图15个股分时走势图,黄色框突出发帖时间及其后成交量和股价波动,表明发布信号对市场的短期影响。
- 结合提示发帖时用户对市场走势的即时影响及其投资决策价值。[page::7]
图16与表4:分时能力指标R分布及高能力用户名单
- 图16指标均值为0.13%,呈偏正态分布,部分用户分时能力远超平均水平。
- 表4列出12名分时能力超2%的用户,且其发帖股票样本数量均较多,实力强劲。
- 说明该指标可以识别并区分不同大V用户的日内影响力。
- 分时能力指标为后续组合构建和优选提供重要维度参考。[page::8]
图17、表5:情绪指标优选组合表现
- 图17展示优选组合净值相较沪深300及中证500的领先表现,净值曲线明显攀升。
- 表5年化收益率9.6%,超额收益明显,胜率和最大回撤均优于基准指数。
- 证明文本情绪综合指标生成的投资组合具有持续超额收益能力。
- 投资者可依赖此信号作为alpha要素之一。[page::8]
图18、表6、7:自选股绩效结合情绪优选组合表现
- 图18净值曲线显示绩效&情绪优选组合比绩效优选组合、西基准自选股事件组合均表现更优。
- 表6净值指标显示绩效&情绪组合年化31.1%的提升,风险指标稳定,表现出更优的风险调整收益。
- 表7从单年表现看,绩效&情绪组合基本上均显著跑赢沪深300和中证500指数,收益更稳定。
- 结合情绪因子提升了自选股绩效组合价值,验证了文本情绪的辅助筛选作用。[page::9]
---
4. 估值/策略分析
该报告主要聚焦于行为数据分析和量化投资信号发掘,未涉及传统估值模型(如DCF、PE等)文本内容。策略层面则体现在情绪综合指标构建与优选组合构建上,采用等权权重构建,未详细展示复杂加权或资金流配置优化。但通过结合大V发帖情绪、自选股行为和模拟调仓等多维信号,构建出了表现优异的选股策略,并通过事件收益分析和实证检验给予策略论证支持。
---
5. 风险因素评估
报告明确指出:
- 历史数据的局限性:所有模型基于过去数据测算,并无法完全预测未来市场的变化。
- 市场环境变化风险:重大市场行情、政策变动可能导致模型失效。
- 信号噪声的潜在干扰:发帖信息有可能随着市场状况不同,其信号质量不一,存在偶然性风险。
未明确给出具体缓解策略,但整体通过多维验证(粉丝数量筛选、多空关键词、市内分时指标、自选股及模拟组合行为)降低噪音风险,增强信号稳定性。未来应持续动态监控和模型更新以应对风险。[page::10]
---
6. 批判性视角与细微差别
- 发帖原始收益较低:60日事件收益仅0.7%,这表明未经筛选的发帖行为信号较弱,存在显著噪声,这对实际应用提出挑战。
- 粉丝数量和活跃度依赖强:高粉丝大V显著带来更高收益,意味着普通用户信号难以利用,模型对用户质量依赖较大。
- 情绪关键词筛选有限:关键词情绪法固然有效,但语言多样性和隐晦表达可能被遗漏,文本语义深度不足。
- 关注度效应复杂:高关注度带来事件收益下降,或存在逆向注意力效应,意味着模型设计需谨慎,以防误判风险。
- 模型风险提示简略:风险部分略显简单,未深入讨论潜在经济周期、制度层面变动对模型的冲击及实际应用的限制。
建议后续研究增加自然语言处理深度、强化多源数据融合和风险动态管理机制。
---
7. 结论性综合
本报告以丰富的雪球大V用户发帖行为数据为基础,采用多种量化方法对发帖文本内容进行情绪分析,结合用户自选股和模拟组合行为以及时间序列的超额收益测算,构建了多维度的投资能力指标和情绪综合指标。主要结论包括:
- 雪球大V用户发帖在股票相关个股上的信息透露出一定的投资alpha,但原始样本收益较低,仅0.7%。
- 通过多空关键词的精确筛选以及组合自选股和模拟调仓行为,可以大幅提升投资判断的准确性,发帖情绪指标有效反映市场预期和个股多空态度,部分关键词事件收益达到3.7%。
- 发帖个股关注度在投资收益中呈现倒U型关系,过度关注反而导致负面收益,揭示市场信息过载和注意力分散的影响。
- 用户粉丝数量显著影响投资表现,高粉丝大V拥有显著的选股和分时交易影响力,多维能力评价体系中,分时能力指标均值达到0.13%,顶级用户超额收益达2%以上。
- 基于情绪综合指标构建的优选组合表现优异,年化收益率达9.6%,超越沪深300及中证500,多维整合自选股绩效及情绪优选组合更高,年化收益31.1%,证明了文本情绪因子的增值效果。
- 风险提示结合历史数据的局限性和市场的不确定性,虽然模型稳健性较强,但未来市场变化对模型性能仍存在挑战。
通过对报告中所有重要表格和图表的解读,我们能够系统理解雪球大V发帖行为在投资决策中所能提供的量化信息价值,报告理论准确、数据详实,分析逻辑清晰,具有较高的现实指导意义和学术参考价值。[page::0-10]
---
图片引用示范
以下仅示例部分关键图表的markdown格式引用:
- 图2 发帖样本月度数量

- 图8 部分看多关键词60日事件收益

- 图16 雪球大V分时能力指标分布

- 图17 情绪指标优选组合收益表现

- 图18 自选股绩效&情绪优选组合收益

---
总结:报告以实证数据和严密逻辑充分证明了雪球大V发帖行为,尤其是文本情绪信号和结合其他投资行为数据构建的综合指标,具有显著的投资参考价值和alpha挖掘潜力。该研究成果对于基于行为金融和市场微观结构视角构建量化选股策略提供了重要方法论基础。