股吧里说了什么?— 基于文本舆情构建股市情绪指标
创建于 更新于
摘要
本报告基于近一年某股吧正文及评论数据,运用文本情感分析技术构建股市情绪指标。通过情绪词频统计与评分方法量化积极与消极情绪,发现情绪指标与上证指数涨跌幅同期性强,线性相关达0.51,且假期情绪对下一交易日表现具有显著溢出效应。基于N日加权移动平均平滑的情绪指标构建交易策略,在2020年3月至2021年3月回测期间,该策略收益达36.78%,略优于基准33.78%,表明股市情绪指标在市场情绪捕捉及投资决策中具有重要参考价值[page::0][page::2][page::6][page::7][page::8]
速读内容
- 报告采用自然语言处理与文本挖掘技术,从某xx股吧近1年正文及评论数据中提取情绪信息,通过分词与字云可视化确定情绪相关词汇,间接表达情绪的市场描述词频率高于直接情绪词,成为情绪词典构建关键参考 [page::3][page::4]

- 构建情绪词汇评分体系,将情绪词赋予不同的积极/消极分数(如“赚”“大涨”为2分,较“涨”“上涨”等的1分更强烈;消极词“亏”“跌停”为-2分),每日积极与消极分数加和形成总情绪分数。样本期间74%时间情绪总分为正,表明市场整体偏积极 [page::5]
| 积极情绪词 | 分数 | 消极情绪词 | 分数 |
|------------|------|------------|------|
| 盈利 | 1 | 亏损 | -1 |
| 涨 | 1 | 跌 | -1 |
| 反弹 | 1 | 回调 | -1 |
| 上涨 | 1 | 下跌 | -1 |
| 开心 | 1 | 伤心 | -1 |
| 赚 | 2 | 亏 | -2 |
| 涨停 | 2 | 杀跌 | -2 |
| 新高 | 1 | 新低 | -1 |
| 牛市 | 1 | 熊市 | -1 |
| 有戏 | 1 | 完蛋 | -1 |
| 满意 | 1 | 失望 | -1 |
| 快乐 | 1 | 郁闷 | -1 |
| 大涨 | 2 | 跌停 | -2 |
| 突破 | 1 | 调整 | -1 |
- 情绪极值与市场状态高度同步,最高情绪分数46对应2020年7月上证指数快速上涨区间,最低-35对应3月市场见底,情绪波动亦反映了宏观事件导致的市场情绪过度反应 [page::6]

- 情绪分数与上证指数涨跌幅存在0.51的线性相关性,曲线走势基本同步,验证了股市情绪与市场走势的相关假设 [page::6][page::7]

- 假日情绪对下一交易日具有显著溢出效应,周末假期情绪对下一个交易日情绪同向占比73.58%,对涨跌幅同向占比62.26%,体现市场休息期间情绪传播的持续性和重要性 [page::7]
- 构建基于N日加权移动平均平滑的情绪指标交易策略:当日情绪指标≥N日加权均值,次日开盘买入;反之,次日收盘卖出。策略回测期为2020/3/18至2021/3/28,策略年化收益36.78%,略超基准33.78%,最大回撤仅-2.72%,胜率59.62%,盈亏比1.87,表现稳健 [page::7][page::8]


| 标的 | 策略收益率 | 基准收益率 | 胜率 | 盈亏比 | 最大回撤 |
|---------|------------|------------|--------|--------|-----------|
| 沪深300 | 36.78% | 33.78% | 59.62% | 1.87 | -2.72% |
深度阅读
一、元数据与概览
本报告题为《股吧里说了什么?—基于文本舆情构建股市情绪指标》,由东莞证券研究所资深分析师包冬青执笔,发布日期为2021年4月6日。报告聚焦于利用文本情感分析技术构建股市情绪指标,研究市场舆情与股市波动之间的关系,并进一步探讨基于情绪指标的量化交易策略,尤其侧重沪深300指数。风险评级为“中风险”,符合该类股票和股票型基金的风险偏好等级。
报告核心论点是:利用自然语言处理和文本挖掘方法,提取股民在某股票论坛(xx股吧)一年的评论和正文内容,辨识其积极或消极情绪得分,构建反映股市整体情绪态势的指标。该指标与市场指数涨跌表现高度相关,能捕捉关键市场情绪波动,且基于该情绪指标设计的量化策略在历史回测中取得了优于市场基准的收益表现。报告重申了量化模型基于历史数据的局限,指出存在模型偏差风险。
二、逐节深度解读
2.1 投资要点与引言解读
报告开头即明确,文本情感分析(意见挖掘)是以自然语言处理为技术,识别和抽取文本中的主观信息,即情绪态度,其目的是探测和量化股民对市场的整体情绪表达。文本数据采集自近1年间某股票论坛正文及评论,先数据清洗和分词,再借助数据可视化(字云图展示词频),从中挑选出情绪词汇构建评分词典,区分情绪强弱赋予分值,计量文本中的积极与消极得分,最终合并为“情绪总分”指标。
关键结论有:
- 样本期间内(2020年3月18日至2021年3月28日),情绪指标呈积极态度的频率为74%,反映股民整体持乐观意见。
- 情绪总分极端值对应市场阶段性高低点,说明情绪指标对市场的实时指示性。
- 情绪波动与指数涨跌幅具备较高线性相关性(0.51)。
- 假日期间情绪有溢出效应,较大概率影响下一交易日的情绪和市场涨跌。
- 设计基于N日加权移动平均的交易策略,回测取得约36.78%收益,略跑赢基准33.78%,且胜率和盈亏比均表现良好。
此外,报告强调此量化研究基于历史数据推导,不保证对未来适用,存在模型风险。
整体介绍了情绪文本分析的研究背景、技术流程和股市情绪指标的构建意义,为报告后续章节奠定基础。[page::0]
2.2 目录概览
目录清晰划分为文本情感分析的基础介绍(含定义与股市假设)、基于文本舆情构建情绪指标(含数据获取及模型构建)、量化情绪指数策略设计与表现、风险提示四大部分。配套图表包括文本分析方法流程图、股吧评论样例、词云图、情绪统计图、情绪与指数关系等,系统展现研究思路和成果。[page::1]
3. 文本情感分析的应用解读
3.1 什么是文本情感分析
作者详细解释文本情感分析技术,包括关键词识别、统计方法、词汇关联和概念级技术等途径,涵盖对文本情绪两极分类(积极、消极、中性)及更细分情绪状态(如生气、悲伤等)的识别。历史研究先驱Turney和Pang的工作被引用,确保理论基础稳固。文中图1描述了舆情数据从采集(媒体资讯、社交平台),原始文本(用户评论、反馈),数据预处理(清理、去重),到文本分析(词频和情感分析)的全流程。此部分为报告构建情绪指标提供了技术与流程支持的理论依据。[page::2]
3.2 文本情感与股市关系的假设
作者假设股市情绪表达与市场走势具同步性。市场上涨时,股民以积极词汇表达喜悦、炫耀之情;下跌时,则以消极词汇表达悲观、抑郁心态。各大交易平台的社区建设(如股吧)使股民情绪更易被捕捉,进而为量化分析提供丰富的舆情数据。[page::2]
4. 基于文本舆情构建情绪指标的具体过程
4.1 数据提取与清理
基于2020年3月18日至2021年3月28日某xx股吧的正文与评论,作者对原始数据进行了清洗,剔除无效符号与空值,完成分词处理。利用字云图可视化方法识别高频词,“大盘”一词频率最高,验证样本的代表性和针对性。情绪词典不仅包含了直接表达情绪的词(如“快乐”、“郁闷”),还加入了大量描述股市行情间接表达情绪的词(如“涨”、“跌”、“反弹”、“调整”),体现作者理解股民文本情绪隐含的复杂性。此方法加强了情绪词典的全面性与准确性。[page::3][page::4]
4.2 模型建立与情绪评分
通过对文本进行词频统计,报告列出多个出现次数较高的情绪词,如“涨”(3104次)、“跌”(3256次)、“赚”(1521次)、“亏”(1373次)、“反弹”(1238次)等。频率远超直接描写词汇“快乐”(371次)、“伤心”(20次),强调间接情绪表达的主导地位。基于此,作者采取赋分方法,将情绪词根据情绪强弱区分给予不同权重,例如“赚”、“涨停”、“大涨”赋予高分2,“亏”、“杀跌”、“跌停”赋予-2分。每日文本累计积极分数和消极分数相减,形成情绪总分指标,正分代表积极态度,负分代表消极,零分则为中性。情绪总分据此被用来量化日常股民情绪动态。[page::4][page::5]
4.3 情绪指标与市场表现分析
- 从2020年3月18日至2021年3月28日样本期观察,情绪总分大于0的频率为74%,体现整体情绪偏积极。
- 极端值指示市场情绪波动,情绪最大值为46,出现在市场快速上涨的2020年7月上旬(对应上证指数3025至3333点);最低值-35出现在市场下跌尾声2020年3月18日(2728点附近)。随后几日情绪由消极转为积极,恰与市场3月19日见底(2647点)相呼应。
- 2021年3月初到3月底的筑底反弹区间,情绪虽为积极但略低于样本期均值7,表明市场回暖但热度不足。
- 2021年1月至2月中旬,情绪波动剧烈,消极情绪急骤至 -30,但指数跌幅未相匹配。此主要源于市场对美联储货币政策紧缩的过度担忧,反映情绪指标可以揭示市场担忧因素,而不仅仅是价格波动本身。
- 线性相关系数为0.51,证明情绪指标与市场涨跌幅具中度正相关,情绪波动在一定程度上反映市场波动。[page::6]
5. 假日情绪与交易日关系
报告发现周末及节假日的股民情绪对下一交易日有显著溢出效应:
- 周末及假期的情绪与下一交易日情绪同向概率为73.58%;
- 情绪与下一交易日涨跌幅同向概率为62.26%。
意味着即使市场关闭,情绪“热度”依然持续传导,具备连续性和预测意义,对后续市场走势提供参考依据。[page::7]
6. 情绪指数交易策略构建与表现
基于发现的情绪指标具有一定的预测价值,作者提出基于N日加权移动平均平滑的择时策略。策略规则为:
- 当沪深300指数当日情绪指数≥其N日加权移动平均值时,第二日开盘买入;
- 当当日情绪指数<N日加权移动平均值时,第二日收盘卖出。
该策略已考虑情绪指标一天滞后性,且交易成本假设包括固定滑点0.01%,佣金万2,印花税千1。回测区间3/18/2020至3/28/2021表现优异:
- 策略收益36.78%,略优于基准33.78%;
- 最大回撤为-2.72%,相对较低;
- 胜率59.62%,说明较高的操作成功概率;
- 盈亏比1.87,展现盈利交易较亏损交易收益较高。
图表清楚展示了策略收益曲线优于基准,体现了情绪指标作为择时信号的实用价值。[page::7][page::8]
7. 风险提示
报告职能部门明确指出,此量化情绪指标构建与策略测试均基于历史数据,未来市场环境、投资者心理及外部政策变化均可导致模型失效,存在模型偏差风险。投资者应谨慎使用此类模型,避免盲目套用。[page::8]
三、图表深度解读
- 图1:文本舆情数据分析方法流程图
描述了从舆情数据采集(媒体资讯、社交平台)、原始数据(用户评论反馈)、数据预处理(文本清洗和去重)到文本分析(词频和情感分析)的完整流程,体现了数据通过爬虫和文本工具加工,实现情绪分析的整体路径。这为后续模型构建奠定技术基础。[page::2]
- 图2:xx股吧评论截图
展示了股民真实评论的部分样例,内容涵盖市场走势讨论、交易策略及情绪表达,验证了论坛数据的真实性及代表性,为数据采集提供质量保证。[page::3]
- 图3:评论数据字云图
高亮显示了“股市”、“大盘”、“涨”、“朋友”等词汇,“大盘”字号最大,说明该词被广泛讨论。字云非法定量图但直观反映了市场舆情中核心关注点和高频词,有助构建情绪词典。[page::4]
- 图4:情绪词频率统计图
细节显示多个情绪词的出现次数,“涨”、“跌”均超过3000次,“赚”“亏”“反弹”“调整”等均有量级占比,间接情绪词频率远超直接情绪词(如“快乐”、“伤心”)。说明情绪指标应包含大量间接市场动作词汇,实现情绪捕捉的准确性。[page::4]
- 表1:情绪词评分表
将积极及消极词对应分数列出,基于情绪强度等级分配如“赚”、“涨停”、“大涨”赋2分,普通“涨”、“盈利”赋1分,消极对称。通俗中规中矩的评分体系,具可操作性,方便量化计算每日情绪得分。[page::5]
- 图5:情绪词频率分布图
显示积极(蓝色面积)与消极(橙色面积)词频随时间的动态分布,波动明显,有助理解情绪变化节奏,体现市场情绪的时间动态。[page::5]
- 图6:情绪总分与上证指数关系图
纵向左轴为指数,右轴为情绪总分,图中情绪峰值与指数上涨同期,低谷对应指数下跌。图中用红色圈、绿色圈分别突出极值时间点,说明情绪极端值与市场重要转折点存在时间一致性支持了结论1。[page::6]
- 图7:情绪总分与上证指数涨跌幅关系图
两条曲线紧密贴合,反映情绪与涨跌幅的强相关性,辅助定量0.51的线性相关系数说明。此图成关键证明情绪指标具备把握行情涨跌的潜在能力。[page::7]
- 图8:情绪总分与N日加权移动平均曲线
展示了原始情绪分数(高波动)和平滑后的加权移动平均曲线,展示了策略信号的平滑处理思路,明确了择时逻辑中对噪声的减缓处理,有助减少短期杂乱波动导致的交易失误。[page::7]
- 图9 & 表2:情绪指标策略回测表现图与数值表述
体现策略累计收益稳定高于基准,并有较小回撤和较高胜率,数据支撑情绪指标的实操价值,且考虑了交易成本完整性。表格详细列明收益率、胜率、最大回撤等关键评价指标,客观展现回测效果。[page::8]
四、估值分析
报告本质为金融工程及量化研究专题,未涉及传统公司估值的DCF或可比公司分析法,重点在情绪指标构建及策略回测,无传统估值部分。
五、风险因素评估
报告重点风险在于历史数据的代表性不足及模型适用性的局限性。具体表述为:本量化观点基于历史数据推导,未来市场环境变化或投资者情绪变化可能导致模型失效,存在模型偏差风险,投资者需谨慎参考。报告未针对风险设计缓解策略,风控主张为谨慎态度和风险认知。[page::8]
六、批判性视角与细微差别
- 报告基于单一股吧文本数据,存在样本来源单一可能导致情绪代表性不足的问题,无法涵盖不同社群间的情绪多样性。
- 情绪词典评分采取固定标度,未考虑上下文语境、讽刺或双关等复杂情绪识别,有一定局限。
- 情绪与市场波动相关性虽达到0.51,但仍留有较大随机性与外生因素影响,模型稳定性有待进一步评估。
- 回测策略考虑了交易成本和滑点,但未明确交易频率、滑点变动灵敏度等敏感度分析,实际操作风险仍需关注。
- 假期情绪溢出效应的统计逻辑简明但未深入探讨可能的因果机制,存在一定叙述简化。
- 报告全文中情绪指标偏向短期效果,其对中长期行情的适用性待进一步验证。
- 以上问题在报告中部分被隐含提及,但未做充分展开,需投资者理解这些细节的潜在限制。
七、结论性综合
总体而言,本报告长期系统地展示了如何通过文本情感分析构建反映股民情绪的量化指标,并证明了该指标在样本期内与市场指数走势高度相关,且能捕捉市场情绪的极端波动期,具有较好的同步及预测价值。基于此指标的N日加权移动平均交易策略经过历史回测,在收益、胜率和回撤方面均表现优异,略跑赢市场基准,彰显了情绪指标的实际应用潜力。
报告采用了丰富的数据处理流程,包括评论数据文本清理、词频统计、情绪词典构建、情绪加权评分、时间序列分析及策略设计,逻辑清晰、技术扎实。图表生动展示了情绪指标的构建过程与实证分析,文字与视觉内容相辅相成,科学可信。风险提示及相应的职业合规声明完善,保证了研究的专业严谨度。
唯一需要投资者注意的是,该量化模型基于历史样本且样本局限于单一网络社区,存在样本选择偏差和模型过拟合的风险,未来市场可能出现情绪新模式和外生冲击,导致模型失效。故情绪指标及相关策略应作为辅助工具,结合多元信息和风险管理使用,不宜盲目单一依赖。
综上,该报告是对文本舆情在金融市场应用的系统探索,提供了情绪指标构建的实操框架及策略初步验证,具备较高的学术价值和应用前景,但须谨慎结合实际环境加以研判和应用。[page::0-8]
---
全文引用溯源页码: [page::0,1,2,3,4,5,6,7,8]
---
附:主要图表(部分markdown形式)
- 图1:文本舆情数据分析方法

- 图3:评论数据字云图

- 图4:情绪词频率统计图

- 图6:情绪总分与上证指数关系图

- 图7:情绪总分与上证指数涨跌幅关系图

- 图8:情绪总分与N日加权移动平均

- 图9:情绪指标策略收益表现
