股吧里说了什么?— 基于文本舆情构建股市情绪指标
创建于 更新于
摘要
本报告基于过去一年xx股吧正文及评论数据,通过文本情感分析构建股市情绪指标,结合情绪词频与情绪分数模型,揭示情绪分数与上证指数呈中度正相关。报告构建了以N日加权移动平均平滑的情绪指标交易策略,回测显示策略收益36.78%,跑赢基准3个百分点且最大回撤仅-2.72%,验证情绪指标对股市择时具有一定参考价值 [page::0][page::3-8].
速读内容
文本情感分析方法与数据来源 [page::2-4]

- 利用自然语言处理、文本挖掘对股吧用户评论进行词频统计和情感分类。
- 以xx股吧正文及评论为数据源,样本覆盖2020年3月18日至2021年3月28日。
- 数据清洗与分词后,生成字云图及筛选出大量间接表达市场情绪的词汇(如“涨”,“跌”,“反弹”),避免仅限于直接情绪词 [page::3-4]。
情绪词汇评分及情绪指标构建 [page::5]
| 积极情绪词 | 分数 | 消极情绪词 | 分数 |
|------------|------|------------|------|
| 盈利 | 1 | 亏损 | -1 |
| 涨 | 1 | 跌 | -1 |
| 反弹 | 1 | 回调 | -1 |
| 上涨 | 1 | 下跌 | -1 |
| 开心 | 1 | 伤心 | -1 |
| 赚 | 2 | 亏 | -2 |
| 涨停 | 2 | 杀跌 | -2 |
| 新高 | 1 | 新低 | -1 |
| 牛市 | 1 | 熊市 | -1 |
| 有戏 | 1 | 完蛋 | -1 |
| 满意 | 1 | 失望 | -1 |
| 快乐 | 1 | 郁闷 | -1 |
| 大涨 | 2 | 跌停 | -2 |
| 突破 | 1 | 调整 | -1 |
- 依据词频和情绪强度对词汇赋分,计算每日积极分数与消极分数差值形成情绪总分指标。
- 情绪总分大于0的频率达74%,反映整体股民情绪偏积极 [page::5]。
情绪与市场表现的关系分析 [page::6-7]


- 情绪总分极端值与市场节点高度吻合,如2020/7月上涨高峰对应情绪峰值46,2020/3月市场底部对应情绪低点-35。
- 情绪指标与指数涨跌幅相关性为0.51,显示良好的同步性。
- 假期情绪对下一交易日有显著溢出效应,情绪同向占比73.58%,涨跌幅同向占比62.26%,表明休市期间股民情绪持续影响市场走向。
情绪加权移动平均策略及回测表现 [page::7-8]


- 将原情绪指标通过N日加权移动平均进行平滑,消除随机波动。
- 策略规则:沪深300指数当日情绪分数≥N日加权均线,次日开盘买入;反之,次日收盘卖出。
| 标的 | 策略收益率 | 基准收益率 | 胜率 | 盈亏比 | 最大回撤 |
|---------|------------|------------|---------|--------|-----------|
| 沪深300 | 36.78% | 33.78% | 59.62% | 1.87 | -2.72% |
- 策略表现优于基准,最大回撤控制良好,胜率近60%,盈亏比高于1.8,显示一定的择时价值 [page::8]。
风险提示 [page::0,page::8]
- 量化模型基于历史数据,无法确保未来表现一致,存在模型偏差风险。
- 情绪指标受文本采集及词典构建准确性限制,策略存在滞后与样本特异性等风险。
深度阅读
金融工程专题报告详细分析
报告标题:股吧里说了什么?— 基于文本舆情构建股市情绪指标
作者:包冬青(及实习生赖建行贡献)
发布机构:东莞证券研究所
发布日期:2021年4月6日
主题:运用自然语言处理和文本舆情分析方法,对股吧文本内容进行情绪分析,构建股市情绪指标,并利用该指标进行股市情绪驱动的投资策略分析。
---
1. 元数据与概览(引言与报告概览)
本报告聚焦文本情感分析(文本舆情分析)在股市情绪指标构建中的应用。基于近一年某“xx股吧”内正文及评论数据,通过清洗、分词、情绪词典构建,设计出可量化反映股民情绪的“情绪分数指标”。作者分析了该指标与市场指数(以上证指数为例)间的同步性及其投资应用潜力,设计了基于该情绪指标的择时策略并进行回测。
核心结论包括:
- 样本期内(2020年3月18日至2021年3月28日)股市情绪积极比例高达74%,整体偏积极;
- 极端情绪值能同步指示行情拐点,情绪最高值对应快速上涨段,最低值则对应明显下跌阶段;
- 情绪指标与市场涨跌幅度呈中等线性相关(0.51);
- 假期及周末情绪具有溢出效应,对下一交易日情绪和涨跌同向影响显著;
- 设计的基于N日加权移动平均的情绪指标交易策略,回测收益36.78%,略超基准33.78%,最大回撤仅-2.72%,盈亏比达1.87,胜率59.62%;
风险提示方面,强调所有模型均基于历史数据,存在模型偏差风险,未来有效性不保证。该报告风险评级为“中风险”[page::0] [page::8].
---
2. 逐节深度解读
2.1 文本情感分析的应用(章节1)
本章节定义并介绍了文本情感分析的基本概念,即利用自然语言处理(NLP)、文本挖掘等技术,自动识别文本中的主观情感信息,区分积极、消极、中性情绪,甚至识别更加细腻的情绪状态(如愤怒、悲伤等)。介绍了早期研究贡献者(Turney,Pang)及其在商品、电影评论领域的应用。
方法论上,文本情感分析的技术路线包括关键词识别、词汇关联、统计方法和概念级技术四类。报告附图清晰展示了舆情数据分析流程,从媒体与社交平台数据采集、原始数据清理、去重,到文本分析工具处理分词及情感识别,形成情绪指标的框架[page::2].
2.2 股市情绪与文本假设(章节1.2)
作者假设市场情绪与股市走势同步,指出当指数上涨时,股民倾向发出积极情绪词汇;下跌时则倾向消极,这种情绪通过股吧、评论区等社交社区得以有效捕捉。文本情绪波动反映股民心理,与市场价格走势呈现逆或正向同步关系[page::2].
2.3 数据提取与清理(章节2.1)
该部分介绍数据来源为某xx股吧正文及评论,时间跨度从2020年3月18日到2021年3月28日,选取该时间段以保证样本量充足且行情波动明显。原数据中,剔除无效符号及空值,进行分词处理,利用字云图可视化词频。
字云图(图3)显示“大盘”词频最高,说明数据样本与股市总体讨论高度相关,具有代表性。文本中出现的描述行情性质词语(如“涨”、“跌”、“反弹”、“调整”)比直接表达情绪的词(“快乐”、“郁闷”)频率更高,因此作者将这类间接表达情绪的词语纳入情绪词典,体现对股民心理间接反映的包容性[page::3][page::4].
2.4 情绪模型建立(章节2.2)
通过统计全文中情绪词出现频率并赋予不同权重,区分积极与消极词汇,构建得分体系。例如“涨”、“反弹”为积极词,“跌”、“回调”为消极词。结合词频分布,间接表达的“涨”(3104次)、“跌”(3256次)出现明显多于“快乐”(371次)等直接词。
情绪词按表达强度评分,分为高分与低分两类,满足词汇情感力差异。比如“赚”为2分,“亏”为-2分,体现情绪强烈程度。每日积极词分数与消极词分数相减得出“情绪总分”,正值代表积极情绪。样本期内总分>0的频率为74%,表明股民整体情绪偏积极[page::4][page::5].
2.5 模型分析与情绪指标验证(章节2.3)
关键发现如下:
- 情绪极端值与市场走势同步。最高情绪分为46发生在2020年7月初(指数快速上涨区间),最低分为-35出现在2020年3月底(市场下跌阶段),随后情绪逐步回升与市场见底行情相契合。
- 2021年初股市情绪波动剧烈,尤其2021年1月因美联储紧缩预期,情绪急剧走低,但指数跌幅未完全同步,反映情绪可能存在过度反应。
- 情绪指标与市场涨跌幅表现中等相关性(线性相关系数0.51),曲线趋势相似,说明情绪指标有效反映市场短期动态。
- 周末及假期情绪对后续交易日情绪及涨跌有显著的正向溢出影响,分别达到73.58%及62.26%,验证情绪指标稳定性和前瞻性[page::6][page::7].
2.6 构建情绪指数策略(章节3)
鉴于情绪指标短期波动剧烈,作者采用N日加权移动平均对指标平滑。策略的核心逻辑为:
- 当当日沪深300情绪指标≥N日加权移动平均值,表示情绪积极,于第二日开盘买入;
- 当情绪指标
回测于2020年3月18日至2021年3月28日区间进行,设置滑点0.01,手续费佣金万2及印花税千1,以衡量真实交易环境下策略表现[page::7].
2.7 策略表现与收益分析(章节3.2)
回测结果表明:
- 策略收益为36.78%,略高于基准沪深300指数33.78%;
- 最大回撤仅为-2.72%,表现出较低的风险曝露;
- 策略胜率为59.62%,说明操作合理性较好;
- 盈亏比达到1.87,说明盈利交易收益显著高于亏损交易损失。
配套图9展示策略累计收益曲线,策略表现略跑赢基准稳健,美观且有效[page::8].
2.8 风险提示(章节4)
报告特别强调该情绪指标策略基于历史数据,存在模型偏差风险,不能保证未来的表现。此警示符合金融分析报告惯例,提醒投资者谨慎使用[page::8].
---
3. 图表深度解读
图1 文本舆情数据分析流程图(Page 2)
该图清晰展示整个文本情绪分析的流程,从“数据来源”(媒体资讯、社交平台)到“原始数据”(用户评论),再到数据预处理(去重、清洗)以及文本分析(词频分析、情感分析),并区分了爬虫工具负责采集,文本分析工具完成情感计算。
此流程图为后续模型构建提供了良好的论证基础,并指出数据处理各环节的重要性,确保数据质量[page::2].
图2 股吧评论示意(Page 3)
选取部分股吧评论展示实证数据源,包括不同用户对市场变化的讨论与担忧,反映了股民对行情的关切和实际情绪,例如“外盘大涨,会有影响吗?”、“经济基本面可以”等表达市场情绪的异质性。此截图佐证了文本数据真实可靠,也表明舆情平台对捕捉股民情感极有价值[page::3].
图3 评论数据字云图(Page 4)
通过色彩和字体大小表现股吧讨论词频,中心显著的大词“大盘”,“股”、“涨”、“跌”、“反弹”、“调整”频率最高,体现了股吧讨论核心焦点。字云的设计强调了数据的代表性和情绪词汇的多维度影响。
图示直观展示了数据基础,为建立情绪词典提供了实际依据[page::4].
图4 情绪词频率统计图(Page 4)
条形图统计了部分情绪词汇出现频率,显示“涨”(3104次)、“跌”(3256次)、“赚”(1521次)等高频词明显多于“快乐”(371次)、“伤心”(20次)。数据体现出间接反映情绪的市场术语更常用,这说明文本分析需涵盖的词汇范围不能局限于直白的情绪词,支持模型构建更全面。
图表强化了词典设计的科学性[page::4].
表1 情绪词评分表(Page 5)
情绪词评分通过矩阵方式展示积极词与消极词及其对应的分数,分数范围从±1至±2,基于词汇表达情绪强度的不同调整。比如“赚”、“涨停”、“大涨”得2分,凸显强烈积极;反之“亏”、“杀跌”、“跌停”得-2分。
此表为情绪分数计算的核心,是定量化情绪的基础[page::5].
图5 情绪词频分布图(Page5)
堆积面积图显示了样本期内每天的积极词与消极词频率分布。可见积极(蓝色区域)与消极(橙色区域)词语频率波动明显,积极词频普遍高于消极词,支持整体情绪偏积极的结论(74%比例)。动态视角反映情绪主动性与市场波动的关联[page::5].
图6 情绪总分与上证指数关系图(Page6)
多轴折线图展示了情绪总分(天蓝色蓝线)与上证指数收盘价(红线)在同一时间轴的变化趋势。图中标注情绪极值和对应日期(绿圈-2020/3/18的低谷,红圈-2020/7/1的峰值)。图形直观呈现两者的同步性及拐点对应,非常利于理解情绪指标的有效性。
尤其2021年初情绪极端波动而指数振幅较小,暗示投资者情绪的超前及波动特征[page::6].
图7 情绪总分与上证指数涨跌幅关系图(Page7)
此图表分别展示情绪总分和涨跌幅线型趋势,强调二者围绕零线波动的同步性(相关系数0.51)。该图进一步量化了情绪与市场涨跌的定量联系,弥补单一价格曲线的信息,增加投资决策参考价值[page::7].
图8 情绪总分与N日加权移动平均(Page7)
该图展现情绪指标经N日加权移动平均处理后(红、绿线叠加,平滑处理)与原始情绪分数(蓝线)对比,说明通过平滑技术抑制短期波动,更加稳定顺滑,符合构建交易信号的需求。
此图为策略构建提供了技术基础[page::7].
表2 策略回测结果(Page8)
清晰展示情绪策略对比基准沪深300的收益率、胜率、盈亏比及最大回撤。该表确认情绪策略优于基准,说明基于文本舆论构建的情绪指标具备实用投资价值。
该表同时反映了策略在风险控制上的稳健表现[page::8].
图9 策略收益表现(Page8)
策略与基准收益叠加折线图展现累计收益随时间变化,策略曲线在多数时间点高于基准,表现稳定优异。该图直观呈现情绪策略的超额收益及抗跌能力,便于直观理解策略优势[page::8].
---
4. 估值分析
本报告由于主题聚焦于情绪指标的构建与策略表现,未涉及传统财务估值方法如DCF、市盈率等,因此无估值章节。
报告的“估值”视角集中于情绪分数与市场行为的相关性分析及策略回测表现,属于行为金融和量化策略范畴,而非企业价值估值。
---
5. 风险因素评估
报告直陈风险点为“基于历史数据推导,未来适用性不可保证”,即模型过拟合风险、结构性调整风险、数据变异风险等均未完全规避。
此外,由于数据来自特定股吧,舆情样本的代表性和完整性可能对情绪指标精确度产生影响。
报告未详细说明具体风险缓释措施,鼓励投资者谨慎使用作为辅助工具,避免过于依赖单一模型造成误判[page::0][page::8].
---
6. 批判性视角与细微差别
- 报告整体较为系统,逻辑清晰,基础数据充分,但在样本选择上仅针对“某xx股吧”,存在样本偏差风险,未讨论多平台数据融合可能性,可能降低情绪指标的广泛适用性;
- 情绪评分及权重设计由作者主观指定,尚未附加机器学习等客观标定方法,存在人为赋值的局限;
- 模型仅关注词频及简单双极评分,未充分考虑上下文语境、讽刺等语义复杂情绪表达,可能导致情绪错误识别;
- 策略回测时间跨度仅一年,尚不足以涵盖更大经济周期和市场极端波动,回测结果需谨慎解读;
- 情绪指标虽具相关性,但线性相关系数0.51表示中等,多数时间仍有大量噪音,短期表现随机,投资适用需结合多指标确认;
- 报告风险提示较为宏观,缺乏针对模型误差、过拟合等复杂风险的深入讨论。
整体而言,报告成果可为行为金融及量化投资提供有价值的实验思路与基础指标构建示例,适合做辅助交易策略,实盘应用仍需多维度验证和持续改进。
---
7. 结论性综合
本报告基于文本舆情数据,采用自然语言处理技术和情绪词典方法,构建了覆盖近一年“xx股吧”股民情绪的总情绪分数指标。报告系统梳理了数据提取、清理、分词、词典构建、情绪加权评分及时间序列建模过程,详细展示了情绪指标与中国股市代表性指数上证指数的同涨跌同期性,利用散点相关性等多指标证实了情绪指标在市场情绪捕捉上的有效性。
由情绪指标设计的择时策略基于N日加权移动平均过滤日内波动,按情绪信号进行沪深300指数投资操作,回测期限覆盖2020年3月至2021年3月,取得超过基准指数的累计收益(36.78% vs 33.78%),胜率近60%,最大回撤极低(-2.72%),表明该情绪指标可被用作稳健的市场择时辅助工具。
全报告的图表与数据分析充分支持结论:
- 字云与词频图说明情绪词构建的合理性,
- 情绪分数走势与指数走势及涨跌幅呈现较强同步性,
- 策略曲线及回测表验证实际应用效果。
报告最终维持“中风险”评级,提示模型基于历史数据,存在一定未来风险,投资者应将情绪指标作为交易决策的参考维度之一,并结合其他市场数据。
综上,报告为金融工程领域的文本情绪数据挖掘提供了具体实证与应用框架,具有理论价值和实践指导意义,也揭示了量化情绪指标的潜力与局限[page::0][page::2-8].
---
参考报告结构目录与页面索引
| 章节 | 页码 |
|------------------------------|-------|
| 投资要点与报告引言 | 0 |
| 目录及图表目录 | 1 |
| 文本情感分析介绍与舆情假设 | 2 |
| 数据来源示例与数据提取清理 | 3-4 |
| 情绪词频统计、评分体系 | 4-5 |
| 情绪指标与市场关系分析 | 6-7 |
| 策略构建及平滑处理 | 7 |
| 策略回测与风险提示 | 8 |
| 评级体系和分析师承诺 | 9 |
---
总结
本报告在文本舆情基础上创新性地构建了股市情绪指标,从理论定义到实证数据处理再到策略回测,形成了完整闭环。该情绪指标与股市涨跌密切互动,体现行为金融学中市场情绪的重要作用。基于情绪指标的择时策略表现优于基准,具备应用潜力,但仍需考虑数据来源多样性、模型泛化风险及情绪识别的语义复杂性。总体而言,报告展现了文本舆情分析在金融量化策略中的有益尝试和效果验证,具备重要的研究和实战价值[page::0-9].
---
(全文所有结论均标明页码溯源,确保报告可追踪、严谨。)