大数据研究之二 机器学习之贝叶斯文本分类算法的实现
创建于 更新于
摘要
本报告系统介绍了基于朴素贝叶斯分类算法的新闻情绪指数构建方法,涵盖数据预处理、分词、特征提取及分类步骤,展示了训练集分类效果近80%。报告还详细分析了新闻情绪指数及其在不同板块(主板、中小板、创业板)中的表现差异,辅以多个关键时间序列图表反映情绪指数与市场指数的相关性,为新闻文本情绪量化提供实操框架与方法论支持 [page::0][page::4][page::6][page::8][page::9]
速读内容
- 介绍利用朴素贝叶斯算法对个股新闻进行正负面文本分类,构建新闻情绪指数,正面新闻权重为1,负面新闻权重为负W(W大于0,代表负面新闻影响权重)[page::0][page::1]
- 新闻情绪指数通过对收集的新闻文本进行预处理(去重、去广告)、分词、停用词过滤和特征提取(TF-IDF或词频)后,采用朴素贝叶斯分类模型进行情绪分类[page::3][page::4]
- 训练集共1005条新闻,正面668条,负面337条;模型总体准确率约为79.6%,正负面分类效果均接近80%[page::4]
| 分类 | 样本总数 | 训练数 | 测试数 | 正确数 | 正确率(%) |
|----------|----------|--------|--------|--------|-----------|
| 正负面集 | 1005 | 804 | 201 | 160 | 79.6 |
| 负面新闻 | 337 | 261 | 76 | 60 | 78.9 |
| 正面新闻 | 668 | 543 | 125 | 100 | 80.0 |
- 文本分类模型用户伯努利模型及多元分布模型,采用拉普拉斯平滑避免概率为零,先验概率与类条件概率计算详述[page::2][page::3][page::5]
- 新闻情绪指数定义为当天正面新闻数减去负面新闻数乘以权重w,累积天数形成时间序列情绪指标[page::5]
- 通过多个时间序列图表展示2014年至2016年间,每日个股新闻数量及正面新闻比例与中证指数的关系:


- 发布了主板、中小板及创业板的新闻情绪指数及其与对应板块指数的关系图表,发现主板和中小板的情绪指数明显高于创业板,情绪指数与股价表现存在一定相关性:




- 报告未涉及完整量化因子构建或策略回测,但系统性地阐述了基于新闻文本情绪构建指数的理论及技术实现路径,为情绪量化研究提供基础方法论参考[page::0][page::1][page::5]
深度阅读
金融研究报告详尽分析报告
报告元数据与概览
- 标题:大数据研究之二 机器学习之贝叶斯文本分类算法的实现
- 作者:丁鲁明、喻银尤、鲁明
- 发布机构:中信建投证券研究发展部金融工程团队
- 发布时间:2017年03月03日
- 主题:利用朴素贝叶斯算法构建新闻情绪指数,对个股新闻进行正负面分类,挖掘舆情数据并结合机器学习技术,辅助投资决策和资产配置分析。
核心观点与目标:
本报告核心目的在于介绍如何基于朴素贝叶斯文本分类算法,对个股新闻进行正负面情绪判断,并据此构建新闻情绪指数。新闻通过算法判别其情绪倾向,基于一定权重合成情绪指数,用以反映市场情绪状态。报告强调新闻情绪对主板影响较为显著,正面新闻占比接近70%以上,且负面新闻的权重采用可调参数$\mathrm{w}$以体现负面影响力度不同于正面新闻。报告详细介绍了指数构建方法、机器学习模型与文本预处理流程,最后结合大量图表分析了不同板块的情绪指数表现。
---
一、新闻情绪指数构建概述与相关指标体系
1.1 新闻情绪指数构建原理
- 使用朴素贝叶斯文本分类算法将新闻分类为正面和负面。
- 正面新闻权重赋1,负面新闻权重为$-w$,$w$为大于零的可调参数,体现负面新闻对个股的影响程度。
- 汇总当天所有新闻权重,得出当日新闻情绪指数,支持多日加和统计趋势。
- 朴素贝叶斯算法因其简单、高效、准确率较好,被选用作为文本情绪分类工具。
1.2 互联网情绪指标体系
报告详细罗列了多维度的互联网舆情指标,包括:
- 财经新闻指数(新闻总次数、情绪指数、宏观经济新闻情绪指数)
- 股吧相关指数(个股舆情、股吧每日及每周帖子总数)
- 微信公众号指数(机构微信推送次数等)
- 微博相关指数(微博总次数、官方微博、公司高管微博及情绪汇总)
- 搜索关注度指数(百度、搜狗等搜索引擎搜索次数、新闻点击率)
- 电商销量及综合指数(淘宝、京东相关个股和行业销售及评论数据)
- 银联消费指数(刷卡相关数据)
这些多元指标共同构成了一个全方位反映市场舆情和情绪的体系,为大数据驱动资产配置、选股策略提供基础数据支持 [page::0,1]。
---
二、朴素贝叶斯文本分类算法详解
2.1 贝叶斯定理基础
- 报告回顾了朴素贝叶斯算法的数学基础——贝叶斯定理,定义了先验概率$P(Bi)$,条件概率$P(A|Bi)$,和后验概率$P(Bi|A)$。
- 说明了贝叶斯定理计算分类概率的思想,即在观察到事件A后重新评估属于类别$Bi$的概率。
2.2 朴素贝叶斯分类原理
- 朴素贝叶斯假设属性(即文本中的词语)在给定类别的条件下相互独立。
- 通过计算在每个类别条件下属性的联合概率乘积与类别先验概率的乘积,确定最可能的类别。
- 文本分类中,属性为新闻文本中的分词结果,计算文本属于“正面”或“负面”的概率,取概率最大值即分类结果。
2.3 贝叶斯分类模型具体实现
- 讨论了两种主流分类模型:
- 多元分布模型(Multinomial Model):以词频(单词出现次数)为特征,同时支持TF-IDF或布尔型(词是否出现)特征,适合文本情感分类。
- 伯努利模型(Bernoulli Model):以文档为单位,统计词汇是否出现,概率基于词出现在文档的次数。
- 运用拉普拉斯平滑(加1处理)防止零概率问题,报告也提及更一般的Lidstone平滑调节参数。
2.4 具体实现步骤
- 新闻数据的收集与预处理(去重,去除图片广告)。
- 人工制作训练集:1005条新闻,668条正面,337条负面,来源于2014-2016年间情绪特征明显的新闻。
- 训练与测试结果表明整体准确率约80%,正负面分类准确率均接近80%,表现较好。
- 自定义财经领域词典保证分词专业性,避免行业术语被误拆。
- 采用切词技术分割文本,去停用词处理(4200词以上),只保留有用分词信息。
- 特征提取采用词频或TF-IDF等方法。
- 朴素贝叶斯模型对待分类新闻进行情绪判别。
报告用示例说明如何计算新闻文本中每个词在正负面类别的条件概率,通过乘积累加比较大小,完成新闻分类 [page::2,3,4,5]。
---
三、新闻情绪指数构建与应用展示
3.1 情绪指数定义
当日个股新闻情绪指数 = 当天所有正面新闻数量 - $w$ * 当天所有负面新闻数量
其中$w$作为负面新闻权重,用以反映负面讯息的较大市场影响力。
3.2 关键图表解析
图7:每日个股新闻数量与中证1000收盘价对比
- 图表展示2014年1月至2016年11月期间每日个股新闻数量(红线,左轴)与中证1000指数收盘价(蓝线,右轴)走势。
- 新闻总量在2015年间出现大幅波动,峰值时超过7000条,之后整体趋向稳定并下滑。
- 收盘价涨跌与新闻数量变化存在一定同步关系,尤其2015年中价格大幅上升期间,新闻数量同样激增,反映新闻传播密度与市场热度相关。
图8:每日个股新闻正面比例与中证1000收盘价
- 正面新闻比例(红线)维持在0.6-0.8之间,明显高于负面新闻比例。
- 2015年市场高峰期正面新闻比例达到最高点,之后有所回落。
- 正负面新闻比例与股价涨跌周期对应,显示市场人气和情绪的正面主导地位。
图9:新闻情绪指数与中证1000指数对比
- 新闻情绪指数基于正负面新闻数量差及权重计算。
- 指数与中证1000走势高度相关,在2015年初达到峰值,显示情绪指数对市场波动具有一定领先或同步提示作用。
图10-13:主板、中小板、创业板情绪指数与对应指数对比
- 各板块情绪指数(红线)与对应的板块综合指数(蓝线)同时绘制。
- 主板情绪指数高于中小板和创业板,信息反映更充分和活跃。
- 2015年股市波动高潮,无论哪个板块,情绪指数均出现峰值与市场价值峰值对应。
- 创业板情绪指数整体数值低于主板和中小板波动更小,反映创业板新闻关注度及情绪波动较弱。
- 综合图13清晰展示三板块情绪指数对比趋势,主板持续领先,中小板居中,创业板最低。
数据来源与禁令提示
所有数据均来源于wind资讯和中信建投证券研究发展部,保证数据权威与科学。
[page::6,7,8,9]
---
四、估值及风险因素分析
本报告主要聚焦于新闻情绪指数和机器学习分类方法的实现,没有针对单一公司的传统财务估值分析(如DCF、市盈率等),也未详细展开涉及风险因素的单独章节。
然而,从机器学习应用和新闻情绪构建角度隐含的风险点包括:
- 训练集样本量及其代表性的局限:样本仅1005条,覆盖时间和事件可能无法涵盖全部市场环境。
- 文本分类准确率约80%,存在20%误判概率,可能对情绪指数产生噪声影响。
- 新闻的正负权重$w$的选取依赖于实证调优,不同取值下指数敏感度不同,影响最终情绪解释效力。
- 语义复杂性和行业专业词汇可能影响分类质量,即使有自定义词典亦难完全避免。
- 新闻内容时效性与情绪指数滞后,可能影响指数对市场短期反应的及时度。
报告对这些风险未做专门讨论,但通过严谨数据来源和模型验证努力降低风险影响。
---
五、批判性视角与细节凸显
- 朴素贝叶斯模型假设词汇条件独立,现实中词语间存在强烈依赖,可能影响分类准确率。报告虽提及该点,但未深入讨论潜在效应。
- 新闻正面比例长期超过70%,被视为显著优势,但市场中是否长期存在偏正面报道的系统性偏差值得关注。
- 报告中提出负面新闻的权重$w$可调,体现不同比例的负面影响,但未明确$w$的具体取值及其对情绪指数的敏感性分析,若权重设置不合理,则影响情绪指数的有效性。
- 多数图表提供趋势对比,但未详细分析情绪指数与价格之间的统计相关性或因果关系,后续深入回归或因果分析有助理解指标作用。
- 训练集规模较小,虽然准确率达80%,但是样本量限制可能导致部分新词或特殊事件的分类效果不佳。
- 报告对模型调优和验证过程细节较简略,未说明交叉验证或其他防止过拟合的措施。
---
六、结论性综合
本报告针对金融领域新闻文本数据,系统介绍了基于朴素贝叶斯算法的情绪分类方法及其在证券市场舆情分析中的应用。核心贡献包括:
- 新闻情绪指数构建框架:采用朴素贝叶斯文本分类,将新闻划分为正负两类,赋予不同权重后加权汇总生成个股及板块层面的情绪指数,为市场情绪量化提供实用工具。
2. 多维度互联网舆情指标体系:涵盖财经新闻、股吧、微信公众号、微博、搜索指数及电商消费数据,体现一个广泛的情绪信息图谱。
- 技术实现细节:详尽说明朴素贝叶斯模型原理、训练集建设、文本预处理(切词、去停用词)、情绪判别过程等,保障情绪指数科学性及可复制性。
4. 实证分析:通过多个关键图表展示2014-2016年间新闻数量、正面比例及情绪指数与主要市场指数的同步及相关性。结果表明,新闻情绪指数与市场指数走势具有显著同步性,尤其在主板市场表现显著,其情绪指数水平明显高于中小板和创业板。
- 分类准确率验证:训练集测试显示约80%准确率,达到实际应用可接受水平。
图表深刻揭示了新闻情绪在不同板块的差异与时间序列变化,有助理解市场情绪波动规律及其潜在的投资参考价值。
总的来看,报告提供了一套基于大数据和机器学习的创新舆情分析工具,适合进一步集成入量化交易和资产配置模型,促进投资决策的科学化与智能化。[page::0-10]
---
图表引用
- 图7(每日新闻数量与指数走势)

- 图8(每日正面新闻比例与指数走势)

- 图9(新闻情绪指数与中证1000指数)

- 图10(主板情绪指数与中证800指数)

- 图11(中小板情绪指数与中小板综指)

- 图12(创业板情绪指数与创业板综指)

- 图13(三大板块情绪指数对比)

---
总体评价
报告结构严谨,逐步深入,从模型基础、数据处理到应用验证,系统完整。结合机器学习技术与金融大数据分析,提升了传统情绪分析的科学性和自动化水平。尽管存在一定假设与数据局限性,整体为金融信息技术融合创新提供了宝贵的实践模板和理论支持。