机器学习之贝叶斯文本分类算法的实现:--大数据研究之指标构建
创建于 更新于
摘要
本报告基于朴素贝叶斯文本分类算法构建新闻情绪指数,通过对2014年至2016年个股新闻的情绪正负面分类与加权,构建日新闻情绪指数并分析其与市场行情的同步性;研究涵盖数据采集、存储、分析及指标构建,覆盖主板、中小板及创业板情绪指数,验证情绪指数能较好反映市场走势,为后续量化策略应用提供数据支持[page::0][page::4][page::10][page::15][page::16][page::17][page::18][page::19].
速读内容
大数据与量化投资背景 [page::3-4]
- 传统量化投资已充分挖掘财务指标等传统数据,大数据时代为量化投资带来全新研究维度和数据资源。
- 市场上多支基金结合大数据因子开发投资产品,如使用用户行为、新闻正负面、搜索热度等指标。

- 大数据基金在市场环境变化中表现差异明显,部分产品具备超额收益潜力。
大数据体系建设及数据采集框架 [page::5-6]
- 数据采集主要依赖网络爬虫、API接口,从公告、新闻、社交媒体、搜索引擎等多源获取个股及宏观数据。
- 数据预处理包括去重、去噪、结构化存储,确保数据质量。
- 采用MySQL分表分区解决大数据存储初期问题,大型数据场景考虑MPP、Hadoop及大数据一体机等方案。

新闻情绪指数指标构建及分类算法实现 [page::7-15]
- 建立多维互联网情绪指标体系,包括财经新闻指数、股吧舆情指数、微信公众号推荐指数、微博指数、公司关注度指数及电商销量指数。
- 采用朴素贝叶斯算法实现新闻情绪文本分类,分为正面和负面两类。
- 训练集由1005条新闻组成,正负面比例合理,整体分类准确率近80%,达到较高性能。
- 基于分类结果构建情绪指数,正面新闻权重为1,负面新闻权重为负w,综合计算每日情绪分值。


新闻情绪指数与大盘走势高度吻合 [page::16]
- 新闻情绪指数大体随市场走势变化,经历牛市上涨、断崖下跌及回稳过程。
- 显示正负面新闻影响不对称,负面影响权重调整提高情绪指数表现有效性。

不同板块新闻情绪指数差异分析 [page::17-19]
- 主板情绪指数最高且最活跃,与中证800指数走势关联紧密。

- 中小板情绪指数次之,与中小板综指表现同步。

- 创业板情绪指数较低,对应创业板综指波动。

- 三板块情绪指数对比显示主板活跃度最高。

- 情绪指数均值与沪深300走势匹配,具备较好的市场反应能力。

新闻情绪分类模型关键步骤及性能 [page::11-14]
- 建立贝叶斯分类模型,分别采用多元分布模型和伯努利模型,进行特征概率计算。
- 训练集准备充分,包含财务行业常用词汇自定义词典,采用切词与停用词剔除。
- 分类算法对每篇新闻文本计算正负面概率,取较大值判断情绪类别。
- 负面新闻权重w可调,提高情绪指数拟合市场的灵活性。
- 总体分类准确率达80%,实用性强。
| 分类类型 | 样本总数 | 训练数 | 测试数 | 正确数 | 准确率 |
|---------|----------|--------|--------|--------|--------|
| 正负面集 | 1005 | 804 | 201 | 160 | 79.6% |
| 负面新闻 | 337 | 261 | 76 | 60 | 78.9% |
| 正面新闻 | 668 | 543 | 125 | 100 | 80.0% |
深度阅读
金融工程深度报告详尽分析报告
---
一、元数据与概览
- 报告标题:《机器学习之贝叶斯文本分类算法的实现——大数据研究之指标构建》
- 作者:丁鲁明(首席分析师),研究助理喻银尤
- 发布机构:中信建投证券研究发展部
- 发布日期:2017年3月2日
- 研究主题:机器学习中的朴素贝叶斯文本分类算法在金融新闻情绪指数构建中的应用,及相关大数据指标的开发与分析。
- 核心论点:
- 利用大数据和机器学习技术,尤其是朴素贝叶斯文本分类算法,构建个股新闻的情绪指数。
- 研究新闻情绪指数对金融市场走势的反映及其在不同板块(主板、中小板、创业板)的表现差异。
- 数据主要源自新浪财经等权威新闻平台,通过分类新闻的正负面,赋予不同权重构造情绪指数。
- 从实证数据看,正面新闻占比远高于负面,主板情绪指数明显强于创业板。
- 新闻情绪指数走势与市场大盘走势高度相关,验证了情绪分析的价值和有效性。
- 主要信息传达:通过系统化的数据采集和预处理,基于朴素贝叶斯分类算法实现高准确率的新闻情绪分类,并构建量化的情绪指数,该指数在市场走势中具有一定的预测和反映能力,有望辅助投资决策工具开发和量化策略完善。
---
二、逐节深度解读
1. 报告开篇与重要观点(Page 0)
- 报告首先介绍了自然语言处理(NLP)的基本内容和领域应用,主要涉及词法及语义分析等基础技术。
- 新闻情绪指数通过对个股新闻进行朴素贝叶斯文本分类,区分为正面和负面,分别赋予权重,负面新闻影响权重为负的W倍(W>0),即负面新闻对个股影响程度与正面新闻不对等。
- 统计数据显示,2014年至2016年间主板的日平均情绪指数显著高于中小板和创业板,且正面新闻比例占据71%,明显超过负面新闻,且新闻情绪指数与大盘走势呈现高度一致性。
- 信息的核心指向:新闻情绪指数作为一个体现市场情绪和舆论风向的量化指标,能较好反映市场情绪波动。
- 报告作者强调,此次报告重点在构建情绪指数,后续将探索其应用价值。[page::0]
2. 目录与研究结构(Page 1)
- 报告详细列举了目录,显示研究涉及从大数据收集、存储到分析、情绪指标、新闻分类及风险提示全流程体系。
- 包括爬虫系统架构、大数据基金表现分析、情绪指数构建和运用具体板块的情绪指数,展现较完整、系统的研判流程。[page::1]
3. 大数据与量化投资(Page 3)
- 对大数据的5V特征(量、速、多样、价值、真实性)进行阐释,解释其对量化投资转型的重要推动作用。
- 传统量化投资的数据来源局限在财务与市场数据,而大数据为量化投资提供全新信息维度。
- 表1列举了市场上以大数据为基础的基金产品,数据来源覆盖腾讯财经、百度、蚂蚁金服、东方财富、360等多元平台,基金类型从指数型到混合型不等,显示金融机构广泛将大数据应用于投资产品。从2014年至2016年陆续推出多个大数据基金,反映市场对该方向的认可与布局。[page::3]
4. 大数据基金市场表现(Page 4)
- 图1展示部分大数据基金的累计净值,整体趋势显示基金净值收益随时间有明显波动,2015年中期到后期出现显著上升与回落,与同期市场环境类似。
- 提示大数据基金表现同样受市场波动影响。
- 图2则显示各基金相对于中证1000指数的表现差异,如博时招财一号大数据基金在某些时段表现优于基准,说明部分大数据策略具备超额收益潜力。
- 该部分支持大数据驱动投资具备较好的市场表现前景。[page::4]
5. 大数据体系构建(Page 5-6)
- 2.1节介绍数据采集流程,以新浪财经个股新闻为主,涵盖200多家媒体,实现全网爬取与结构化存储。
- 爬虫系统设计详见图3,包含爬取、监控、异常处理、代理IP等模块,保障数据稳定采集。
- 数据需通过预处理步骤剔除错误、重复及无效数据,提升数据质量。
- 2.2节聚焦数据存储,利用MySQL数据库结合分表和分区技术处理200多万条新闻数据。提及面临规模扩大时的存储挑战,引入MPP架构数据库、Hadoop生态及大数据一体机方案以应对超级大数据环境。
- 2.3节提出数据挖掘和指标构建路径,涵盖分类、聚类、关联等技术。说明通过数据挖掘技术提炼有价值信息,支撑后续情绪指数构建。[page::5,6]
6. 互联网情绪指标构建(Page 7-10)
- 3.1至3.6节详细阐释多个互联网财经指标:
- 财经新闻指数:每日个股新闻总量及情绪综合指数。
- 股吧相关指数:舆情及帖子数量统计。
- 微信公众号指数、微博指数:推送和发文统计,反映新媒体传播影响。
- 公司关注度指数:搜索热度、访问量、新闻点击率相关的量化指标。
- 其它指标涵盖电商销量、消费数据等,为全方位捕捉市场情绪和投资者关注提供支持。
- 支撑系统性、全面地捕获互联网情绪信息,是情绪指数构建的基础。[page::7-10]
7. 朴素贝叶斯文本分类算法详解(Page 10-14)
- 报告从贝叶斯定理基础入手,解析朴素贝叶斯方法的数学原理:将文档分词后的词语视为条件独立属性,通过求最大后验概率判定类别。
- 分类模型包括多项式模型与伯努利模型,均采用加法平滑解决零概率问题,保证模型稳定性。
- 给出具体概率计算公式,结合金融文本示例详细说明如何计算正负面分类概率。
- 训练集涵盖1005条已分类新闻,正面占比约66%,负面约34%,测试集表现约80%的准确率,表明分类模型效果稳定且具备实用性。
- 分类步骤包括数据准备、人工标记、特征词定义、分词、去除停用词、特征提取(TF-IDF或词频)、分类器应用。
- 此部分为情绪指数的基石,确保情绪分类科学合理。[page::10-14]
8. 新闻情绪指数构建与实证数据(Page 14-16)
- 情绪指数通过每日正负新闻数量加权求和构成,假设正面权重为1,负面新闻权重为负W,W可调,反映负面新闻的影响强度可不同于正面。
- 图7显示个股每日新闻数量与中证1000指数关系,新闻数量波动与市场行情紧密相关。
- 图8展示每日新闻正面比例,正面新闻占绝大多数,且正面比例与市场指数走势同步变化。
- 图9为整体新闻情绪指数走势图,新闻情绪指数随市场大盘指数波动,体现情绪指数良好的市场反映功能。
- 该节论证了新闻情绪指标的构建逻辑及其现实市场表现联系。[page::14-16]
9. 情绪指数在不同板块的表现(Page 16-19)
- 主板、中小板、创业板分别统计其成分股新闻情绪指数日加总值,构成对应板块情绪指数。
- 图10-12显示三大板块情绪指数与对应市场指数高度相关,尤其在波动剧烈期间情绪指数波动更为明显,显示情绪指数在捕捉投资者情绪方面的优势。
- 图13合并对比三板块,主板情绪指数长期高于中小板及创业板。
- 图14对比三板块情绪平均指数与沪深300指数,均呈现趋势共振,且创业板情绪平均指数普遍低于主板和中小板,体现出不同投资者关注度与市场情绪差异。
- 板块层面的情绪指标为投资者资产配置及风格调整提供数据支持。
- 报告特别指出情绪指标的有效性随板块和行业偏好而变化,提示细分运用的重要性。[page::16-19]
10. 风险提示(Page 19)
- 强调数据覆盖面的局限性,使用新浪财经为主要数据源,尚不能完全代表全部市场信息,存在代表性不足风险。
- 所有情绪指数中正负面新闻默认赋予等权重,忽略权重差异可能带来偏差。
- 数据及指标本身生产存在误差,须谨慎解读。
- 虽然方法学严谨,但仍需识别模型潜在缺陷与预测局限。
- 风险提示合理反映现阶段大数据情绪指标运用的约束条件。[page::19]
11. 评级与声明(Page 21)
- 给出标准相对评级体系,明确买入、增持、中性、减持与卖出的判定标准。
- 详细声明了报告的使用范围、数据来源及免责声明,确保读者明确本报告非投资建议,仅供参考。
- 说明研究人员的专业背景及独立性,确保研究观点的严肃性和权威性。[page::21]
---
三、图表深度解读
图1与图2:大数据基金累积净值及相对中证1000表现(Page 4)
- 描述:图1显示2014年10月至2016年11月期间多只规模10亿元以上的大数据基金累计净值走势,图2则显示同一时期内这些基金相对中证1000指数的表现比例。
- 数据解读:
- 多只基金在2015年5月至7月经历净值急升,与当年牛市行情一致。
- 净值存在较大波动,多数基金在2016年后趋于平缓或略有下降。
- 相对中证1000表现显示存在阶段性超越及落后,部分基金如“博时招财一号大数据”相对指标表现突出。
- 联系文本:表明大数据基金作为量化投资创新的主要代表,具备阶段性超额收益能力,但整体与市场波动密切相关,表现受大盘影响明显。
- 潜在局限:未显示基金费率、持仓结构或策略调整细节,不能全面评估基金策略有效性。[page::4]


图3:金融工程爬虫系统框架(Page 5)
- 描述:展示了金融工程数据爬虫系统架构图,涵盖爬取网页、监控机制(代理IP、异常管理、恢复)、控制中心、应用服务器和MySQL服务器。
- 解读:系统设计合理,具备自动化和异常处理能力,保障数据采集连续性与质量。
- 支持文本说明:为后续数据精准分析奠定基础,保证新闻数据采集的时效性和完整性。[page::5]

图4-9:互联网情绪指标示例与新闻情绪指数走势(Page 7,8,9,15,16)
- 图4、5、6展示了新浪财经个股新闻、东方财富股吧、搜狗微信新闻页面,反映数据采集源真实接口和形态。
- 图7显示每日新闻数量与中证1000收盘价对比,新闻数量随大盘上涨而增加,反映舆论关注度与市场行情正相关。
- 图8展示每日新闻正面比例,正面新闻占比较高(持续约70%)且与市场走势基本同步。
- 图9是构建的新闻情绪指数与中证1000指数走势对比,新闻情绪指数波动能够较好反映市场指数变化。
- 这些图表清晰证实文本分类算法及所构建情绪指标与市场动向的高度相关性,反映情绪数据可用性较高。[page::7-9,15-16]





图10-14:各板块情绪指数对比(Page 17-19)
- 图10-12分别展示主板、中小板、创业板情绪指数与对应指数对比,显示情绪指数走势与市场表现稳健相关。
- 图13对比三板块情绪指数,主板情绪指数整体最高,创业板最低,反映市场关注度及情绪活跃度的层级。
- 图14显示各板块情绪平均指数及沪深300指数,趋势一致,表明不同板块均受市场情绪影响,但强度不同。
- 这些数据对比印证了情绪指数在不同板块有效性和差异性,体现情绪指数作为风格偏好和板块轮动辅助工具的实用价值。[page::17-19]





---
四、估值分析
- 报告主体不涉及传统意义上的估值分析,如股票估值或公司价值评估。
- 主要聚焦于基于文本情绪和大数据所构建的情绪指数,对于估值分析提出了指标支持工具的概念,辅助投资决策,间接影响估值判断。
- 估值部分不存在复杂的DCF模型或市盈率比较。
---
五、风险因素评估
- 数据覆盖范围有限,当前仅使用新浪财经新闻数据,尚未覆盖全市场信息,存在代表性不足的风险。
- 正负面新闻权重设定简单,可能存在影响力权重不均衡问题,未进一步细分情绪影响强度,简化假设或引入偏差。
- 大数据系统和爬虫稳定性存在不确定因素,异常数据和数据滞后可能影响指标的实时性和准确性。
- 文本分类准确率虽达80%,但未能达到100%,分类误差导致的情绪指数误判存在。
- 报告未明确对情绪指标运用中的市场非理性因素波动及可能的系统风险进行定量评估。
- 风险提示部分诚恳且具体,呼吁投资者谨慎对待情绪指数的应用限制。[page::19]
---
六、批判性视角与细微差别
- 报告对朴素贝叶斯的适用性做出合理论证,但未与其他机器学习算法如支持向量机、深度学习等进行对比,可能忽略了更先进模型的潜力。
- 负面新闻赋权w为变量,实际权重未明确量化及优化,可能影响情绪指数的灵敏度和准确性。
- 新闻数据集中正面新闻占比高达70%,存在市场新闻偏好及媒体报道倾向的潜在偏差,可能使情绪指数带有系统偏差。
- 分词及停用词处理对文本理解影响较大,但自定义金融词典及TF-IDF权重的优化细节未深入披露,影响分类效率和效果的因素尚待明确。
- 报告强调情绪指数与市场表现相关,但未明确区分因果关系,情绪指数的预测能力需进一步实证验证。
- 受限于新浪财经单一数据源,报告受限于数据代表性及多元化。
- 总体研究框架严谨,数据丰富,但某些算法参数与指标设置细节尚需说明,以增强复制性和实用性。
---
七、结论性综合
本报告系统地展示了如何基于朴素贝叶斯文本分类算法,充分利用大数据新闻资源构建个股新闻情绪指数,涵盖了从数据采集、存储、预处理、文本分类再到情绪权重赋值及指数计算的完整流程。利用超过200万条个股新闻,分类准确率约80%,能够较为有效地区分正负面新闻。实证发现:
- 2014-2016年间,主板情绪指数表现明显优于中小板与创业板,且整体新闻正面比例接近70%,负面新闻影响权重可调,反映市场情绪并不完全对称。
- 新闻情绪指数与市场大盘指数走势高度对应,在牛市快速上升、断崖式跌落及震荡企稳阶段,均能体现市场情绪波动。
- 各类板块情绪指数也与对应市场指数紧密相关,证明情绪指标可作为细分板块投资情绪参照。
- 大数据基金的表现与新闻情绪指数反映了量化大数据策略的市场潜力。
- 风险提示中明确数据集局限及情绪权重简化假设为主要约束。
- 图表多维展现了数据趋势和指数关系,强化论证逻辑,视觉传达清晰。
- 报告为金融量化投资引入自然语言处理和机器学习技术提供了良好实践与理论基础,强调未来将深入研究情绪指数的实际投资应用。
综上,报告作者明确指出,基于贝叶斯文本分类构建的新闻情绪指数对金融市场投资具有重要参考价值,且结合多维大数据指标,未来具备成为量化决策核心辅助工具的潜力。报告专业、系统,适合金融工程、量化研究及大数据相关领域的专业人士深入研读与借鉴。[page::0,1,3-19]
---
总结
本报告通过多维度、层层递进的技术和数据分析,联合朴素贝叶斯分类模型与大数据新闻采集,成功构建了反映投资者情绪波动的新闻情绪指数。详尽的数据支撑与严谨的算法机制使该指标成为理解市场舆论与行情波动的重要工具,且在不同板块均表现出较好的一致性。虽然存在数据源局限与模型简化假设的风险,但整体研究成果为金融工程领域引入文本情绪挖掘和机器学习技术树立了典范,拓展了量化投资的新维度。未来,利用更丰富的数据源、优化模型与权重,结合实际投资策略,将推动该领域实现更大突破。
---
以上内容严格基于报告原文,引用内容标注细化,充分实现专业详尽的解读与综合评价。