研报&论文

基于文本舆情构建股市情绪指标 东莞证券-20210406

由kyrie_fu创建,最终由kyrie_fu 被浏览 93 用户

摘要

文本情感分析,也称为意见挖掘,是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。本文基于文本舆情构建股市情绪指标。数据来源近1年某xx股吧正文及评论,进行数据清理后使用计算机语言进行分词,利用数据可视化将分词结果以字云的形式展示。根据字云图和字频整理确定情绪词汇词典,将情绪表达相对强烈的词设置高分数,相对温和的情绪词设置为低分数。分别计算出文本积极的和消极的情绪分数,最后加和形成总的情绪分数指标。

结论1

自2020年3月18日到2021年3月28日的样本期,情绪指标总分大于0(即积极分数>消极分数)出现的总频率为74%,说明这段时间内股民对股市抱有相对积极的态度。

结论2

情绪极端值对市场有同步的指示意义。样本期间内情绪总分最大值为46,出现在2020/7/1(上证指数收盘价3025)和2020/7/6(上证指数收盘价3333),处于2020年市场最快上涨段,而后2020/7/9市场出现3459后情绪降至24。样本期间内情绪总分最小值为-35,出现在2020/3/18(上证指数收盘价2728),处于2020年市场最后下跌段,随后3天消极分数分别为-11、-17,到21日转正为13,期间市场于3/19见底(上证指数收盘价2647)。样本期间内情绪总分平均值为7,从2021/3/9(上证指数收盘价3359)到3/26(上证指数收盘价3418)阶段情绪平均值为5,该筑底反弹阶段仍显示一定积极情绪,但低于平均值7,情绪热度较低。

结论3

情绪波动与指数的涨跌幅呈现较高同步性。情绪分数曲线与指数涨跌幅大致贴合,两者线性相关性为0.51。

结论4

假日情绪对下一个交易日影响具有溢出效应。周六日及假期的情绪对下一个交易日的情绪同向占比73.58%是大于0;周六日及假期的情绪对下一个交易日的涨跌幅同向占比62.26%是大于0。说明市场休息的情况下,依然能够准确地反映出股民情绪与市场的关系。

结论5

由于情绪分数指标在短期呈现出随机波动特点,通过尝试各类参数最终确定以N日加权移动平均值平滑原情绪指标。交易策略如下:由于情绪数据披露具有1天的滞后性,因此在第二日决定是否进行操作。当沪深300指数当日的情绪指标大于等于其N日加权移动平均值时,第二日开盘价买入;当沪深300指数当日的情绪指标小于其N日加权移动平均值时,第二日收盘价卖出。回测区间自2020/3/18-2021/3/28,并假设固定滑点为0.01,手续费佣金万2,印花税为千1。情绪指标策略收益36.78%,略跑赢基准的33.78%,最大回撤为-2.72%,胜率为59.62%,盈亏比为1.87。

风险提示:量化专题观点全部基于历史数据推导,并不能保证对未来的适用性,因此存在模型偏差带来的风险。

正文

/wiki/static/upload/03/03d2ea83-bdb1-4c4e-8fb2-a4195f12abe5.pdf

\

标签

自然语言处理数据可视化
{link}