研报&论文

动量、均值回归和社交媒体:来自StockTwits和Twitter的证据

由crisvalentine创建,最终由crisvalentine 被浏览 39 用户

报告摘要

新闻内容和社交媒体情绪研究的兴起

在过去10年中,金融市场中新的系统性风险因素的不断发酵,这些问题在一定程度上是由于流动性减少造成的。随着机器学习的使用,用来定量衡量新闻内容和社交媒体情绪的另类数据得到广泛应用。本文试图研究社交媒体和新闻数据能否为投资者提供现有数据无法捕捉到的市场情绪高涨和恐慌的信息。

研究现状

本文是首个研究社交媒体情绪对日内流动性影响的文章,但也有学者研究社交媒体和新闻如何影响资产价格,比如Twitter和谷歌Insight Search (GIS)情绪可以预测每日股市指数的回报等,一些研究还考虑了社交媒体对个人行为的影响。

数据和变量

RavenPack提供了一个与股票相关的新闻事件的数据库,每个新闻事件根据相关性、新颖性和情绪进行评分,本文使用该数据库构建综合情绪评分(CSS)来衡量新闻情绪,还使用Psych-Signal的分钟数据来衡量社交媒体情绪。

回归分析和事件研究分析

横截面股票回报和情绪信息回归分析结果表明当社交媒体情绪消极时,对流动性的需求要比积极时大得多,而供给则要少得多,流动性指标对市场情绪的反应不对称。社交媒体人气的上升也预示着之前上涨的个股未来均值回归的概率将会增加,这表明流动性供应将会减少。本文选取了500只大市值股票对异常社交媒体情绪进行了日内事件研究,结果表明高度异常的社交媒体情绪之前往往是非常高的动量,之后则是均值回归。

交易策略分析

利用从回归和事件研究分析中获得的结果,本文构建了一个使用StockTwits和Twitter消息的日内交易策略(均值回归策略),包含基准策略和社交媒体策略。股票池均为过去200天平均交易量最大的500家公司,单个板块股票数量不超过股票池的30%,每30分钟交易一次。

基准策略等权做空前30分钟回报排名最高的50只股票(TOP组)并做多前30分钟回报排名最低的50只股票(BOT组),杠杆率为2:1。社交媒体策略的选股条件和基准策略一致,但对于在过去30分钟内有超过5条StockTwits和Twitter的消息且在过去30分钟内消息数量高于指数加权移动平均线的社交媒体股票,在保证TOP组和BOT组各自的权重之和为1的前提下,设置每只社交媒体股票权重是非社交媒体股票的2倍。

结果显示基准策略年化回报为20.61%,社交媒体策略年化回报为24.10%。

结论

社交媒体活动可以在日内水平上对流动性产生显著影响,负面情绪对流动性指标的影响要明显大于正面情绪。这与恐慌对市场的直接影响要比狂热大得多的观点是一致的。社交媒体的均值回归策略优于基准策略,局限性在于本文构建的模型未考虑社交媒体网络的内生性问题。

文献来源

文献来源:Shreyash Agrawal, Pablo D.Azar, Andrew W.Lo and Taranjit Singh, “Momentum, Mean-Reversion, and Social Media: Evidence from StockTwits and Twitter (August, 2018)”,Journal of Portfolio Management.

文献亮点:本文是较早开展研究社交媒体情绪对日内流动性影响的文章,对于社交媒体反映的市场参与者的情绪如何影响流动性,进而导致价格均值回归的过程进行了较为全面的研究,拓宽了社交媒体情绪研究的视野。本文的研究表明,社交媒体活动能够反映投资者的情绪,并且在日内影响流动性,特别地,负面情绪对流动性的影响要比正面情绪大得多。社交媒体情绪的峰值往往对应着趋势的结束和即将到来的均值回归。根据这个研究结果本文构建了一个基于社交媒体情绪反映的日内交易策略,结果表明该策略的表现优于基准等权日内均值回归策略(交易成本之前)。

综述

过去10年中,金融市场中新的系统性风险因素的不断发酵,比如2007年8月的量化宽松崩盘,以及2010年5月和2015年8月的量化宽松灾难。这些问题在一定程度上是由于流动性减少造成的,也导致了价格的大幅波动。随着价格的波动加剧,依赖均值回归的做市商将会退出市场,同时触发一个自我加强的反馈循环,在这个循环中,流动性的减少会导致价格更剧烈地波动,导致更多投资者在价格波动加剧的恐慌中出清所持资产。

过去10年的另一个特点是,用来定量衡量新闻内容和社交媒体情绪的另类数据逐渐兴起。机器学习的使用,可以更大规模地处理关于资产的文本信息,基于自然语言处理处理技术,对这些文本的处理可以用来实时获得投资者的情绪得分。

本文研究了社交媒体和新闻数据能否为我们提供现有数据无法捕捉到的市场情绪高涨和恐慌的信息。尽管这些新型数据的优势在于实时可用,且代表了不同的投资者的想法和信念,但是需要从大量噪音中分离出有关投资者情绪的有用信息。因此,本文将聚焦以下几个问题:

  • 鉴于社交媒体用户只占市场参与者的一小部分(以及许多非市场参与者),这些数据来源是否包含有关市场流动性的相关信息?
  • 社交媒体能在多大程度上给我们提供类似传统新闻等推送无法得到的信息?
  • 正面和负面情绪对市场的影响是对称的吗?
  • 可以用新闻和社交媒体来预测未来的流动性水平吗?
  • 可以用社交媒体信息改进交易策略吗?

我们用三种不同的方法来回答这些问题:

  1. 我们改进了几种成交量和流动性的衡量标准——交易量的对数、报价数量的对数、报价价差之外的交易数量的对数、成交量以及新闻和社交媒体情绪指标的平均价差的对数。
  2. 我们对异常社交媒体情绪进行了一系列的日内事件研究。
  3. 我们对日内均值回归策略进行了历史回溯,该策略使用社交媒体信息来确定投资组合权重。

回归结果显示,社交媒体的情绪(由Twitter和StockTwits信息衡量)确实与流动性指标存在相关性,这是其他数据来源(如新闻情绪)无法解释的。此外,与积极情绪相比,消极的社交媒体情绪对流动性指标的影响更大。看跌情绪上升1%对交易和流动性指标的影响是看涨情绪上升1%的两倍。通过使用交易前的情绪指标,我们发现新闻和社交媒体数据可以在市场开盘前预测市场流动性。

强势动量的出现导致了高度异常的社交媒体情绪(定义为情绪得分高于或低于给定股票的平均水平至少三个标准偏差),之后则表现为均值回归。社交媒体情绪可以用来检测盘中情绪高涨的峰值或盘中恐慌的低谷。此外,研究结果还显示,这些异常情绪事件在接下来的半小时内会导致价差下降,且正面事件的价差下降幅度略大于负面事件。

研究结果表明,大量的社交媒体信息会导致流动性增加和之后的均值回归。我们利用这个信息对每30分钟交易一次的日内均值回归交易策略进行回溯测试。每隔30分钟,基准均值回归策略买入相对于上一个时间窗口收益为负的股票,然后卖空回报为正的股票。我们构建的策略则给在前30分钟窗口期内StockTwits和Twitter消息量高的股票更大的权重,以期望获取在大量社交媒体事件发生后的均值回归收益。结果显示,我们构建的策略优于不使用社交媒体数据的基准均值回归策略。

相关工作

虽然本文可能是首个研究社交媒体情绪如何影响日内流动性的文章,但也有越来越多的学者研究社交媒体和新闻如何影响资产价格。Dredze et al.[2016]提供了这类的调查文献。

本文早期的版本考虑了社交媒体对综合指数的影响,如标准普尔500指数和VIX指数。Bollen、Mao和Zeng[2011]的研究表明,Twitter情绪可以用来预测道琼斯工业平均指数的回报。Mao, Counts, and Bollen[2011]进行了跟踪研究,发现Twitter和谷歌Insight Search (GIS)情绪可以预测每日股市指数的回报,包括道琼斯工业平均指数、标准普尔500指数和罗素2000指数。他们发现推特情绪引导了GIS情绪,看涨情绪可以预测股票指数的正回报。Zhang、Fuehres和Gloor[2011]发现,金融推文中大量使用高度情绪化的语言(如“希望”、“恐惧”和“焦虑”),预示着第二天股指的回报会很低,VIX指数会上升。最近,Karagozoglu和Fabozzi[2017]利用社交媒体观点开发了一种交易VIX期货的策略,结果表明,即使考虑了交易成本,该策略的表现也优于基准。

一些研究考虑了社交媒体对个人行为的影响。Da, Engelberg, and Gao[2011]使用谷歌搜索量数据发现,搜索量的增加预示着价格的短期上涨,随后在年内出现逆转。Ruiz等人[2012] 为每个股票建立了日常社交网络,他们的信息基于和其他人的转发(例如,如果在某一天如果Alice在yahoo发了信息,而Bob转发了她当天的消息,那么认为Alice和Bob在yahoo社交网络上是连接的),显示了这些社交网络的特点,例如最大连接的大小,与股票的交易量和回报相关。他们根据自己的业绩建立了一个日度交易策略,并且该策略的表现优于几个比较基准。Sul, Dennis, and Yuan[2014]发现了一个令人意外的结果:没有被转发的推文对未来回报的影响最大。他们做个一个时间研究,结果显示,从未被转发的推文中获取基于推文的信息的策略,其表现优于市场基准。Curtis、Richardson和Schmardebeck[2016]的研究表明,大量的社交媒体消息意味着更高的惊喜收益,而少量的社交媒体消息则意味着盈利后的波动幅度更大。Chen等人[2014]使用流行金融网站www.SeekingAlpha.com的帖子来预测股票收益和惊喜收益。Sun、Lachanski和Fabozzi[2016]使用潜在稀疏空间模型来分析社交媒体的数量和资产价格的变动,并以此来构建投资策略。

最近的研究集中在社交媒体和其他的信息来源(如公司和政府机构的新闻稿)之间的互动。Blankespoor, deHaan, and Zhu[2017]的研究表明,美联社使用机器人新闻增加了交易量和流动性;也就是说,虽然机器人撰写的文章没有给市场带来任何信息,但它们的加入导致投资者增加了交易,充分说明投资者对已发表的新闻文章会做出回应。Lee, Hutton, and Shu[2015]的研究表明,在产品召回后频繁发布推文的公司,其股价下跌的幅度要低于那些允许其他用户推动对话的公司。这进一步证明,社交媒体是与资产价格相关的信息传播渠道。Ge、Kurov和Wolfe[2017]研究表明,特朗普总统关于单个公司的推文对这些公司的日内回报有显著影响,并增加了日内交易量。Azar和Lo[2016]利用对美联储会议的预期推特情绪,预测标准普尔500指数在联邦公开市场委员会(fomc)宣布后的表现。他们的研究表明,推文的内容可以用来预测未来的回报,基于推文的资产配置策略的表现优于基准。

数据和变量

我们使用RavenPack的数据来衡量新闻情绪。RavenPack提供了一个与股票相关的新闻事件的数据库,每个新闻事件根据相关性、新颖性和情绪进行评分。我们使用综合情绪评分(CSS)来衡量新闻情绪。RavenPack通过解析新闻文本,并为新闻中的单词和短语分配积极和消极情绪得分来确定这一分数。构建的模型通过分配分数估计并预测100只大盘股的当日股价的反应。这个分数的范围在0到100之间,0代表完全消极的情绪,50代表中性的情绪,100代表完全积极的情绪。我们只保留那些相关性和新颖性得分最高的事件,得分完全为50的中立事件,以及已经发生并反映发展的事件。为了与我们的其他情绪数据进行有意义的比较,我们使用了如下的对数变换:

{w:100}我们还使用Psych-Signal的分钟数据来衡量社交媒体情绪。我们将Twitter和StockTwits上的任何消息作为研究对象,并把StockTwits和twitter的回复信息结合起来。PsychSignal为股票的看涨和看跌情绪提供了单独的分钟得分,以及消息数量的信息。我们将看涨和看跌的得分归一化,使其介于0和1之间,然后对这些变量取对数。

在我们的回归分析中,我们的因变量(例如,交易数量,回报)是按日计算的。因此,我们将新闻和社交媒体情绪信息汇总成一个日变量,对任何一个交易日从上午9:30至下午4:00之间的盘中情绪得分进行平均。对于每个交易日的每个股票行情数据,使用上午9:30到下午4:00之间的消息总数的对数来衡量社交媒体的总信息量。我们还在凌晨4点到9点30分的交易前区间内汇总变量进行预测回归,其中自变量是在正常的市场交易时间内度量的。

表1给出了自变量的汇总统计量,包括表明所有变量都是平稳的Dickey-Fuller检验统计量。样本为2011年至2014年的4,544只股票。

{w:100}表2提供了日内指标的结果 ,包括日回报、成交量、交易数量、报价数量和价值加权报价价差(以美元计算)。我们还从沃顿研究数据服务(WRDS)获得了迷你崩盘的数量,它是用报价价差之外的交易数量来衡量的。在报价价差之外的交易,要么代表急于买进的买家,要么代表急于卖出的卖家。

{w:100}

回归分析

表3和表4显示了模型的回归分析结果。对于每一个日内指标, {w:100},通过如下的线性回归来表示横截面股票回报和情绪信息的关系:

{w:100}其中 {w:100}是由情绪信息回归的误差项。为了进一步说明问题,我们在回归中包了 {w:100}含分别代表成交量和迷你崩盘次数的结果。其他的回归结果请查看附录。

回归结果显示,当社交媒体情绪消极时,对流动性的需求要比积极时大得多,而供给则要少得多。在交易量、报价数、成交量的回归中, {w:100}系数为正,约为 {w:100}系数的两倍,说明投资者情绪看跌时,流动性需求较高。同时,利差和迷你 {w:100}崩盘数量回归中的 {w:100}系数也为正,同样是 {w:100}系数的两倍。对这种结果的一个解释是,当做市商退出交易时,收益差和迷你崩盘会增加,高人气则意味着流动性供应不足。

流动性指标回归中的 {w:100}系数为负,说明流动性指标对市场情绪的反应不对称。虽然我们没有单独衡量正面和负面消息情绪的指标,但这个系数在成交量和交易数量的回归中为负的事实表明,负面消息对流动性的需求将比正面消息更大。在衡量迷你崩盘的数量时,这个系数也是负的,这意味着负面消息提供的流动性比正面消息要少。

这些结果纯粹是描述性的。但我们仍然想知道能否在市场开盘前预测流动性指标。回归结果显示,情绪指标确实具有一定的预测能力。在使用在开盘前数小时的新闻和社交媒体情绪能够预测开盘时的流动性。然而,需要注意的是,这些回归的系数和 {w:100}值都小于前面的描述性回归。在预测结果中, {w:100}{w:100}{w:100}的系数通常是正的和显著的(收益差的回归是唯一的例外)。表明市场开盘前的社交媒体活动预示着交易日对流动性的更高需求。然而,社交媒体人气的上升也预示着迷你崩盘的数量将会增加,这表明流动性供应将会减少。

{w:100} {w:100}

事件研究分析

除了回归分析外,我们还对异常社交媒体情绪进行了一系列的日内事件研究。研究选取了500只大市值股票,将WRDS的日内交易数据与Twitter和StockTwits的日内消息数据进行匹配。然后我们将信息分为积极情绪和消极情绪事件。异常积极(消极)事件是指社交媒体情绪得分高于(低于)该股社交媒体情绪平均水平至少三倍标准差的事件。我们构建模型时间窗口是事件发生前后间隔各10分钟(600秒)。

对于事件研究中的每个股票i和时间t∈(-600,600),我们计算每秒之间的回报 {w:100}。原假设是 {w:100}均值为0,方差为 {w:100},服从正态分布。根据原假设,异常回报 {w:100},就是 {w:100}。这意味着在t时刻,平均异常值为:

{w:100}且服从正态分布,均值为0,方差为:

{w:100}在一个时间间隔 {w:100}的累计平均异常值为:

{w:100}同样服从正态分布,且均值为0,方差为:

{w:100}为了验证我们的假设,使用估计量: {w:100}来计算T统计量:

{w:100}从这些事件研究中可以发现,高度异常的社交媒体情绪之后有非常高的动量,之后则是均值回归的回报。事件研究的结果显示在表5的panel A和panel B中。实线表示累计平均回报率,虚线表示离群值被调整在95%水平上的累计平均回报率。阴影区域代表95%置信区间,通过1000个bootstrap样本计算。从表5的panel A和panel B中,我们可以看到社交媒体情绪可以用来检测盘中情绪高涨的峰值或盘中恐慌的低谷。

在表5 的panel C和panel D中,我们展示了使用异常社交媒体情绪的传播事件研究的结果。同样,实线显示累计平均收益,虚线表示离群值被调整在95%水平上的累计平均回报率。与前面的回归结果相反,这个事件研究表明,异常情绪事件在接下来的半小时内会导致价差下降,尽管这种下降在统计上并不显著。收益和价差事件研究都表明,极端情绪会导致市场流动性增加(均值回归和收益降低)。流动性的增加可能是由于个体投资者的关注和参与增加,也可能是由于机构做市商对极端情绪的反应。

{w:100}表6包含这些事件研究的检验统计量,用来测试事件窗口前后的服从正态分布且均值为零的原假设的平均回报和平均价差变化。在我们的检验中,考虑三个阶段:事件前窗口[- 600,0]、事件后窗口[0,600]和完整事件窗口[- 600,600]。在我们的价差事件研究中,没有拒绝原假设,但在事件前和整个事件窗口的回报事件研究中,它拒绝了原假设,这证实了在异常高的推文数量之后,均值回归最终归于市场。

{w:100}

交易策略分析

我们利用从回归和事件研究中获得的结果,构建了一个使用StockTwits和Twitter消息的日内交易策略。考虑到大量社交媒体信息意味着未来的均值回归、较低的价差和高流动性,因此使用均值回归策略,并加大社交媒体人气高的股票的投资组合权重。我们使用Quantopian(参见www.quantopian.com)来测试我们的策略。在任何一个月里,我们的股票池都是由过去200天平均交易量最大的500家公司组成的,限制条件是单个板块个股数量不超过股票池个股数量的30%。我们考虑以下两种策略:

1、基准策略。从上午10点开始每30分钟交易一次,一直持续到市场收盘。每隔30分钟。然后我们会对投资组合进行如下调整:

(a)关闭所有开仓。

(b)TOP是一个集合,包含我们股票池中前30分钟窗口的回报排名最高的50只股票,BOT则表示包含排名最低的50支股票。

(c)设置权重

{w:100}该策略是市场中性的,杠杆率为

{w:100}和T检验保持一致。实际中经纪商/交易商不受该约束,杠杆率通常超过2:1。

2、社交媒体策略。从上午10点开始每30分钟交易一次,一直持续到股市收盘。每隔30分钟,我们就会对投资组合进行如下调整:

(a)关闭所有开仓。

(b)TWT为一组股票,该组股票在过去30分钟内有超过5条StockTwits和Twitter的消息,且在过去30分钟内消息数量高于指数加权移动平均线。TOP是前30分钟的回报排名前50只股票的集合,BOT则表示包含排名最低的50支股票。

为该投资组合分配权重,使得下列条件成立:

  • {w:100}<0对于所有 𝑡∈𝑇𝑂𝑃和 {w:100}
  • {w:100}>0对于所有 𝑡∈𝐵𝑂𝑇和 {w:100}

若 𝑖∈𝑇𝑊𝑇和 𝑗 𝑛𝑜𝑡∈𝑇𝑊𝑇 那么 |𝑊𝑖𝑊𝑗|=2。

这一策略是市场中性的,杠杆比率为2:1,将推文数量高的股票分配的权重为推文数量少的股票的两倍。从本质上来说,对于社交媒体信息数量高的股票,社交媒体策略预测其在下一个时期股价将出现反弹,因此将这些股票的权重加倍。

策略样本期为2011年1月1日到2014年12月31日,初始化资金为1000万美元。表7显示了策略在整个样本期内每一年的表现。考虑到股票交易市场的实际情况,模型做如下设定:

  • 当新入头寸时,使用设定在当前价格的限价指令。买入订单必须以当前价格或低于当前价格完成,卖出订单必须以当前价格或高于当前价格完成。
  • 下单后第二秒订单才会成交。
  • 对于任何时间的任何股票,不能买入或卖出超过该股票在那一秒的实际成交量。只成交一部分的订单将继续等待,直到完全成交。

{w:100}我们还构建了一个约束条件更严格的策略,即在任意时间内只能交易当前股票成交量的10%。

结果表明,社交媒体策略的结果优于基准均值回归策略。基准策略的年化回报率为20.61%,社交媒体策略的年化回报率为24.10%。如果限制单只股票不得超过当前成交量的10%,那么基准策略和社交媒体策略的年化回报率分别下降到12.64%和14.77%(表7未包含)。

虽然这两种策略收益均为正,但是由于交易的频率比较高,只有做市商才能以最小的交易成本实现这些策略。由于本文构建的策略提供了大量的限价订单,跟随这类策略的精明交易员由于收取的费用则抵消了部分交易成本而成为净流动性的提供者。

结论

本文的研究表明,社交媒体活动可以在日内水平上显著影响流动性,并且相对于正面情绪,负面情绪对流动性的影响明显更大。这与恐慌比狂热对市场的直接影响大得多的观点是一致的。此外,事件研究表明,在日内水平上,社交媒体情绪的峰值对应着趋势的结束和均值回归的开始。我们利用这些结果构建了社交媒体策略,我们预测社交媒体人气高的股票将会回归均值,因此通过加大这类股票的权重来获取更大收益。结果表明,该策略的表现优于等权的日内均值回归策略。

本文研究的局限性同时也是未来的工作方向。首先,本文没有解决社会媒体和市场之间的因果关系或反馈效应问题。无论是StockTwits和Twitter上的用户,还是使用这些网站提供信号的机构投资者,价格波动本身会影响他们的情绪。因此这种反馈机制是否会放大系统性风险,以及它在引发金融危机中扮演什么角色就显得尤为关键。

另一个重要问题是社交网络结构是否会影响投资者的决策。我们的分析没有考虑发布消息的用户身份。在社交网络中影响力更大的用户可能会用推动社交新闻情绪来对股票市场施加更大的影响。

附录

回归结果

本附录展示了使用收益,交易数量,报价数量,迷你崩盘数量和美元报价的有效价差作为因变量的回归结果。

{w:100} {w:100} {w:100} {w:100}

标签

机器学习投资者情绪金融市场均值回归
{link}