量化百科

【Alpha-Nebula】基于社交网络的股票预测研究

由ypyu创建,最终由ypyu 被浏览 19 用户

欢迎大家持续关注我们的专栏Alpha-Nebula,我们会持续分享高质量的量化相关内容。这篇文章我们介绍的是一篇叫做**“Study of Stock Prediction Based on Social Network”**的Paper,作者针对市场,爬去了新浪微博和股吧的数据进行了一些有趣的研究。

Social Behavior Graph

作者爬完了这两个社交平台的数据之后,通过Hamming Distance和时间间隔来辨别不同帖子之间的similarity:即如果Hamming Distance小于2,同时两个贴的时间间隔小于1小时,那么就认为这两个贴是可以合并到一个主题的。最后,作者画出了一张social behavior graph:

在这张图里,可以抽离的信息或者说特征有以下几种:

  1. Topics: 即关于一个股票话题的总数目
  2. Comments: 关于股票所有评论的数目
  3. Users: 参与这只股票讨论的用户数目
  4. Nodes: 总共的图节点,等于话题数+帖子数+用户数
  5. Edges: 图里所有的边数,代表了用户的活跃程度
  6. Degree_avg: 所有节点的平均degree,可以通过Edges/Nodes算出,也代表了用户的活跃程度
  7. Degree_stdv: 所有节点degree的标准差
  8. Diameter: 图中存在的最大半径,标记了信息传播的广度
  9. Gra_conn: 子图的数量
  10. Gra _avg: 子图的平均节点
  11. Gra _stdv:子图节点的标准差

相关性分析

然后作者做了股票收益率和股票交易量与这11个变量的相关性分析,结果如下:

基于上图作者指出, Gra_conn, degree_ava和Gra_ava和股票收益率的相关性最大,比较有趣的是这些都是通过二次计算得出的一些图信息,而非用户数、话题数、讨论数等直接指标。

其中,Gra_conn和Gra_ava其实相关性较高,可以视为一类,我对此的理解是子图数量才是反应真实市场情绪的指标,而非节点或是话题数量,这表明如果出现子图较少但节点很多的图,很有可能是水军造势。之前看到一篇文章分析说新闻命名主题的数量和股票收益率相关性高,可能也是同样的道理。此外,degree_ava则可能是一个较为优良的刻画活跃度的指标。

然后再看关于交易量的图:

从上图可以看出,topics, users和comments和股票交易量的相关性最大,故而可以说讨论的人越多,股票的交易量越大。

最后,作者采用了两层的BP神经网络去预测,这种方法的效果一般都无法参考,具体结论效果就不表了。

参考文献

Chen Z, Du X. Study of stock prediction based on social network[C]//Social Computing (SocialCom), 2013 International Conference on. IEEE, 2013: 913-916.

标签

股票预测量化投资数据挖掘机器学习算法交易策略