`

基于新闻舆情的选股策略研究互联网大数据挖掘系列研究之(十四)

创建于 更新于

摘要

本报告依托中证500成分股2010年至2018年的个股新闻数量数据,构建投资者关注度指标并基于此构建选股策略。实证显示,投资者关注度较低的个股表现出显著的超额收益,且策略的年化收益和最大回撤等风险指标均优于基准,验证了新闻舆情对股票价格的预测能力及选股价值。数据展示了新闻数量分行业、年度的分布趋势及多只代表性股票的新闻数量与价格走势,深刻揭示投资者注意力对资产价格的影响机制 [page::0][page::16][page::17][page::18][page::19][page::20][page::24][page::25][page::31]

速读内容


互联网新闻数据背景与研究框架 [page::0][page::1][page::3]


  • 互联网已成为投资者获取信息的主要渠道,媒体报道对投资者注意力及决策影响显著。

- 报告结构包括研究背景、策略构建、策略实证及结论四大部分。

海外文献回顾及媒体效应理论基础 [page::4][page::5][page::6][page::7]


  • Tetlock(2008)提出新闻情绪影响股票价格,消极新闻导致价格下行。

- Fang和Peress(2009)发现高媒体覆盖率股票表现低迷,显示信息溢出效应。
  • Joseph等(2011)使用谷歌搜索量指数作为投资者关注度指标,关注度波动预示短期收益变化。

- 媒体效应包括"风险补偿假说"和"过度弱势假说",投资者关注度影响股票价格形成短期反应和长期反转。

互联网大数据抓取与现有相关产品概况 [page::8][page::9][page::10][page::11]


  • 基于多个财经门户网站的数据采集构建大数据体系,支持公告、研报、股吧、网络媒体及搜索引擎数据挖掘。

- 互联网大数据基金产品以指数型和灵活配置型基金为主,相关产品具备多样化投资策略。

互联网新闻数量统计特征与投资者关注度指标构造 [page::13][page::14][page::15][page::16][page::17][page::18]



| 指标 | 数值(单位:条) |
|-------------|--------------------|
| 股票个数 | 1117 |
| 平均数 | 706.56 |
| 标准差 | 790.76 |
| 最小值 | 34 |
| 25%分位数 | 364 |
| 50%分位数 | 518 |
| 75%分位数 | 736 |
| 最大值 | 8832 |
  • 统计显示个股新闻量分布差异显著,行业新闻量集中于医药生物、化工、房地产等行业。

- 采用新闻数量的对数值与历史中位数对数值的乘积构造投资者关注度指标,反映市场对个股的关注强度。
  • 采集方法优选搜索引擎新闻聚合,提高效率和覆盖面。


投资者关注度与股票价格趋势及负向相关性分析 [page::19][page::21]


  • 详细展示多只股票(赣锋锂业、小天鹅A等)投资者关注度与价格走势图,观察二者呈现一定负相关趋势。

- 反映投资者过度关注可能导致市场短期价格波动和长期反转。

投资者关注度选股策略构建与回测 [page::20][page::22][page::24][page::25][page::26][page::27][page::28][page::29]


  • 投资者关注度指标以中证500指数成分股为股票池,月度重新排序关注度后做多关注度较低股票。

- 策略在2010-2018年间表现稳健,累计多头收益显著优于基准,信息比率较高,最大回撤控制在合理范围内。
  • 换手率维持一定水平,策略活跃调整以适应市场环境变化。

| 年份 | 累积对冲收益率 | 对冲年化收益率 | 最大回撤 | 多头累计收益率 | 基准累计收益率 | 信息比率 |
|------|--------------|--------------|---------|------------|------------|--------|
| 2010 | -2.40% | -5.70% | -4.80% | 36.00% | 39.2% | -0.92 |
| 2011 | 12.10% | 12.10% | -1.20% | -13.50% | -22.9% | 2.27 |
| 2012 | 9.40% | 9.40% | -2.30% | -21.70% | -28.2% | 1.455 |
| 2013 | -3.20% | -3.20% | -8.50% | 32.80% | 37.4% | -0.542 |
| 2014 | 13.30% | 13.30% | -3.10% | 53.40% | 35.6% | 1.552 |
| 2015 | 21.80% | 21.80% | -3.00% | 72.00% | 41.1% | 2.591 |
| 2016 | 23.00% | 23.00% | -2.60% | 9.40% | -10.9% | 3.513 |
| 2017 | 3.60% | 3.60% | -3.30% | -1.40% | -5.1% | 0.685 |
| 2018 | 5.40% | 9.50% | -0.90% | -12.10% | -16.7% | 1.218 |

研究结论 [page::31]

  • 利用互联网新闻舆情数据构建的投资者关注度指标能有效预测股票表现,低关注度股票显著跑赢市场。

- 该策略依托大数据技术和新闻量的月度更新,具备较强的实用价值和可操作性。
  • 报告提醒策略潜在的局限性和模型适用范围,建议结合投资者自身需求灵活应用。

深度阅读

金融研究报告详尽解析报告:《基于新闻舆情的选股策略研究互联网大数据挖掘系列研究之(十四)》



---

1. 元数据与报告概览



报告标题: 《基于新闻舆情的选股策略研究互联网大数据挖掘系列研究之(十四)》
作者及联系方式: 罗军、安宁宁、陈原文,均隶属广发证券金融工程团队
发布日期: 2018年11月15日
发布机构: 广发证券金融工程部
研究主题: 互联网大数据背景下,基于新闻舆情数据构建投资者关注度指标,进而构建并验证有效的选股策略。核心焦点在于利用互联网新闻数据做量化选股,特别是在中证500成分股样本中验证策略效果。

核心论点与结论摘要:
  • 传统金融事件和市场数据难以全面捕捉投资者情绪,新闻舆情尤其是互联网新闻覆盖广泛,对投资者关注产生显著影响。

- 通过爬取中证500指数成分股从2010年起的新闻数量数据,构造投资者关注度指标。
  • 所构建的基于关注度的策略以“低关注度”(新闻数量较少)股票为多头构建标的,整体取得了显著的超额收益。

- 策略从不同角度展现了投资者情绪通过新闻舆情影响股价的路径及效果,体现了行为金融学中“有限关注”和“过度关注弱势”假说的应用价值。

此报告不仅结合理论与实证,还提供了全面的数据与案例验证,旨在为投资者提供可操作的新闻舆情选股工具与体系。[page::0,1,31]

---

2. 逐章节深度解读



2.1 研究背景(I)

  • 关键论点与信息: 随着技术和媒体的发展,互联网已成为投资者获取资讯的主渠道。新闻媒体特别是互联网新闻对投资决策影响深远,学术界已有不少关于新闻舆情与资本市场关系的研究。多家主流财经媒体已成为信息来源(雪球、和讯网、新浪财经、东方财富、百度新闻、腾讯新闻等)[page::3]。

- 支撑逻辑: 媒体报道不仅传递硬信息,更影响投资者注意力分配,通过情绪引导市场波动。
  • 关键数据点: 介绍国内外研究,含典型研究如Tetlock(2008)对华尔街日报情感分析,发现消极新闻压低股票价格,Fang和Peress(2009)发现报道广泛但未区分信息正负的股票表现较差。[page::4,5]

- 概念解析: 情感分析、媒体覆盖率作为投资者关注的代理指标和其对异常收益的影响。

2.2 策略构建(II)

  • 关键论点: 利用互联网新闻数量构造投资者关注度指标,关注度高低反映投资者情绪。

- 方法论: 以中证500成分股新闻量数据为样本,新闻数量通过搜索引擎批量抓取,统计新闻数量并对数处理计算月度关注度指标。
  • 指标构建公式:(见报告公式,简述为)

关注度(Attention)= ln(当月新闻数量) × ln(过去M个月新闻数量的中位数)
  • 选股策略是在每月第一个交易日,买入上个月关注度较低的股票,做多低关注度组合。

- 数据基础与策略回测周期: 2010年1月至2018年7月,成分股为中证500股票。[page::15,16,20]

2.3 策略实证结果(III)

  • 表现总结:

- 低关注度股票在统计意义上取得显著超额收益,且表现优于中证500指数基准。
- 策略对冲多空组合呈现稳健正收益,年化收益及信息比率表现良好。
- 换手率较高,反映策略对关注度变化反应敏捷,如2018年换手率达到87.2%,但风险控制良好,最大回撤一般控制在4%左右。
  • 多例股票个案研究:

- 赣锋锂业、小天鹅A等股票的新闻数量和关注度指标与股票价格走势呈现一定负相关,支持“有限关注”及行为金融假说。
  • 图表解读(见图24、27):

- 图24显示中证500等权选股策略净值和基准净值走势,策略净值显著跑赢基准。
- 图27展示流通市值加权选股表现,同样体现超额收益,策略有效性得到双重验证。
  • 数据来源:Wind及广发证券发展研究中心提供的新闻抓取和股价数据。[page::19,21,24,27]


2.4 结论(IV)

  • 互联网新闻数量与股票价格间存在负向相关,高新闻关注度股票未来表现偏弱可能因过度关注导致股价高估,反转风险加大。

- 利用互联网新闻数据构造投资者关注度指标为有效选股工具,特别是在中证500样本中表现稳健。
  • 该方法操作简便,基于公开的新闻数据,且适应现代信息技术的趋势。报告强调投资策略适用性、模型局限以及未来可能的调整风险,并提醒投资者审慎对待。[page::31,32]


---

3. 重要图表与图像深度解读



3.1 报告结构导航图(图1,page-1)

  • 展示了全文四大部分:研究背景、策略构建、策略实证结果、结论,结构清晰,流程逻辑性强。


3.2 典型文献图示(图4,page-4)

  • Tetlock研究图为累积异常收益图,横轴代表信息发布前后交易日,纵轴为累积异常收益例显示积极新闻(正面信息)带来正收益,消极新闻带来负收益。

- 同时区分了两个媒体:WSJ(华尔街日报)和DJNS(道琼斯新闻社),说明跨媒体分析的稳健性。
  • 该图支持新闻情感分析的重要性,也是本报告策略构建的理论基础。[page::4]


3.3 媒体效应机制示意图(图7,page-7)

  • 该图阐释媒体对资本市场的两类主要影响机制:

- 传统金融理论视角(风险补偿假说):媒体报道多的股票信息更透明,风险较低。
- 行为金融理论视角(过度弱势假说):投资者过度关注媒体热点股票,导致价格短期高估,后续收益回落。
  • 这为策略“做多低关注度”股票提供理论支撑。[page::7]


3.4 新闻抓取及大数据体系架构(图9、10,page-9&10)

  • 展示完整的互联网新闻数据抓取流程:网页规则识别、反监控管理、抓取任务调度、批量存储。

- 互联网大数据挖掘体系呈树状结构,涵盖公告、研报、社交情绪、网络媒体、搜索引擎等多维度数据,体现数据的多源性及抓取方法的系统化。[page::9,10]

3.5 新闻数据与行业分布图(图17、18,page-17&18)

  • 年度新闻数量条形图显示自2010年以来的新闻增长趋势,2017年新闻量达到峰值,2018年上半年保持高位。

- 行业分布中医药生物、化工、房地产等行业新闻量明显高于其他行业,说明行业关注度不均衡,策略设计需适度控制行业偏重。[page::17,18]

3.6 个股新闻数量与股价走势图(图19,page-19)

  • 四家公司新闻数与股价走势对比,展示新闻数量变化与股价存在一定关联性,某些时间点新闻量激增往往对应价格变动。

- 但负相关关系提示高热门度反而伴随股价回落,验证报告核心假说。[page::19]

3.7 投资者关注度与股价趋势(图21,page-21)

  • 赣锋锂业、小天鹅A两支股票的“Log新闻数量”转化为的投资者关注度指标与股价走势对比。两者呈现一定程度的负相关,支持“做多低关注度”选股策略。

- 说明新闻数量指标可作为投资者情绪有效的代理变量。[page::21]

3.8 策略收益及换手率统计图(图24、27;换手率表page-26&29)

  • 净值曲线显示策略相比中证500基准净值有明显超额收益。策略换手率较高,反映月度调仓频繁,且交易活跃性较大。

- 年度换手率及收益率数据表较为稳健,最大回撤水平在合理控制范围内,表明策略能在控制风险的同时获取超额回报。[page::24-27,26,29]

---

4. 估值分析



报告未涉及传统估值框架(如DCF、市盈率等)分析,而是重点围绕网络舆情数据挖掘和投资者关注度对选股策略的驱动机制及表现进行研究和实证。策略主要建立在行为金融学基础上的关注度指标,基于投资者行为异象和市场非效率进行择时择股。

---

5. 风险因素评估


  • 数据与模型风险: 使用历史网络新闻数据作为关注度指标,可能存在数据抓取不完整、误判新闻性质(正负面)风险,且模型假设关注度与未来收益存在稳定负相关关系,未来情况或不同。

- 市场效率风险: 随着市场不断发展,投资者关注度等因素的影响可能减弱,策略优势或被市场竞争中消化殆尽。
  • 换手率及交易成本风险: 策略换手率较高,实际操作中交易费用可能侵蚀收益。

- 异象持续性风险: 行为金融中的有限关注和过度关注假说存在理论争议,市场环境、投资者结构变化可能导致策略失效。
  • 策略覆盖面有限: 样本范围限定于中证500,适用性对其他市场板块需谨慎。

- 技术风险: 网络舆情数据抓取、处理依赖互联网技术,有数据延迟、网络异常风险。

报告在说明中也对模型适用范围和投资者需结合自身实际情况提出了明确提示。[page::32]

---

6. 批判性视角与细微差别


  • 优势: 以大数据新闻舆情量化投资前沿技术为核心,理论结合实证,数据覆盖时间较长,方法透明,易复制,实证结果稳健,对行为金融理论有示范意义。

- 不足及潜在偏见:
- 新闻数量作为关注度代理过于粗糙,未区分新闻内容性质(积极或消极),未来可结合情感分析提高指标准确度。
- 策略调仓频繁导致较高交易成本,报告未详细披露净收益剔除交易成本后的影响。
- 只做多低关注度股票,未明确对高关注度股票的弃用或做空策略,潜在收益机会未完全挖掘。
- 对少数极度关注股票与股价关系存在样本偏差未详述。
- 报告末尾免责声明强调方法模型局限,体现作者审慎态度,增强报告客观性。
  • 细节差异:

- 新闻量激增与股价短期波动关系尚不明确,是否存在信息泄露前反应或滞后效应值得进一步探讨。
- 行业新闻覆盖度差异较大,策略构建时是否进行了行业中性处理或权重调整未详述。
- 不同权重方式(等权与流通市值加权)策略表现存在差异,可能反映大市值股的关注度与价格影响机制不同。

---

7. 结论性综合



本报告系统梳理并实证了基于互联网新闻数据构建投资者关注度指标的选股策略,特别在中证500成分股中表现出明显的超额收益能力。通过架构化的互联网大数据抓取体系,结合行为金融学有限关注和过度关注假说,报告阐释了媒体新闻如何影响投资者注意力进而影响股价波动。本策略有效利用投资者关注度与股价的负向关连,采取月度调仓买入低关注度股票组合,显著跑赢市场基准,且风险收益特征理想。

从图表角度看:
  • 投资者关注度与股票价格呈负相关(图21),验证了过度关注导致价格高估、未来反转的理论。

- 策略净值(图24、27)在历史样本内持续上涨,显示系统稳定的超额收益能力。
  • 行业新闻分布(图18)显示新闻关注并不均匀,策略在实际应用中应注意行业配置风险。

- 新闻数据(图17)明显增长,说明互联网环境下数据挖掘的潜力逐步释放。

整体而言,报告提供了一个科学且实用的互联网大数据量化投资框架,有利于投资决策的改进,值得关注与进一步深入研究和优化。[page::1,4,7,9,10,17,18,21,24,27,31]

---

参考报告页码溯源


[page::0,1,3,4,5,6,7,8,9,10,13,14,15,16,17,18,19,20,21,22,24,25,26,27,28,29,30,31,32,33]

---

总结



《基于新闻舆情的选股策略研究》报告以广发证券强有力的数据抓取与处理技术为依托,围绕互联网新闻舆情与股票价格关系展开深刻分析,融汇行为金融理论和实证验证,为量化投资领域提供了有效的投资者关注度选股工具。该策略不仅经济学理论基础牢固,而且实际交易表现优异,是大数据金融应用的典范。

投资者在参考该报告内容时,应注意数据及模型的历史局限性和市场环境变化风险,结合自身投资风格和风险承受能力,灵活应用新闻舆情量化策略。

报告内容专业科学、详实丰富,为互联网大数据在资本市场应用提供了宝贵案例和方法论指导。

报告