为价值发现提供线索——爬虫与大数据在投研场景的应用
创建于 更新于
摘要
本报告介绍了广发证券金融工程在投研中应用网络爬虫与大数据技术,涵盖数据采集、文本挖掘及舆情分析等多个环节。通过大数据辅助投资决策,实现对市场热点、个股动态、行业趋势及消费行为的监测与研究,具体包括基于搜索引擎指数的量化择时、中观产业电商数据分析、房价大数据监测及企业招聘数据洞察,最终实现人机结合的投研支持系统,为资产管理未来发展提供重要支撑[page::0][page::5][page::7][page::10][page::16][page::23][page::27]。
速读内容
大数据与网络爬虫在投研中的应用基础 [page::2][page::3][page::4][page::5]
- 网络爬虫实现自动化采集公司公告、新闻媒体、社交舆情和电商平台数据
- Python被广泛运用在爬虫、自然语言处理、数据科学等领域
- 广发金工构建了覆盖公告、研报、股吧、网络媒体及搜索引擎的爬虫与文本挖掘系统

基于舆情大数据的量化择时体系 [page::7][page::8][page::9]
- 建立基于大数据舆情、日历效应、宏观因子、技术分析、市场热度的六维度量化择时模型
- 百度搜索指数反映市场情绪,指数与沪深300指数相关系数高达0.69
- 新闻量与指数涨跌呈明显正相关,新闻量剧增时更易突破上轨发出做多信号
- 量化择时策略2011年至今累计收益率达1100.77%,最大回撤18.11%,胜率55.18%

| 分年度指标统计 | 累计收益率 | 最大回撤 | 胜率 | 年度盈亏 |
|---------------|------------|----------|--------|----------|
| 2011 | 71.82% | -6.41% | 61.85% | 盈 |
| 2012 | 47.78% | -10.31% | 56.46% | 盈 |
| 2013 | 18.11% | -10.73% | 55.38% | 盈 |
| 2014 | 55.79% | -4.72% | 58.76% | 盈 |
| 2015 | 115.53% | -18.11% | 55.50% | 盈 |
| 2016 | 15.65% | -12.47% | 51.26% | 盈 |
| 2017 | 0.45% | -8.63% | 50.25% | 盈 |
| 2018年至今 | 2.65% | -13.30% | 52.54% | 盈 |
| 整体 | 1100.77% | -18.11% | 55.18% | 盈 |
中观视角:电商数据消费行为洞察 [page::10][page::11][page::12][page::13][page::14][page::15]
- 通过爬取拼多多30万商品销售数据及分类销售额,揭示不同行业市场表现和价格分布
- 销量最高多集中于低价百货商品,如纸巾,拼多多消费群体主要是女性、学生及30岁左右已婚人群
- 商家多来自东北、西北、西南区域,热销商品契合地域特色
- 进口商品主要产地为日韩、美洲、澳洲,品牌营收占比较大
- 手机品牌销量以vivo、oppo、华为领先,男装品牌以花花公子、富贵鸟、南极人为主

中观视角:房价数据差异化分析 [page::16][page::17][page::18][page::19][page::20][page::21][page::22]
- 利用链家约70万条北京二手房数据,细致剖析不同区域房价走势及成交量
- 西城区二手房价最高,过去一年表现最强。石景山成交最弱,成交周期延长,显示买方市场格局
- 房价相对挂牌价普遍降幅,成交周期均呈增长趋势
- 海淀名校学区房溢价约4万/平,价格相对高点有6%跌幅,表现较为保值
- 学龄儿童数量增长趋势有助预测学区房未来走势

微观视角:AI招聘与娱乐平台流量 [page::23][page::24][page::25][page::26]
- 从拉勾网抓取AI岗位招聘数据,初创型企业占51%,上市公司占17.4%,京东、搜狗、腾讯等公司招聘需求最多
- 小葫芦监测娱乐平台流量及互动(弹幕、礼物收入等)用于辅助上市公司业绩评估

总结与展望 [page::27]
- 人工智能与大数据正深刻变革资产管理行业,数据、算法和算力成为核心竞争力
- 投研领域推进人机结合,利用机器完成信息抓取、数据处理、量化分析,提升基金经理和研究员的决策效率

深度阅读
深度分析报告:《为价值发现提供线索——爬虫与大数据在投研场景的应用》
---
一、元数据与概览
- 报告标题:《为价值发现提供线索——爬虫与大数据在投研场景的应用》
- 作者:罗军、安宁宁、文巧钧、陈原文
- 发布机构:广发证券金融工程
- 发布日期:2018年12月7日
- 主题:本报告聚焦于大数据技术,尤其是网络爬虫技术在投资研究(投研)中的应用场景,探索人工智能与大数据为资产管理和投资决策带来的变革,力图揭示通过大数据获取和分析提升投资效率和精准度的路径。
核心论点:大数据与人工智能技术正逐步成为资产管理行业竞争力的关键,数据采集(以爬虫为代表)、数据处理与智能分析(包括自然语言处理、情绪分析等)成为投资研究的辅助工具,未来研究模式将趋向“人机结合”,即机器负责大量数据处理与预分析,帮助投资者做出更精准决策。报告围绕大数据的获取方式、技术框架及具体应用案例展开,涵盖市场择时、中观产业与消费、微观公司层面等不同维度。[page::0,27]
---
二、逐节深度解读
2.1 研究背景与大数据获取
报告介绍当下资产管理行业引入大数据的趋势,比如通过卫星影像(RS Metrics、Cargo Metrics)监控零售和航运动态,利用推特情绪指标做量化择时;JP摩根要求分析师必须学习Python编程语言,体现了大数据编程能力的重要性[page::1]。
数据获取手段重点:
- 人工方式:手工浏览公司公告、新闻和舆情,费时且难以持续实时更新。
- 网络爬虫:自动模拟人工浏览网页抓取数据,是传统投研向智能投研转型的关键技术,覆盖公告、新闻、销售数据、社交舆论等[page::2-3]。
- 具体实例包括对股吧内容的爬取与情绪分析,定向抓取文本存入数据库,支持舆情监测等[page::3]。
- Python作为主流编程语言,其作用不仅限于爬虫,还包括自然语言处理(NLP)、数据科学、办公自动化等方面[page::4]。
2.2 广发金工大数据分析框架
报告构建了以爬虫和文本挖掘为基础的投研数据体系,覆盖公告、研究报告、股吧及社交、网络媒体、搜索引擎五大数据源,并配套推出各种爬虫和文本分析工具,面向研报热点、舆情监控、个股信息变动挖掘等多领域应用[page::5]。
2.3 大数据应用场景
2.3.1 大数据择时(量化择时)
报告提出基于六个维度的数学模型来进行量化择时,包括:
- 大数据舆情(网络舆情情绪指标)
- 日历效应
- 宏观因子
- 市场热度
- 技术分析
其中,大数据情绪指标融入传统分析体系,能够发挥统计规律和市场心理效应的双重作用[page::7]。
舆情数据与市场走势关联实证:
- 以百度指数等搜索引擎数据为例,指数与沪深300指数呈高相关(0.69),新闻量涨跌与指数走势存在正相关性,即新闻量激增指数多上涨,反之下跌[page::8]。
- 图表验证舆情信号能发出买卖信号,即新闻量突破上轨或下轨对应指数的做多或做空信号,净值走势亦验证这一信号的有效性[page::9]。
- 统计显示从2011年至2018年,该量化择时策略收益累计达到1100.77%,虽存在回撤但胜率过半,显示较强的实用价值[page::9]。
2.3.2 中观观察——电商大数据案例
报告利用拼多多平台30万条商品的销售额数据,探析消费趋势:
- 不同行业销售额分布,百货、家电、食品、鞋包等类目占比较大,集中反映电商消费结构[page::10]。
- 商品价格区间主要集中在0-20元,符合三四线城市居民的消费习惯,热销商品以百货类为主,其中纸巾销量最高[page::11]。
- 分词分析揭示消费主体为妇女、学生及年轻已婚人群,促销集中于打折、最低价、性价比等关键词[page::12]。
- 商品产地分布对应东北、西北、西南等传统产区,体现区域生活习惯和产品特色[page::13]。
- 进口商品主要源自泰国、韩国、日本、澳洲、美国、德国及越南,类别涵盖日韩美妆、保健品、男装等[page::14]。
- 品牌影响力方面,手机销量以vivo、oppo、华为为主,男装品牌以花花公子、富贵鸟、南极人领先[page::15]。
2.3.3 中观观察——房地产大数据
广发证券通过链家网约70万条北京二手房挂牌与成交数据,进行房价与成交量的深入分析:
- 数据来源相较官方统计更为实时且细化(学区房、城区细分等),解决传统房地产数据滞后问题[page::16-17]。
- 西城区二手房均价最高,房价表现最强,石景山表现最弱,反映不同区域楼市分化[page::18]。
- 近期成交量下滑,成交周期延长,成交价相对挂牌价折让增加,均证明当前买方市场特征明显[page::19-20]。
- 对名校学区房的研究发现,海淀区名校学区房均价比北京平均房价高4万+/平,价格更具保值性,且价格变化与学龄入学儿童数量高度相关[page::21-22]。
2.3.4 中观观察——招聘市场数据
- 通过拉勾网抓取的AI相关招聘岗位数据表明,初创型企业对AI人才需求突出,占总招聘量的51%,而上市公司占比则为17.4%,体现初创企业具备较强的创新和成长潜力[page::23]。
- 上市公司中,京东、搜狗、腾讯、阿里、网易为AI人才招聘的主力军,反映其研发投入和技术应用布局[page::24]。
2.3.5 微观观察——娱乐直播平台流量与业绩
- 监测了虎牙、斗鱼、哔哩哔哩、欢聚时代(YY)、美图公司、美拍等多个娱乐平台的流量指标(开播数量、弹幕人数、礼物收入等),以估计其流量变动及营收趋势[page::25-26]。
---
三、图表深度解读
- 图2(第2页):展示了传统手工数据采集与智能爬虫采集的流程对比,强调对于投研数据的多维抓取结构,包括新闻、公告、销量与流量数据[page::2]。
- 图4(第4页):展示Python在大数据技术中的多元应用,涵盖爬虫、NLP、数据科学、办公自动化,体现技术语言的重要性[page::4]。
- 图8-9(第8-9页):百度指数数据与沪深300指数的走势高度同步,验证舆情数据作为投资择时信号的有效性,辅以净值增长曲线支撑,说明量化择时有效提升投资回报[page::8-9]。
- 图10-15(第10-15页):拼多多平台商品分类销售额环形图、价格分布柱状图、热销产品排行榜及品牌销量份额饼图,揭示下沉市场消费特征和品牌影响力布局[page::10-15]。
- 图17-22(第17-22页):链家网北京二手房不同区域价格与成交数据,清晰展示区域房价分化和成交量走弱、成交周期增长的市场现状。同时,名校学区房价格与学龄儿童数量相关性图,体现学区房投资价值[page::17-22]。
- 图23-24(第23-24页):拉勾网AI岗位分布及不同上市公司AI岗位招聘数量条形图,展现科技创新主体和人才聚集情况[page::23-24]。
- 图25-26(第25-26页):小葫芦平台监测的各娱乐直播平台流量和礼物收入截图,间接估计对应上市公司的业绩情况,为微观分析提供数据支持[page::25-26]。
- 图28(第28页):显示广发证券开发的爬虫及数据挖掘工具界面,说明技术手段的具体实现路径及智能化覆盖范围[page::28]。
---
四、估值分析
本报告主要聚焦于技术应用和案例分析,未涉及具体企业的财务估值模型或目标价预测,因此不包含传统意义上的估值分析章节。但从中可见其技术驱动背景下,数据分析能力将提升资产管理公司内在估值能力和风险管控水平。
---
五、风险因素评估
报告最末页即免责声明中明确指出:
- 采用模型与假设的局限性,分析结果无法完全贴合现实。
- 大数据基于历史时序,未来情景存在偏差风险。
- 报告非针对所有投资者的万能投资建议,客户需结合自身实际做决策。
- 数据来源虽尽力保证可靠性,广发证券不对准确性承担保证责任。
这提示用户在因用大数据分析支撑投资决策时,仍需警惕“模型风险”与“方法论局限”,未必能同步现实与未来发生的事态变化。[page::29,30]
---
六、批判性视角与细微差别
- 数据可靠性及玩味:虽然网络爬虫与大数据技术能极大拓宽数据来源,覆盖非传统金融数据,但网络数据本身可能存在虚假、样本偏移、时序不稳定等问题,没有在报告中详细讨论数据质量控制和异常数据处理的措施。
- 模型与因果关系假设:报告中常以相关性判断信号有效性,例如舆情指数与沪深300的正相关,但未展开因果关系讨论,可能存在复杂多变的市场环境导致非因果且不稳定的统计关系。
- 技术应用的局限性:对自然语言处理、情绪分析的具体算法模型和误差,并未披露,用户需谨慎对待自动化文本解读结果的偏差风险。
- 人机协同的潜力与风险:报告强调人机结合,但对人机决策交互如何规范、如何评估“机器辅助”误判带来的风险等未充分展开。
- 市场动态的响应速率:报告中多数据频率偏低,多为日度或月度数据,面对高频震荡的市场行情可能响应不足,尚不足以完全替代传统市场数据分析[page::27,29]。
---
七、结论性综合
本报告系统阐释了大数据技术,特别是网络爬虫在资产管理与投资研究中的实际应用路径与潜在价值。通过覆盖宏观舆情指标、行业消费数据、微观公司数据,及房地产、招聘市场、娱乐直播流量等多个维度,报告展示了大数据辅助投资的多层次分析框架。
- 网络爬虫技术作为智能数据获取核心,极大提升了研究数据量和时效性,突破了传统“手工投研”的瓶颈,成为量化投资重要基石[page::2-5]。
- Python及其数据科学工具的广泛应用,推动语言成为连接数据获取、自然语言处理、机器学习的统一平台,促进投研智能化[page::4]。
- 大数据舆情指标与传统市场指数高度相关,基于舆情的量化择时策略表现亮眼,显示了信息与情绪的投资价值[page::7-9]。
- 消费层面,拼多多销售数据揭示了梯度市场消费特点及品牌竞争格局,为产业趋势判断提供另类视角[page::10-15]。
- 房地产中介平台数据则补足官方统计高时滞难以观察精细市场的缺陷,解析细分区域房价差异和成交状况,尤其适用于学区房等长线配置研究[page::16-22]。
- 招聘和流量数据揭示企业创新势能及上市公司业绩的潜在变动趋势,为微观投资提供另类量化依据和辅助判断[page::23-26]。
- 广发证券自主研发的多元化爬虫与文本挖掘工具,实现公告、报表、媒体舆情的实时监控和深度分析,构筑智能投研的技术底座[page::27-28]。
尽管报告未直接涉及具体估值模型,但显现出大数据赋能资产管理决策的多维趋势。投资者需警觉数据与模型本身的风险和限制,尊重“人机结合”理念,利用机器的高效数据处理能力和人类的专业判断力相结合,进一步提高投资研究的科学性和有效性[page::27,29]。
---
总结:
本报告通过详实的技术框架介绍与多重实证案例,立体呈现了大数据与爬虫技术在投资研究领域的应用优势,强调了数据驱动下投资研究创新的重要性。为资产管理人和投资者拓展了新的价值发现路径,同时提醒市场参与者严控模型和数据风险,促使智能化工具成为提升竞争力的核心驱动力。
---
附录:部分关键图表
传统与智能投研数据获取流程示意图,突出爬虫自动采集作用。
百度指数"广发证券"关键词搜索热度走势,与股市指数高度相关。
舆情指数与股指净值走势关联,印证舆情数据作为量化择时信号。
拼多多电商销售额行业分布图,显示细分品类贡献。
北京重点区域二手房均价走势,区域间明显差异。
北京二手房与海淀名校区房价格比较,显示溢价空间。
广发证券智能投研爬虫工具界面截图,揭示技术支撑实务。
---
(以上均标注数据及内容出处页码,确保分析内容具有完整溯源性。)