量化研究新思维(十八)——另类数据在投资中的运用
创建于 更新于
摘要
本报告系统介绍了另类数据在投资中的应用,重点聚焦网络抓取技术及品牌忠诚度因子的构建,通过网页字典化方法提取品牌引用率信号,检测其在不同消费品行业内与营收的相关性。研究表明,品牌曝光度作为重要无形资产,能够稳定提供超额收益,BrandLoyalties 500组合在2012-2017年实现138bps年化超额收益,体现了另类数据挖掘的潜力和投资价值[page::0][page::4][page::6][page::8][page::9]
速读内容
1. 另类数据定义与价值体现 [page::0][page::4]
- 另类数据指传统财务与量价数据之外的第三方提供的新型信息,具备更及时且海量的特点。
- 品牌忠诚度被视为无形资产,反映消费者为品牌支付溢价的意愿,对投资选股具有alpha价值。
2. 网络抓取与字典化技术介绍 [page::4][page::5]
- 通过网页抓取技术与字典化方法,转化网页上的品牌引用频率数据,规避版权风险。
- 利用大规模工业带宽和工程设计,提取公开数据形成稳定的品牌曝光信号。
3. 引用率与市值及行业关系实证分析 [page::6]

- 全市场中公司引用率与市值相关性弱,但消费者服务行业内两者正相关显著。

4. 网络曝光度与信号相关性以及行业差异 [page::7]

- 可选消费品等服务行业网络曝光度与营收强相关,信号稳定性高。
- 技术类产品多为售后支持曝光,信号相关性较弱。
- 表1和表2显示高引用率公司引用率与营收高度相关,低引用率公司相关性较低。
5. 品牌忠诚度因子实证及组合表现 [page::8][page::9]

- 将股票按品牌引用率增速分五等分,构建前1/5与后1/5组合,长期累计净值差异显著。
- 网络曝光度信号具有持续14-90天的alpha效应。
6. BrandLoyalties 500增强组合构建与业绩表现 [page::9]

- 以美国市值最大500只股票构建基准组合SN 500,权重下调50%。
- 对网络曝光度排名前五等分股票分别调整权重至2倍、1.5倍及原权重,季度再平衡。
- 2012年5月-2017年9月,BrandLoyalties 500组合实现年化超额收益138bps(17.66% vs.16.28%),累计超额收益101美元。
7. 风险提示 [page::10]
- 市场系统性风险、模型失效风险及跨市场结构差异风险需重点关注。
深度阅读
报告详尽分析报告
——《量化研究新思维(十八)——另类数据在投资中的运用》
分析师:冯佳睿
发布机构:海通证券研究所
日期:2020年2月14日
---
1. 元数据与报告概览
标题: 《量化研究新思维(十八)——另类数据在投资中的运用》
作者及联系方式: 冯佳睿,海通证券研究所,电话(021)23219732,邮箱 fengjr@htsec.com
日期: 2020年2月14日
主题: 探讨基于“另类数据”尤其是网络抓取(web scraping)技术所获得的品牌忠诚度等信息,用于提升投资决策效率和产生超额收益的研究。
核心论点:
报告强调“另类数据”作为传统财务报表及量价数据之外的新兴数据源,尤其以网络曝光度(引用率、品牌忠诚度)为核心信号,能够为投资者提供预示公司未来营收的领先信息,进而提升选股的alpha收益。文中详细论述通过网络抓取技术结合字典化方法避免版权问题,实时捕捉品牌引用率变化,形成高效投资因子以及具体投资策略,展示其在实际投资组合中的超额收益表现。
评级与目标价: 本报告为专题研究文章,未涉及具体评级及目标价。作者旨在传达另类数据可为投资带来差异化信号,强调方法、实证与应用示范。
---
2. 逐节深度解读
2.1 引言与另类数据定义
报告首先明确“另类数据”定义为除传统数据外由第三方生产的、更加及时的大数据,来源于互联网、传感器、卫星、GPS等,通常具备庞大的数据量及结构复杂性,需要高端自动化采集与解析系统。
这部分为下文建立基础场景,说明数据获取与处理的挑战性,为选择网络曝光度这一信号主题铺垫。[page::0][page::4]
2.2 品牌忠诚度(章节2)
品牌忠诚度被强调为早期被认可的无形资产,反映消费者支付溢价的意愿,代表公司竞争壁垒及顾客粘性,且具有显著的商业价。这一点由富达彼得·林奇管理的麦哲伦基金历史案例支撑——品牌忠诚度被视作选股的核心指标,基金年化收益超过29%。此外,Jack Treynor将品牌忠诚度转化为经济学上的顾客溢价意愿指标,使用竞争对手销售额变动作为代理变量。
投资者由此意识到品牌忠诚度的动态变动可能领先财报并成为alpha来源,因此需要高效统计工具。[page::0][page::4]
2.3 网络抓取与字典化技术(章节3和4)
网络抓取海量品牌引用数据面临版权合规风险,投资经理倾向长期数据以便趋势把握及回测策略。字典化技术(通过反汇编、合并、排序等处理将原始网页数据转化为公开可用的词频统计)有效规避版权争议,同时具备数以千亿计数据的检索能力。
该技术有助精准捕捉品牌关键词出现频率,避免语义情绪分析的噪声及法律风险。该技术需要强大IT资源,确保样本统计的无偏估计及纠偏网络带宽波动带来的采样误差。此外,维护品牌映射的实时更新是保障数据时效性的关键。报告提及20ZB级网络数据规模,突出原始数据的海量和抓取挑战。[page::0][page::4][page::5]
2.4 引用率与行业、市值关系(章节5)
引用率(品牌网络被搜索或浏览频率)与公司客户互动程度及客户规模密切相关,从而与行业及市值高度绑定。
- 图1中“所有行业散点图”显示整体引用率与市值间关系非常微弱且平坦,暗示各行业间引用率差异大。
- 图2消费者服务行业独立绘制,则显著看出引用率与市值正相关,表现为客户规模扩展带来的网络曝光度增长。
作者推断:引用率的主要决定因素是公司业务领域,行业内客户数量则影响引用强度,因此投资者使用该指标时须行业细分。[page::5][page::6]
2.5 网络曝光度与营收信号相关性(章节6)
网络曝光度随行业不同,和营收的相关性也差异明显。作者引入“信号相关性”指标,即最近8个季度引用率和营收的相关系数。
- 图3展示各行业日引用量与信号相关性的散点关系,反映不同板块曝光度是否成为营收的强信号。可选消费品行业(餐饮、零售、服装等)曝光度与营收高度相关,而科技硬件(因售后支持引用多)与重工业等行业相关较弱或为负。
- 表1列举引用率与营收相关系数高(>80%)的行业代表企业,如DSW、诺德斯特龙、赫兹等主要零售及服务型企业,体现品牌曝光率可作为营收的前瞻指标。
- 表2显示低相关系数的企业多为医疗保险、制药及计算机服务行业,说明这类企业的网络引用度不能有效预测营收。[page::7][page::8]
2.6 另类数据因子的实证及组合构建(章节7-8)
作者利用“品牌忠诚度”网站(BrandLoyalties)的滚动91天引用率增长数据,将股票分为五等分,按季度更新,检验其前后五分之一组合的累计净值差异(图4)。
结果显示,前1/5组合净值显著优于后1/5和Russell 3000指数基准,表明高引用率增速股票具有持续alpha。alpha效应可持续约14-90天,说明数据在短期交易中有效。
在实际大盘股组合中,作者创建SN 500指数(美国市值最大500股,市值加权)作为基准,设计了BrandLoyalties 500增强组合:将所有股票权重减半,再对得分排名前35%(前三五分之一)股票权重依次乘以2、1.5并还原权重,季度再平衡以避免幸存者偏差。
图5显示2012年5月至2017年9月5年期间,该增强组合实现138bps年化超额收益(17.66%对比16.28%),累计超额收益101美元,明确体现了另类数据因子的实际应用价值。[page::8][page::9]
2.7 总结与风险提示(章节9-10)
报告总结,随着市场有效性的提升,传统信息优势减弱,另类数据成为未来重要的alpha来源。尽管数据采集分析工程复杂且带来版权及噪声挑战,基于网络曝光度的品牌忠诚度信号通过规范的数据字典、映射更新和大数据工程技术,能提供领先信息,产生实质 alpha收益。该研究树立了从海量数据中提取战术性投资信号的典范。
风险提示涵盖:市场系统性风险、模型失效风险、以及海外和国内市场结构差异风险,警示读者需警惕模型适用边界和环境变化对结果的影响。[page::9][page::10]
---
3. 图表深度解读
图1 引用率 vs. 市值(所有行业)
- 说明:展示不分行业的所有公司每日引用率(千次)与市值(十亿美元)关系,散点图加回归线。
- 解读:数据点广泛分布,无明显趋势,回归线斜率近乎平坦,表明所有行业综合下引用率与规模相关性不显著。主要由于高引用行业与低引用行业混杂。
- 连结文本:呼应行业显著影响引用率的主张,暗示投资者在用引用率做分析时必须细分行业。[page::6]
图2 引用率 vs. 市值(消费者服务行业)
- 说明:取自消费者服务行业,仅限服装零售和餐饮等子板块,展示引用率与市值关系。
- 解读:显著正相关,回归线斜率明显且向上,说明在同一行业内,公司越大(客户群越多),品牌被引用频率越高。展示行业属性主导引用率。
- 连结文本:支持作者论断,行业分类助力甄别信号质量,是因果关联成立的前提条件。[page::6]
图3 引用曝光度 vs. 信号相关性(按行业)
- 说明:纵轴为平均日引用量(引用率),横轴为8季度引用率-营收的相关性(信号相关性)。图上标注各行业。
- 解读:可选消费品行业(餐饮、服装、特产食品、百货等)处于右上方,意味着高引用和高营收相关。计算机制造业尽管引用量高,但相关性为负,因多引用为售后技术支持,无助于营收预测。银行、电信等行业属于中间。农药化学等行业处于左下方,引用量低且相关性小。
- 连结文本:图示行业差异根源于业务模式和客户互动程度,影响网络指标的经济信号质量。[page::7]
图4 BrandLoyalties的前后1/5组合累计净值
- 说明:将股票按引用率增速划分五等分,绘制最高1/5、全部、最低1/5以及Russell 3000指数的累计净值曲线,时间区间2008-2017。
- 解读:最高1/5组合净值明显优于其他组合及基准,收益差异稳定且显著,体现网络曝光度信号具持续alpha能力。整个株群表现也优于市场,表明该数据覆盖股票整体质量较好。
- 连结文本: empirically证明网络曝光度因子在传统量化框架中可被利用且价值显著。[page::8]
图5 BrandLoyalties 500 vs. SN 500
- 说明:美国市值最大500支股票构建SN 500指数,对其进行BrandLoyalties基于曝光度得分的权重调整后构成BrandLoyalties 500组合,时间为2012至2017年。
- 解读:BrandLoyalties 500表现优于SN 500,尤其后期收益差额扩大,成效显著。年化超额138bps,对应累计超额101美元,体现字典化映射数据成功转换为实用量化alpha因子。
- 连结文本:论证了即使数据覆盖度不全,通过门槛加权策略仍能实现明显超额收益,策略实用性强。[page::9]
---
4. 估值分析
本报告为方法论和量化因子研究报告,没有涉及传统估值(如DCF、PE等)模型构建和目标价。重点在于另类数据采集、指标构造和因子实证。组合构建主要运用市值加权调整权重及等分排名策略,体现量化投资方法的斜率调整和风险控制思想。
---
5. 风险因素评估
报告重点强调以下风险:
- 市场系统性风险: 无论信号多强,整体市场环境剧烈波动时,策略表现可能不佳。
- 模型失效风险: 数据和模型基于历史相关性,未来可能因市场结构等改变使模型失效。
- 海外与国内市场结构差异风险: 报告数据及策略主要基于美国市场,直接迁移到国内市场可能受限。
- 合规风险: 数据版权及隐私法律可能制约数据的持续采集和使用。
报告未详细列出缓解措施,但强调了符合法律及持续更新字典的必要性,有助降低部分风险。[page::0][page::10]
---
6. 批判性视角与细微差别
- 报告高度依赖网络采集的“引用率”作为核心指标,未涉及多维度数据融合或交叉验证,单一指标可能存在表征偏差。
- 数据字典和品牌映射的维护是核心瓶颈,任何滞后或错配均可能影响信号有效性,报告对此环节虽有提及但讨论有限。
- 报告强调“品牌忠诚度”对营收等财务数据的预测性,但某些行业(如科技、医药)因引用多为售后支持或政策相关,信号实际价值有限,说明信号适用范围有限。
- 组合超额收益虽明显,但年化超额仅约1.38%,在实际投资中需考虑交易成本和滑点。
- 由于分析由量化模型自动计算,缺乏主观审视,可能忽略市场环境变化对因子有效性的影响。
- 报告建议谨慎将此类模型应用于国内或其他不同市场,体现一定的自我限制意识。[page::9][page::10]
---
7. 结论性综合
本报告系统地展现了以“品牌忠诚度”为核心的另类数据研究框架及应用价值。通过IT大数据采集、字典化处理、品牌映射和信号提取,搭建起一个大数据至alpha因子的闭环。重要发现包括:
- 传统财务报表之外,网络曝光度能反映消费者行为变化,并且多数高信号行业(特别是可选消费品领域)中,引用率与公司营收高度相关,网络数据领先于财报数据给投资者带来时效优势。
- 行业属性是引用率差异的决定因素,在同一行业内客户规模带来引用率强正相关,提示投资者运用时应细分行业落实因果关系。
- 字典化技术有效规避版权风险,同时支持实时大规模数据抓取与处理,使基于大量非结构化数据提取信号的投资策略成为可能。
- 实证验证显示:基于引用率增长排序构建的股票组合,特别是前1/5组合获得显著领先的风险调整后收益,较标准市场指数表现稳定。
- 在美国市值最大500股票构建的组合中,基于品牌曝光度的权重调整策略实现了约138bps的年化超额收益,累计超额收益明确证明了该策略的实用性和投资价值。
- 报告提示存在市场系统性风险、模型失效等风险,且该模型结构和数据主要适用于美国市场,迁移风险需要谨慎对待。
综上,报告体现另类数据在量化投资中开拓的新方向,强调通过精细化的大数据工程方法实现传统信息体系之外的alpha捕获。图表逐步验证了从行业差异、信号相关性到实证组合的连贯逻辑,展示了从原始网络大数据到可交易策略的转化过程,具有较强的理论及实务参考价值。[page::0-10]
---
主要图表示意





---
综上,报告全面论述了“另类数据”尤其是网络曝光度作为品牌忠诚度指标的投资价值,彰显了通过高端大数据技术及量化策略设计,能够为投资管理带来区别于传统财务分析的新alpha来源,值得关注与借鉴。[page::0-13]