另类数据初探讨——从招聘数据说起
创建于 更新于
摘要
本报告围绕另类数据在海外市场的应用现状,重点探讨以招聘数据为例的量化因子与事件驱动两种投资策略。通过剔除子公司数据与筛选学历、薪资条件,招聘数量因子展现出良好表现。基于招聘数量突破阈值事件,显著观察到事件发生前后均存在正的超额收益,且剥离市值影响后依旧有效,表明招聘数据是中长期投资者可参考的重要另类数据源 [page::0][page::3][page::6][page::10][page::12][page::13]
速读内容
- 另类数据正在海外市场逐步成长,主要被短期交易者采用。包括个人数据(社交网络情绪)、商业过程数据(邮件回执等)和传感器数据(卫星图像、手机定位)均被用于构建投资指标。其中JP Morgan用推特情绪和邮件回执数据搭建策略表现良好,显示另类数据的潜力 [page::3][page::4]

- 机构选择另类数据时关注六大特征:信任度、颗粒度、新鲜度、综合度、可行动度及稀缺度,保障数据质量和有效性 [page::5]
- 报告核心以招聘数量作为因子构建的选股策略。招聘数量因子定义为过去30天内上市公司招聘广告数量总和,经过剔除持股比例低于50%的子公司数据和筛选学历(本科及以上)、薪资(年薪大于10万)后,因子表现明显提升。回测区间为2017年1月-2021年6月,调仓频率为每月,股票权重等权 [page::6]
- 招聘数量因子具有分行业和市值偏好。招聘数量排名靠前的公司多为高市值和特定行业。为剥离偏好,使用行业哑变量和市值中性化的回归残差构建因子,回测显示正交化对因子表现影响复杂,提升了部分评价指标但降低了多空对冲收益和IC的单调性 [page::7][page::8][page::9]




- 基于事件驱动框架,招聘数量突破不同分位数阈值事件前后公司相对中证800等权指数表现出显著正超额收益,且阈值越高超额收益越明显。筛选不同学历薪资条件后的招聘数量事件同样表现出连续和稳定的正向反应 [page::10][page::11]




- 对事件进行市值中性化后,事件前后累计超额收益未明显改变,说明招聘数量突破阈值事件的alpha信号并非仅由市值因素驱动,具有独立的有效性 [page::12][page::13]




- 总结:招聘数据作为一种重要的另类数据来源,通过量化因子和事件驱动两种方法均表现出良好投资价值。清洗与筛选后的招聘数量因子在中长期投资中具备选股能力,基于因子与事件的多维度验证进一步提升了信号稳定度,为中长期投资者使用另类数据开辟有效路径[page::13]
深度阅读
另类数据初探讨——从招聘数据说起 深度分析报告
---
1. 元数据与概览
- 报告标题:《另类数据初探讨——从招聘数据说起》
- 作者/发布机构:方正证券研究所
- 发布时间:2021年8月4日
- 研究领域:另类数据在金融投资中的应用,重点为招聘数据因子的研究
- 报告主题:探讨另类数据,尤其是招聘数据,如何帮助挖掘投资机会,以及招募数量因子在A股市场的表现与潜力
核心论点与结论
- 海外另类数据市场处于成长期,主要用来支持短期投资决策,但中长期应用尚不成熟。
2. 招聘数量因子具有一定Alpha能力,通过数据清洗(如剔除持股50%以下子公司招聘数据)及岗位筛选(学历、薪资),因子表现进一步提升。
- 招聘数量激增事件存在明显正向超额收益,而且事件发生前后均有正收益,说明招聘数据对股价具有前瞻指示意义。
4. 本研究结果基于历史回测数据,不构成投资建议;模型可能因市场环境、政策等变化失效。
---
2. 逐节深度解读
2.1 报告结构及章节简介
报告围绕以下四大主要章节展开:
- 海外另类数据市场现状
- 另类数据应用示例—招聘数据
- 总结
- 风险提示
---
2.2 另类数据在海外市场的现状
关键论点
- 另类数据作为实时且多元的信息来源,正在日益成为对冲基金等机构投资者的重要决策因子。
- 但目前主要服务于短期交易,支持快反应抢占套利机会,尚缺乏中长期投资案例。
- 市场上,规模更大的对冲基金更多采用另类数据(大于10亿美元AUM的公司中48%投资另类数据),而规模小基金该比例较低(18%)(见图表1、2)。
- 另类数据大体分为三类:个人产生数据(如社交媒体情绪等)、商业过程数据(交易量、消费数据等)、传感器数据(卫星图像、移动定位等)。
推理与数据支撑
- 以JP Morgan的案例为例,利用推特情绪指标(iSentium)实现了13.74%年化收益,IR为1.40,且最大回撤优于标普500指数,充分体现了个人产生数据的投资价值(见图表3)。
- 商业过程数据中,基于邮件回执的消费和订单数据形成了有效的多空策略(见图表4)。
- 传感器数据则借助卫星和手机定位估算门店客流,从而预测销售和股价。
关键总结
- 另类数据多样且实时,被广泛认可,但受制于数据传播快和竞争加剧,短期机会多,中长期价值待挖掘。
- 选择另类数据时,六大特征是评判标准:信任度、颗粒度、新鲜度、综合度、可行动度、稀缺度。
---
2.3 另类数据的应用——以招聘数据为例
2.3.1 招聘数据结构(图表5)
字段包括上市公司代码、招聘公司名称、岗位名称、薪资范围、学历要求和发布时间。
招聘数据被用作衡量公司经营状态及未来预期的反映,招聘量多往往对应公司扩张期。
2.3.2 基于因子投资的招聘数据研究
- 以30天为窗口统计发布的招聘广告数量作为招聘数量因子。
- 为提升数据精准度,筛选岗位学历本科及以上、薪资超10万元,以及剔除持股比例低于50%的子公司招聘数据。
- 实施5分组月调仓股票多空等权策略,分析因子指标IC(信息系数)、ICIR、夏普率、最大回撤。
- 剔除小持股比例子公司数据后,因子表现显著提升,说明数据清洗的必要性(图表6)。
- 不同筛选条件(无筛选、学历筛选、薪资筛选、双重筛选),招聘数量因子均表现稳定,但学历+薪资双筛相较于无筛选有一定提升。
- 发现招聘数量与行业和市值高度相关(图表7、图表8);部分行业招聘数量集中,且高市值公司倾向发布更多招聘广告,形成结构性偏好。
- 为剥离行业和市值影响,进行因子正交化处理,获得净残差作为新因子,但部分指标(年化收益率)出现下降,可能因正交化破坏了因子单调性,效果尚需深入研究(图表9-11)。
2.3.3 基于事件驱动的招聘数量研究
- 定义事件为:某公司30天内招聘广告数量首次突破历史分位阈值(80%、90%、95%分位)。
- 观察事件发生前后相对于中证800等权指数的超额收益,采用多种筛选策略(无筛选、学历筛选、薪资筛选、双筛)(图表12-16)。
- 结果显示,阈值越高,事件前后均存在较明显正超额收益,验证招聘数量快速上升预示股价上涨潜力。
- 为控制市值影响,再次对招聘数量做市值中性化处理,回测结果无较大变化,说明招聘数量象征的信号并非仅由大市值驱动(图表17-20)。
---
2.4 总结
- 招聘数据作为另类数据的典型应用,在因子和事件驱动框架内均表现出良好选股及交易信号。
- 数据清洗和筛选是提升信噪比的关键步骤,尤其剔除小控股子公司数据和设定学历与薪资门槛。
- 招聘数量突增可以作为潜在的买入时点,且超额收益显著且稳定。
- 报告强调了另类数据在未来投资中的潜力,但也指出当前使用仍处于探索阶段,需注意数据质量和模型适用性。
---
2.5 风险提示
- 模型基于历史数据,非直接投资建议。
- 投资者结构变化、宏观政策、经济基本面等均可能导致模型失效。
- 数据供应风险(统计错误、供应中断)可能影响使用效果。
---
3. 图表深度解读
图表1与图表2——另类数据受重视程度
- 图表1揭示34%的对冲基金经理正在投资另类数据,位列新兴技术第二,仅次于“不投资新技术”的47%占比。
- 图表2进一步细分,规模大于10亿美元的基金中,48%投资另类数据,而小基金比例仅18%,显示大型机构更依赖技术和数据优势。
- 该差异可能源于数据购买和处理成本,规模越大越有动力与能力进行技术投入。
图表3——JP Morgan 推特情绪指标表现
- iSentium策略年化收益13.74%,波动率9.79%,夏普率1.40,高于基准标普500(年化12.08%,夏普0.95)。
- 多头信号操作胜于空头,且最大回撤显著低于标普500,说明情绪指标可提供较稳定的短期alpha。
- 该数据示例支持社交数据作为短期情绪和投资决策工具的有效性。
图表4——邮件回执数据选股策略表现
- 以消费、订单、买家数为指标测得,Level指标的Top6/Bottom6组合收益率最高,尤其订单数Level差异贡献最大(0.36),显示商业过程数据具备预测能力。
- 反映企业销售活动背后真实经营状况,较为贴近经济基本面。
图表5——招聘数据字段
- 包含公司代码、职位、薪资区间、学历要求等,字段完备,有利于构建定量招聘因子。
- 招聘数据细节为后续因子筛选和事件分析提供基础。
图表6——招聘数量因子表现对比
- 剔除低股权子公司招聘数据后,IC和夏普率均有所提升,说明削弱了噪声影响。
- 不同筛选条件下,例如筛学历和薪资,因子表现趋于稳健但复杂度增加。
- 指出精准数据处理是提升另类数据因子质量的关键。
图表7与图表8——行业和市值分布特征
- 图表7显示部分行业(媒体、医药、综合等)在招聘数量排名前100中占比明显高于整体,体现行业招聘活跃度差异。
- 图表8揭示招聘数量排名靠前样本市值明显偏大,右偏严重,强调招聘量与市值正相关。
图表9和10——招聘因子正交化对净值曲线的影响
- 正交前五分位图呈现明显分层,最高组表现最佳,净值差异显著。
- 正交后,分组区分度略弱,可能因去除市值、行业因素导致信号微弱。
- 提示因子正交化带来权衡,需根据实际交易策略调整。
图表11——正交前后因子统计指标对比
- 正交后ICIR和夏普率提升,但年化收益、最大回撤出现波动,凸显风险与收益权衡。
图表12——招聘数量分位数对应阈值
- 阈值从80分位约9到无筛选最高阈值89不等。
- 不同筛选条件显著影响招聘数量的分布阈值设定。
图表13至16——事件驱动下不同筛选条件的超额收益
- 不同阈值及筛选条件下,累计超额收益均呈现明显上升趋势,阈值越高收益越显著。
- 表明招聘数量急剧增加事件普遍预示着积极的股价表现。
图表17至20——市值中性化后事件驱动超额收益
- 与中性化前对比,超额收益趋势变化不明显,且阈值依然呈单调性。
- 验证了招聘数量因子独立于市值对股价的预测能力。
---
4. 估值分析
本报告并无直接涉及具体公司估值或目标价设定,主要侧重于另类数据的应用与因子表现研究。报告分析招聘数据因子的选股效果及事件驱动超额收益,更多为量化投资策略构建的底层逻辑和数据支持,而非个股具体估值。
---
5. 风险因素评估
- 历史数据依赖风险:模型基于历史回测,且所有超额收益均为历史表现,不保证未来有效。
- 市场结构变化:随着市场参与者增多,套利机会缩小,因子失效风险加大。
- 政策风险:宏观经济及政策变动可能改变企业用工需求和市场反应。
- 数据质量风险:第三方数据存在统计误差、供应中断等潜在风险,影响因子计算和策略执行。
- 模型假设:因子正交化等处理存在对收益指标影响的双刃剑效应。
报告针对这些风险明确提示,投资决策时需谨慎对待。
---
6. 批判性视角与细微差别
- 因子正交化影响复杂:报告中正交化处理有提升ICIR和风险调整收益的效果,但也带来了收益和最大回撤变化,说明该步骤可能削弱了部分信息,尚需更多实证测试确认其合理性。
- 招聘数量与市值、行业正相关:因子存在一定行业和规模偏好,需持续关注是否因隐含的风格因素影响因子独立性和稳定性。
- 超额收益事件存在先行特征:超额收益在事件前就出现,可能存在信息提前反映或市场提前定价问题,需结合其他指标共同考虑。
- 模型基于A股市场:中国市场特有的结构和监管环境可能限制该研究结论在海外成熟市场的直接适用性。
- 数据来源安全性和版权:报告未详细提及第三方招聘数据的采集及完整度,数据缺失和更新不及时可能影响策略效果。
---
7. 结论性综合
方正证券研究所的这份报告系统探讨了另类数据,尤其是招聘数据在当前投资领域的应用潜力。通过详实的数据分析和回测,报告提出招聘数量因子具备选股和交易信号的双重价值。具体来看:
- 海外另类数据市场快速发展,规模大机构更重视其潜力。
- 招聘数量因子经过数据清洗和岗位筛选后,在A股市场表现出持续的Alpha能力(IC和夏普率都有提升)。
- 招聘数量急剧上升事件,无论是否剔除市值影响,均与个股具有显著的正向超额收益相关,说明该事件能作为股价上涨的前瞻指标。
- 因子调整(行业、市值正交)需谨慎,其对收益及风险指标均有不同程度影响,建议结合实际策略应用场景。
- 该研究强调了另类数据在量化投资中的辅助决策价值,尤其是作为传统财务数据的有力补充,促进中长期投资策略的丰富和创新。
- 风险提示明确,投资需结合多因子、多数据源并密切关注市场结构及政策变化的可能影响。
整体而言,报告结合图表和数据的论证逻辑严谨,体现出招聘数据作为另类指标在市场实战中具有较强的应用价值和研究前景。
---
重要插图展示示例
图表1:另类数据受到更多对冲基金的重视

图表7:2019年12月31日截面数据行业分布对比

图表9:正交化前五分组招聘数量因子分组净值曲线

图表13:“无筛选”下事件前后超额收益

图表17:“无筛选”下事件前后超额收益(中性化后)

---
参考文献与数据来源
- 方正证券研究所自有数据分析与回测
- 通联数据、Wind资讯提供基础数据
- JP Morgan案例分析(情绪指标、邮件回执、传感器数据)
- Global Hedge Fund Benchmark Study
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13]