【量化研报分享】华泰证券-华泰人工智能系列之三十:从关联到逻辑_,因果推断初探-20200424


(iQuant) #1

本文介绍了因果推断的框架,并研究了股票所属概念和收益的因果关系

  • 人工智能领域中,机器学习的优势在于强大的关联挖掘能力,然而由于缺 乏逻辑推理能力,机器学习无法区分数据中的因果关联和虚假关联。因果 推断是用于解释分析的建模工具,可帮助恢复数据中的因果关联,有望实 现可解释的稳定预测。本文介绍了基于倾向性评分法的因果推断框架,归 纳了三个关键步骤,并分别在 Lalonde 数据集和 A 股概念数据中进行因果 效应估计。结果显示,2016 年以来在中证 800 成分股中,基金重仓(季调) 概念与股票未来一个月收益有正向因果关系,股票质押概念与股票未来一 个月收益有反向因果关系,预增和护城河概念与股票收益的因果效应存疑。

机器学习本质是曲线拟合,可借助因果推断构建稳健、有推理能力的 AI

  • 现有的大部分机器学习模型是关联驱动的,本质上是曲线拟合。关联主要 有三个来源:因果关联,选择性偏差和混杂偏倚。其中选择性偏差和混杂 偏倚产生的关联是不稳定的。因果推断可以帮助恢复数据中的因果关联, 用于指导机器学习,实现可解释的稳定预测。对于金融市场来说,一方面 市场环境持续变化的特性导致多种可观测因素的有效性都随之而变;另一 方面,资产管理人对策略内部的因果逻辑和可解释性都有较高要求。这些 现状都说明在将机器学习方法运用于金融市场的策略构建时,融入因果推 断的方法是一个值得尝试的方向。

本文介绍了基于倾向性评分法的因果推断框架

  • 因果推断的基本思想是在处理组和对照组间进行对照实验以估计因果效 应。在观测数据中,将处理组与对照组之间分布不一样且会对结果造成影 响的特征称为混淆变量,因果效应评估的关键是如何保证混淆变量在处理 组与对照组的分布一致。倾向性评分法将多个混淆变量的影响用一个综合 的倾向性评分来表示,降低了混淆变量的维度,使得控制混淆变量成为可 能。本文归纳了倾向性评分法的三个步骤:(1)计算倾向性评分并估计因果 效应;(2)评估各倾向性评分方法的均衡性;(3)通过反驳评估所估计的因果 效应是否可靠。

基于倾向性评分法,本文研究股票所属概念和收益的因果关系

  • 本文首先在经典的 Lalonde 数据集上进行因果效应估计。然后基于倾向性 评分法,研究了中证 800 成分股中股票所属的四个概念和股票未来一个月 收益的因果关系,我们选取的混淆变量为股票的基本面和量价因子暴露, 考察区间为 2016 年 1 月到 2020 年 3 月。通过倾向性评分法的分析,我们 认为基金重仓(季调)概念与股票收益有正向因果关系,股票质押概念与股票 收益有反向因果关系,预增和护城河概念与股票收益的因果效应存疑。另 外,倾向性评分加权法(PSW)在均衡性测试和反驳测试中表现都最好,可 以认为其估计的因果效应较为可靠。