研报&论文

从加权IC到机器学习,高频因子多头失效的修正-海通证券-20200322

由bigquant创建,最终由bigquant 被浏览 126 用户

摘要

高频因子易出现多头失效现象。与常用9因子(市值、估值、非线性市值、换手率、特质波动率、非流动性、反转、ROE、ROE同比变化)正交后的高频因子,一般都有较高的IC与较大的因子多空收益。然而,当它们被加入选股模型后,却往往无法提升组合的收益表现。这种现象来自于高频因子多头端的失效,即,多头端的因子值和未来收益率的相关性和整体不同。

在计算IC时对不同组别赋予差异化权重,可以更好地评价和筛选因子。例如,赋予多头端更高的权重,重构IC。这样一来,多头端更加有效的因子,IC会升高,方便投资者重新审视因子的有效性。

加入高频因子的高次多项式能较好地刻画因子暴露和预期收益率非线性相关的特征,有助于修正因子多头失效的现象。实证结果表明,直接加入因子的高次项(如,二次、四次多项式),可以在整体上改善最大化预期收益组合的业绩表现,挖掘出高频因子更多的增量信息。

利用径向基函数对高频因子升维,并结合线性模型,可以达到分段回归的效果,同样能够在一定程度上修正因子多头失效的现象。该方法属于机器学习的一个类别,计算压力较小,主要通过数据驱动来反映因子和收益之间的非线性关系。

使用机器学习升维可能会引发“维数灾祸(dimensioncurse)”,增加多因子模型的风险。一方面,因子维度升高会降低参数估计的稳定性。极端情况下,会导致因子暴露矩阵不满秩,无法进行跟踪误差约束。另一方面,过高的维度也会提高模型的过拟合概率,尤其是在有效历史数据较为有限的月度再平衡方式下。

风险提示。市场系统性风险、模型误设风险、有效因子变动风险。

正文

/wiki/static/upload/b2/b2e339f2-2d73-4b1f-95cd-2a89e171fbad.pdf

\

标签

高频因子选股模型
{link}