研报&论文

金融科技(Fintech)和数据挖掘研究(三):量化因子的批量生产与集中管理-海通证券-20190617

由qxiao创建,最终由qxiao 被浏览 116 用户

摘要

量化因子计算可以定义为一种基于初等计算函数与一阶谓词逻辑的递归过程。

量化因子的本质是股票的某种数量化特征,一般需要通过对股票某些数量信息进行计算得到。与计算机函数从“函数输入出发,输入函数计算,得到函数输出”相类似,量化计算过程也可以拆解为“从量化指标出发,输入量化计算,得到新量化指标”。由此可见,计算机函数构成的基本逻辑——递归过程也同样适用于因子计算架构。

**定义量化指标的计算过程有计算机语言与XML文本两种方式。**由于λ算子与图灵机、递归函数等价,因此无论是基于λ算子的函数式编程语言,还是基于图灵机的过程、命令范式语言,都可以用来构建量化计算过程。在定义逻辑结构较为复杂的因子时,过程、命令范式语言较为合适。而当需要批量生产因子时,可以表达递归逻辑的XML文本也可以作为递归逻辑描述语言来使用。

**利用自动因子生成器暴力挖掘因子是生产有效因子的重要方式。**利用自动因子生成器构建的226个突破型因子,其中有20%-30%在截面上有较好的选股效果。然而,经正交后,效果明显下降。这说明,暴力挖掘方式还是能获取一部分传统因子构建过程中没有挖掘到的信息,但毕竟两种方式具有相同的初始算根,有大量信息被传统因子所解释。

**利用逐笔数据构建的高频因子有着非常突出的效果。**构建买入大单成交额占比因子,其截面表现非常优异。利用正交后的因子构建等权组合,可获得接近20%的多空年化收益与9左右的收益回撤比。高频数据的处理成本非常高,目前只能进行15年8月以来的短周期回测,所以,因子表现的稳定性需要进一步跟踪。

**自动构建数据表是进行因子自动化管理的关键要素。**依据因子结构进行因子数据库管理是因子计算自动化的重要步骤,而自动构建SQL语句,对数据表进行增删查改是实现这种自动化管理的关键技术。

正文

/wiki/static/upload/2d/2d640b93-c3f2-4d72-95ee-a66b2b212afb.pdf

\

标签

数据挖掘量化因子