高频特征抽取模块
由xiaoshao创建,最终由xiaoshao 被浏览 828 用户
导语
本文主要介绍高频特征抽取–由分钟到日频功能模块的使用。
模块简介
高频模块的意义
高频数据是目前顶级量化基金的重点布局领域,高频因子研究系统满足了用户可实现高频数据的挖掘需求,包括数据横向扩容、性能优化、高频因子抽取、分布式数据挖掘等功能。实现了从小数据、单机环境、经验规则到大数据、集群算力、AI算法的跨越式发展,研究人员不再受限于数据规模小、单机算力低,即可利用机器学习、深度学习等算法实现AI实验的开发。
具体价值如下:
1)实现高频数据可读取加载。该数据一般包括tick快照、逐笔成交和委托数据,17年以来的数据大约为几十T,该数据规模较大,单机环境无法加载进内存,更不提如何做分析和研究。
2)高频数据研究成为可能。即使可读取大规模的高频数据进内存,但受限于单机环境的CPU,一个数据清洗可能会花费数天的时间。高频研究系统可利用集群算力,并能够横向扩容,进行分布式运算,将数天的时间开销降低到数小时或数分钟。
3)挖掘高频因子,开发出同质化更低的AI量化策略。国内的基金都在抢先布局高频数据研究,在日频数据上挖掘因子已经非常饱和竞争异常激烈,而且寻找到的因子同质化太高,因子衰减很快。
高频分钟字段介绍
高频分钟数据包含以下字段:共计143个,其中bid/ask_num_orders1-10字段为2019-06-06后新增的字段(字段释义详情见附录)