高频因子投研框架
由yangduoduo05创建,最终由yangduoduo05 被浏览 7 用户
高频因子投研一直是一个专业研究员头疼的问题,主要难点有以下几点。
1.高频因子计算速度慢,通常高频因子是指股票分钟数据或更高频率数据。每只股票每天有240条分钟k线,数万条level2数据,如果按照数据量计算的话,每天仅分钟数据约有5000*240 = 120万条。是日频数据的240倍。1天的分钟数据计算=1年的日频数据计算。1年的分钟数据因子计算=240年的日线因子数据计算。这种计算如果使用python进行处理的话通常需要大量时间。
2.高频因子数据量巨大 占用内存空间大,读写速度慢
高频因子投研框架解决了以上所有的问题,任何量化爱好者仅用2C8G的环境也可以进行分钟因子的投研。。
框架链接:
https://bigquant.com/codesharev3/5519f859-3125-435f-bd55-71d370cae6dd
使用方式:
1.sql定义因子,需要从cn_stock_bar1m_derived_c进行数据读写,该表仅对私享会成员开放。是一个高速分钟读写表,读取每日120万条分钟数据仅需1秒。通常计算1日分钟因子数据仅需3-4秒。计算一年约为3-4分钟。视因子复杂度而定。
2.定义表名 table_name,因子会自动计算好存入该表。建议使用 用户名作为前缀避免表名重复,例如 user1_factor_01。
3.全部运行。
程序会自动计算因子,存表,并进行因子分析以及单因子回测。建议前期研究阶段仅计算1年的因子,如因子效果好可考虑计算3-5年的因子再进行进一步的因子分析。该框架可将分钟级别因子投研单轮次压缩至10分钟以内,大大提高了高频因子投研效率。如因子好,可考虑将上半部分计算并存表的代码提交至每日运行,并定时更新因子。
\