比赛讨论

怎么做出高分因子

由yangduoduo05创建,最终由yangduoduo05 被浏览 1 用户

因子评价本质是t时刻因子对t+1时刻未来收益率的corr


大多数研究者其实在因子研究中很少用到未来数据作为信息

但实际中并非使用某一时刻的未来数据就是作弊


例如

day1的数据中涵盖分钟(t)的信息

day1 数据结构为 day1t1~day1t240(日内交易时间为240分钟)


理论上如果将因子降频为日频,只要day1的数据不涉及day2的使用,都不存在使用未来数据的问题

但是day1收盘会获得day1t1~day1t240的全部数据,在day1t1的时刻使用day1t2的信息并不存在未来信息的使用

所以sql中lead操作在分钟线(lead(xxx,n) over(partition by instrument,trading_day))是完全可行的。


使用类似的操作可以更好地捕捉当下时刻市场与未来(分钟级)信息的相关性,同时与评价指标IC的计算原理也更加贴进( day1.fac.corrr(day2.ret))

所以做出高分因子更好的思路可能是寻找当下分钟级别指标与未来分钟指标的关系,最终降频为日线因子








目前我拿到第一名的做法有4个因子,全部方案全部通过分钟级别lead函数的使用获得,同时也欢迎看到更好的方案在分钟级别使用lead函数



希望这一思路可以帮到大家。

标签

数据分析日内交易
{link}