基于天梯榜中策略得出的一些建议

策略分享
标签: #<Tag:0x00007ff1a72a7498>

(mi10) #1

这些建议主要是基于天梯榜中的策略分析后收集,其他潜水的别的路子策略不在其中
1,不要着眼于回测结果,要知道影响回测结果的因素多的上帝都看不懂,着眼于训练集上的拟合程度这样才能一点点的进步,天梯榜上的哪个不是训练集的拟合效果达到了一定水平才能在模拟交易中有好的成绩,甚至有的连真正的回测都没做,直接推出来交易效果就不错。
2,不要被例程遮蔽了双眼,大胆尝试,什么都可以改,这里的尝试其实就是逻辑思路的体现,比如用的短线因子,那么势必需要测试的是短线参数,比如20层的标注为什么不能更大一些呢,更细化一些呢,树为什么不更多一些呢等等。
3,数据量的问题,实际上数据量很大程度是由可以用的cpu内存数决定的,训练数据尽量保证不超出内存,但是又能越大越好。
4,试,不断的试,什么时候拟合程度提升了,那就深挖下去,提升拟合程度是个长期过程,但是深挖下去了,即使是新策略或者新思路,也会有很大帮助和节约很多时间。


(iQuant) #2

很赞,不错的心得,替其他用户谢谢你!


(cash01) #3

坦白讲,如何判断是否过拟合和跑出来的策略是否有可能是幸存者偏差的结果,总的来说,都是数据挖掘,一切都是巧合!


(mi10) #4

所谓的过拟合和幸存者偏差,都是训练数据过少的结果,越少的训练数据,拟合的解越多,但是越多的训练数据,拟合的解的方向越来越唯一,这种多数人都往一个方向上跑会不会被人为挖坑,但是这是目前该做的,至于后面的人为博弈,那是另一个层面


(cashx02) #5

数据量过大会带来过拟合,从机器学习的角度,拟合程度与模型复杂度以及数据量有关,如何在欠拟合和过拟合之间找到最优解,这才是要反复测试的,另外,天梯上的策略太多了,你看到的那些优秀策略本来就可能是幸存者偏差的结果,再多说一点,关于训练集到底取多久,一直是很多初级用户的疑惑,在整个过程中,我也接收到很多个不同的建议,1 2-3年,这是因为stockranker的参数本来就是bq经过大量测试后的最优解,2-3年这是经验值,20tree,30leaves,我曾经用100tree,60leaves,10年左右的数据,跑出的夏普值在5左右的比比皆是,但是后来的一年中才发现所有之前夏普高的其实都是过拟合,数据挖掘的结果。
2,数据集的范围,根据市场的风格决定,例如当前市场持续上升,那么可以挑选上升段市场的数据集,如果当前市场青睐小市值因子,那么可以引入历史上小市值因子生效的时间段的数据集。
总结下:个人觉得,一个策略的好坏,有太多偶然性,当年跑出的高收益的策略不能代表未来该策略能否继续生效,很多所谓alpha因子,其实都是数据挖掘的结果!大部分高频的策略中,真正起作用的还是动量因子,说白了就是量价上的各种组合。