量化百科

金融交易中的机器学习与统计

由polll创建,最终由polll 被浏览 19 用户

金融数据的特点是时间序列,这意味着传统预测模型(包括机器学习和统计,为避免不必要的学派之争,统一称为预测模型)使用的训练集、验证集、测试集的方法或许不大适用,特别是交叉验证,很难说用后面的数据验证前面的数据算不算样本外,毕竟现实中只能前面的数据先发生。但也有人说我近期观察到一个pattern,最近几天都出现,想看看在历史行情中表现如何......

另外还有人说我拿奇数年的数据做个模型,然后拿偶数年的数据验证一下,这样是否靠谱?比如十年数据,一般来说,1-5做训练,6-10做预测,效果会最差;1-5预测6,1-6预测7,这样滚动着来,效果可以好一些,这些都可以算作严格的样本外;如果是1、3、5、7、9做训练,2、4、6、8、10做预测,效果会最好,但现实中或许做不到。

金融数据有时出现的是欠拟合,就是说我怎么弄也弄不出一个好策略,样本内都不行,这时就需要更复杂一些的模型;有时候是样本内很好,一条直线往上冲,样本外很不好,一条直线往下冲,这时就是过拟合

金融数据复杂的地方在于数据的分布可能会发生改变,比如原本都是很低波动的市场突然变得剧烈波动,无论是传统交易者还是量化交易者都无所适从。比如原来大家习惯了小盘股跑赢大盘股,2014年11月突然大盘股发力,很多股票对冲因此受伤;又比如2016年上半年商品期货CTA一直很顺利的,但7月份突然行情爆发大行情,很多基金很快亏去半年的净值;很快10月、11月又稳定赚钱,然后11.11暴跌行情让不少私募损失惨重,直到2017年5月15日的今天,半年过去了,依然没有回到原来的高点,很多甚至还一直下探,毫无反弹的迹象。

笔者认为,金融界跟生物界一样,遵循“适者生存”的定律,但最大的错误在于很多人把适者生存误解为强者生存。过去获利巨大的因子不代表未来依然能获利,过去强大的物种不代表未来依旧强大。所以很多时候为了避免过度拟合来牺牲样本内的拟合精度换取样本外潜在的更优表现是必要的,在预测模型中,一般称为regularization或shrinkage,避免某些因子权重过大而过度拟合,同时给其他因子一些机会。其实社会也一样,追求diversity而采取的Affirmative Action是非常普遍的,有时是种族,有时是性别,甚至边远山区、父母职业等也会考虑在内。金融统计建模也一样,因子来源要多样化,避免某个因子过高权重,哪怕它在过去表现很牛逼。

所以说,社会、金融、理科、工科很多思想是相通的,可以互相借鉴,没必要割裂。很多大科学家如爱因斯坦也是小提琴高手,大数学家格老大也是左翼政治运动狂人。所以说啊,理工科没必要鄙视文科生,毕竟很多国家很多公司的领导人都是文科生,工科码农矿工都只有搬砖的命。。。

标签

金融交易机器学习训练集交叉验证