量化百科

浅谈机器学习和交易

由polll创建,最终由polll 被浏览 11 用户

发表一下浅见,别人总讲的我就不讲了,所以难免不成体系且及其局限,见谅。我这里讲的是“机器学习”在“交易”中的应用和局限性,话题限定在交易上,不会涉及风险控制、金融监管等内容。

首先,在交易这一语境下,所谓的机器学习一般指的是,把输入数据映射到目标值上的模型。这里有三个关键词,输入数据、目标值、模型。

输入数据,可以包括公开的资产价格数据、成交量、财报数据、卫星数据、新闻数据、信用数据、分析师评级数据、机构基金持股变化等等,质量参差不齐。

目标值,一般是不同预测周期的资产回报率、目标价格(mid price)、目标现金流质量、风险模型中的残差(residual)、成交量、波动率等等,通常是与交易利润直接挂钩的一些指标,这些指标通常都会直接决定交易策略的订单和目标仓位,怎么从这些预测转化成利润,下回再说,不是本文重点。

模型,这是一般大众所指的“机器学习”,从简单的线性回归,到复杂的神经网络、概率图、决策树,都算模型,甚至广义上DCF和BS都算模型,只是这些一般机器学不出来。这些模型的共性,是在一定的假设下,建立起稳健的预测能力。

在上述定义下,我们来讨论一下机器学习模型在交易上的主要局限。


机器学习近些年的发展,主要是在图像分类、语音识别、消费预测等领域有很明显的效果。但其实,在交易这一领域,这些新的机器学习技术并没有带来显著受益,对金融系统的收益主要是监管和风控上效果比较好。原因主要来自于1、信噪比过低;2、金融市场可预测性的不可知。

信噪比低,是有效信息少,无效信息多两方面的结果。不像自动驾驶和语音识别,做金融交易,并不会得到“充分”的数据。什么叫做充分性?比如,一张苹果的图片,加上稳定的世界经验,理论上包含了“这是苹果”这一命题所需要的所有信息。比如,一句语音,加上静态客观的语义结构知识,理论上充分包含了将其映射成文字的所有数据。

而金融市场并不是如此,以股市为例,其价格受三方面决定:1、公司的财务信息,而这个信息是动态的,每时每刻都在变化,而财报是按照季度公布的,相当于在一个动态的过程上截四张图,这就丢失了绝大多数信息;加上财务信息本身是概括性数据,本身是公司商业活动的高度抽象浓缩,这过程本身包含误差和未知性,所以真正能用来交易的有效财务信息极少。2、每个交易者和做市场的短期看法,这里包含数千上市场参与者,每个人的风险偏好、观点、杠杆率、掌握的信息,这些都促成了资产的每笔订单的成交,而这一信息只能压缩成每个quote和trade,而且身份只有监管机构能看到,这一过程造成了本身海量数据最终只以交易所feed上的那些匿名message的形式呈现出来。3、市场的宏观情绪,所谓的大盘趋势,宏观经济指标政策,政治风险等等,这一信息在物理上具有不可计算性和不可知性,通常交易者能接触到的也只是短短几行的新闻文本,而这些事件背后巨大的信息都丢失了。

由于这些原因,在金融交易上,能拿来使用的“数据”,本身只是庞大、混沌、动态、复杂的金融市场的,时间上离散的、覆盖上片面的、误差上巨大的、自反馈的抽象采样。在这样的给定数据下,机器学习模型自然无法达到语音识别和自动驾驶那样的效果。机器学习的效果中,数据的质量是具有决定性的。在如此低的有效信息下,模型很容易预测噪音,而非真正的映射关系。而是否存在真正的映射关系,这点本身就是个问题,我们接下来谈谈。

金融市场可预测性未知,指得是说,理论上,并不知道机器学习能否对金融资产做出预测。在语音识别等领域,人类能看图识别苹果,听写语音,机器学习所需要解决的是一个可以被解决的问题,深度网络只需要复现这一解决过程。机器学习近些年来的突破,主要解决的都是这种,1、解已知存在,2、可以被证明解存在的命题(通常由于生物性局限无法实现解)。无人驾驶,解决的是驾驶,而如何驾驶是一个已知可解的命题,是1、这种。所谓的大数据识别洗钱,属于2、这种,尽管人肉并不能实现在海量数据里甄别异常,但是理论上和经验上,我们知道,只要输入所有的跨境成交数据,我们就可能检测到资金流的异常。

而资产价格和回报,既不是一个1、“人类已经解决,让机器学习去复现”的问题,也不是一个2、“人类解决不了,但这是生物学上的局限,计算力足够大的机器理论上可以”的问题。

除了极少数衍生品,多数的金融资产是无法被定价的。哪怕研究一个行业数十年的专业研究人员,也无法统计学上显著正确地预测一只股票的表现;因此这不是一个1、复现人类决策的问题。这一“无法被定价”的性质是否是理论上的不可定价,还是由于“人类的智力、体力局限性无法定价”,这一点是未知的,因此这也不是个2、突破生物学局限的问题。


然而,在这样的局限性下,依然有很多数据集,在特定的模型下,可以实现准确率显著超过50%的分类,或R2显著超过1%的预测。那么我们就要思考,这些利润的来源究竟是什么?

业内共识有两点,市场的无效,和风险的异质。市场的无效是说,在微观结构上存在信息和执行能力不对称,在数据的有效性上存在资本和技术门槛,参与者法律税务结构不公平,等等。风险的异质,指得是,很多时候,这些利润的来源,在于这个利润对别人不是利润而是风险或成本。比如你的资金成本低、风险承受能力高,等等。那么,这些表现好的机器学习模型,利用的就是包含了这些信息的数据集,在市场的某一个维度上,统计学上实现了略微显著的预测表现。

也就是说,机器学习虽然局限很大,但是还是展现了有限的效果。目前业内的现状是,除了极少数高频策略,多数的交易策略面临的都是信噪比低的数据和效果有限的模型。在这样的背景下,通常获得更好的数据,比使用更复杂的模型,边际收益更大。这也是近年来,quandl这样的公司会爆发式增长,以及千禧、point72、two sigma等公司花费巨额资金购买各种alternative 数据集的原因。获得更好的数据、更快地获得数据、垄断独家数据,都会在短期内带来显著的收益。

最终,或许大家都会有详细的数据,相似的技术能力,而可供的数据在监管限制下终有极限,机器学习模型的研究进展也十分缓慢。到那时,恐怕这些目前尚有效果的机器学习模型,会渐渐失效吧。


题图idea来自波士顿一家hft startup Domeyard的T恤,极其喜欢。

标签

机器学习交易