拉普雷斯妖,大数据与高频交易


(humidity) #1

**本文或引起争议,其观点为个人观点,不代表我所任职机构的任何意见。

起 - 拉普雷斯妖

![](data:image/svg+xml;utf8,)

1814年的一天,Laplace在其著作《概率论》(_A Philosophical Essay on Probabilities)_中提出一个观点:

我们可以把宇宙现在的状态视为其过去的果以及未来的因。如果一个智能知道某一刻所有自然运动的力和所有自然构成的物件的位置,假如他也能够对这些数据进行分析,那宇宙里最大的物体到最小的粒子的运动都会包含在一条简单公式中。对于这智者来说没有事物会是含糊的,而未来只会像过去般出现在他面前。

简单而言,就是如果在某一瞬间,一个能够高速计算的个体能够知道万物的位置与运动方向,那么就可以准确判断下一个时刻的情况——预测未来。

举个简单的例子,想想你过马路时候的情况,你——一个能够判断车辆位置与运动方向的个体,看着两边的车流——知道这个环境下“万物”的情况,可以判断下一时刻的情况——因此顺利的过马路。

Laplace描述的这个智能(Intelligence)个体远比能过马路的我们强大,它知道这个宇宙间的万物运动情况并加以判断,因此预测这个宇宙的未来,后人称这个智能为“拉普雷斯妖”。如果在X-men里面,这估计就是个Omega级别的变种人了。

这是决定论(Determinism)也许不是第一次,但可能是最有名的一次科学论证——Laplace证明了在经典力学下这个观点的正确。决定论有着很多其它的名字,它是佛教中的因果轮回,善恶报应,是印度教中的Karma(业报)。

拉普雷斯妖是个完美的神,它符合人类对于不断战胜自然、控制命运这一愿望的憧憬,也符合人类道德上的需要——恶因恶果,善因善果。虽然那个时代——19世纪,没有人知道这个智能是否真的存在,也不知道这个智能是否能存在,但一切看起来很美。你知道一件事情因为这样,所以那样,你会自然的有种内心的平静——人的恐惧和焦灼大多来自于对于环境的未知和未来的恐惧。

不过这种inner peace没有持续太久,纳粹科学家Heisenberg在1927年提出了测不准原理——更加通俗的例子就是“薛定谔的猫”——你没有办法避免在观测一个物体的时候改变物体的本态。比如公司要裁员了,老板们在一个密室开会,你很想知道里面在发生什么,但是你一进去,老板们看到你想法可能就改变了,你也无法知道本身他们的想法是什么了;而在原本Heisenberg的实验中,他需要观测到一个粒子的性质,就需要一定的光,而这些用来观测的光带来的能量,就足以影响粒子本身的运动了——因此无法测准——准确的说无法同时测准速度与位置。

如果这是真的,那么说明人类是难以达到那种智者的形态了,因为我们的观测需要光——而光会干扰被观测物——所以我们无法观测所有粒子的位置与速度了。

爱上这个观点就像爱上一匹野马,这令我们感到绝望,连爱因斯坦也拒绝接受这一切,他说了,God Doesn’t Play Dice。他的观点展开来看有股淡淡的忧伤——虽然我们无法观测事实,但事实是存在于观测之外的,那个非人的拉普雷斯妖在主宰我们的命运——虽然我们看不到,但是我们知道它在那里,不偏不倚。

推翻决定论和消灭拉普雷斯妖是20世纪量子力学的主旋律,主流的物理学家不断尝试证明世界从粒子层面来看是完全随机的。霍金提出的观点最邪乎,他觉得这个宇宙内部存在无处不在的黑洞——是的,这些黑洞就在你我之间,它存在于我们的身边,它们无法把我们吸引进去只因为这都是超小型黑洞——这些黑洞“刺穿”万物本身的因果联系,造成了随机性的存在。当然还有很多流派的解说,但结论都是倾向于——“真随机性“的存在——我们既无法观测事实,而存乎于我们观测之外的事实也没有因果关系。

承 - 大数据

![](data:image/svg+xml;utf8,)

1988年冬天的一个早晨,纽约华尔街依然阴冷,一位来自加拿大的计算机专家Arthur Whitney边走出地铁站边思考着自己公司Morgan Stanley面对的一个相当棘手的技术问题——固定收益部,受益于美联储80年代持续的降息政策,是最红火的部分,但是每天交易员和销售们无法很快的去报价和计算债券的各种数据——比如久期(duration)等等。那个年代的债券交易员的基本功是心算回报率(Yield rate)和在草稿纸画利率结构图(term structure),但是管理层很希望能够通过计算机来解决这一切,Arthur正是他们安排来处理难题的人员。

Arthur毕竟不是普通的码农,他的思考方式富有那个年代顶级黑客的特点——要制造一个软件——那么我自己制作这个软件需要的所有工具。这好比贝尔实验室要编写Unix因此发明了C语言,Donald Knuth要排版因此发明了Tex一样。Arthur借鉴了Lisp和APL(A Programming Language)这些函数类语言的很多特点,先发明了一种全新的语言——A,然后在1992年最后完善了A的开发包——提供了全套GUI设计支持,最终命名为A+,并开发出了一套及其完整的债券交易系统,名为——STS(Swap Trading System)。这套系统至今任然被Morgan Stanley使用——即使在20年后其依然能胜任其工作,而且有着在那个Windows 3.0时代令人惊艳的界面。

后来1993年,由于这套系统是在太过先进,Arthur离开了Morgan Stanley,成立了Kx System公司,开始作为创业企业给华尔街的其它银行提供技术咨询服务——这个过程,回想起来还跟Bloomberg离开了所罗门自己做系统给其它银行提供行情有些类似。Kx System虽然于公众没有Bloomberg有名,但是由于其业务模式造成的——其主要专注于一种极其先进的数据库/语言生态系统——Q/KDB。这种Geek层面的工具自然在影响力不能和交易员天天看的Bloomberg系统比,但是在美国你要问起所有的高频交易公司,Q/KDB可以说无人不知,无人不晓,因为其采用一套非常特殊的结构——In-the-memory and Column Oriented。

传统的关系型和非关系型数据库大部分都用硬盘做Persistence(当然新生代数据库Redis是纯内存的),这样数据的安全性有保障,但是延迟的问题无法避免——除非采用固态硬盘。而另一个方面——Column Oriented一反我们传统的SQL类数据库行为先的方式,使得处理金融时间序列数据极其的自然。在计算机科学里面,想要在速度上取得极致,最好的办法就是去发现硬件、问题、数据本身的规律,再去适应之。当你的算法与你要处理的问题达到和谐一致,你基本也就达到了速度的峰值。

随着机器物理内存的逐渐增大,采用KDB来缓存所有的高频数据成为了可能。同时KDB的高速设计保证了能满足快速分析金融数据和输出信号的需求。这一切致使金融迎来了大数据时代。

大数据是这个时代最常被引用的概念,可是其对于每个人的意义很不一样。对于一个统计学家而言,这是颠覆性的。因为本科统计学的第一课就是教你全体(Population)和样本(Sample)的区别。大数据意味着什么?其宣誓着由于储存成本和处理技术的突破,统计学家可以基于全体来分析而不要在手拿可怜兮兮的样本去一点点抠样本统计量对于全体统计量的昭示关系了。

当KDB能储存下一个月一个交易所所有的每笔级别的数据并且能在几秒钟内用Q语言完成分析,各种新奇的研究开始出现。比如近两年的研究趋势就是很多教授拿到了交易所提供的账号级别分笔交易,并且可以利用来探测内幕交易等非法行为。另外就是市场微结构(Market Micro Structure)的研究取得了巨大的突破。学者和高频交易公司开始发现,拿着全体(Population)和每日抽样——日交易数据来看这个世界原来是这么的不一样。

转 - 高频交易

![](data:image/svg+xml;utf8,)

如果说1962年在芝加哥大学Eugene Fama拿着Harry Ernst给的当时的大数据——30只Dow Jones股票10年的日行情数据——发现的是市场有效性(Market Efficiency),那么在1996年的冬天,MIT的新锐金融教授Andrew Lo拿着Nasdaq交易所全部股票的高频Tick级数据所发现的确是微观市场的无效性了——个股价格不总是那么随机的。

这篇论文叫《Econometric Models Of Limit-Order Executions》(Lo, MacKinlay and Zhang 2002),通篇讨论一个问题——一个限价单(Limit-Order)在这个市场中要被执行掉需要多久。

这篇论文的核心是一个回归,然后用了大量的因子。其中最统计显著的两个,一个很符合预期,那就是这个限价单的价格到Mid Price(Bid + Ask / 2 )的距离——不难理解,你卖得越便宜或者买得越贵,那么越容易成交。另外一个因子,就是所谓的Order Book Inbalance——用A股大仙的说法就是买卖盘压力差。

原论文中Andrew Lo将Bid(买盘)的合约数量和Ask(卖盘)的合约数量做了分离,成为了两个因子。但是一般实际操作中,人们常用价格加权压力数:

\frac{BidSize\times BidPrice - AskSize\times AskPrice}{BidSize\times BidPrice + AskSize\times AskPrice}

这个指数越大,代表上升的概率更大,反之越小。

这个指数不知道是什么时候开始在高频交易中流行起来,现在却成为美国市场最重要的Tick Level方向判定因子。具体有多准,在股票市场,用第一档盘口的数据算出来的这个指数判定能力有70%-80%;而在新型的债券电子市场,这个信息也可以准确预测85%左右的下一Tick的走向。这个指标是几乎所有美国自动化做市商的基础——从股票、股票期权到期货,商品及债券。

这个指标有三个关键的前提——第一,你采用的是严格的Tick数据,就是一旦有一单交易或者盘口有任何变化(价格、数量),你都有最新的盘口快照——你拥有全体(Population)数据;第二,你要用盘口第一档的数据;第三,你只用来判断涨或者跌的方向,而不是具体涨跌多少点。

第一点决定了在中国期货市场这种500ms一次的快照,数据无法做此类研究——因为这500ms里面盘口变化很多次,你拿到的不是全体数据;第二点是因为在盘口第一档的量是最真实的量——任何一个市场都有尝试放假的量在盘口实现某种目的的交易方法——但是一般情况下如果不是真心想成交,放盘口的人是少的——因为太容易成交了。但是必须要说明的是,我在国内市场看到过其有着反向的指示效果,卖盘越大,反而步步上扬——也许中国真的是一个有太多反身性定律的市场;第三点是判断涨跌要比点位容易太多,相信有着简单统计知识就可以理解。

但是一个坏消息是,尽管有着如此高达80%的判断能力,你也无法从这个信号中直接获利,需要做一些进一步的研究,原因此处不多述了。

我不知道Andrew Lo在实证研究这个因子得到那个回归后内心是什么感受,当我第一次用Tick数据测试过Order Inbalance这个因子后,第一个想到的就是拉普雷斯妖——那个在经典力学体系下可以预测未来的灵。有趣的是,我当时并不知道拉普雷斯妖这个概念——直到有一天我去找Peter Carr聊这个现象,在大量词不达意的描述这个感受后,他告诉我他高中哲学史上学过一个东西,叫做拉普雷斯妖,就是我想表达的那个智能的名字——请原谅我的无知。

有些书里面会把盘口的变化用一种很物理的方式来阐述——叫做”价格动力学“(Price Dynamics)——你下市场价的买单,卖盘被击穿,推动价格上扬,就好像你对一个纸板做功一样。我很喜欢这个名字,让两者的联系更加接近一点。

高频交易的盘口这个东西,很符合经典力学的各种假设,甚至你可以将手续费看作是摩擦力,而且基于计算机的鲁棒性的假设下,迷你黑洞——这种霍金认为的绝对随机性的制造机器——似乎也无法给的一个个单的成交带来随机性。

而大数据,是使得这个拉普雷斯妖浮出水面的关键工具——就像前面说的,只有Tick级别的数据才能验证这个效果。就好比在20世纪前由于科技的限制我们无法做到“测不准”一样,在Tick数据成为可用前,Eugene Fama也很难做这种频率的研究来探究市场微结构下的很多问题(注:我个人是市场有效性理论的信徒,但是我认为有效性理论从指数整体级别来看是存在,但是从局部个股级别来看,是可以被挑战的。正如前面提及,你能准确判断下一个Tick但是你很能基于此信号获利,讨论这个信号不代表其能带来超额收益)。

那剩下的20%的不确定性是什么——虽然我们有着Tick的盘口全体数据,但是我们不知道其它人此刻的想法和行为——异于拉普雷斯妖,我们并没有真正的全部信息——因此这是这部分随机性的来源。要获得所有市场参与者的想法在目前看来很难了,毕竟我们没有人是X教授。

以上,愚钝小生农耕之余随感一篇,余不一一。

夏至夜于纽约


【整理分享】知乎量化交易及其子话题高赞精华帖整理