AlphaGo与量化投资

由polll创建，最终由polll更新于2023-06-14 03:02 被浏览 79 用户

围棋人类第一高手柯洁在与AlphaGo的第二局对阵中再次惜败。有报道称此次的AlphaGo已经比当初跟李世石下的版本进化了几代，想当于给上一版本”让3子“的水平，鉴于柯洁第一局仅输1/4子，可见柯洁的水平应该能完胜上一代的AlphaGo。

AlphaGo主要采取了两种模型——深度学习和增强学习。深度学习（Deep Learning）本质上是一种监督学习（Supervised Learning），或回归分析（Regression Analysis）。它从传统的神经网络发展而来，但最近几年在计算方法上有了突破，加上硬件上的发展，使得它可以拟合更复杂的数据，因此在计算机视觉、图像识别上发展迅速。这适合低噪音、高信号、数据量大的研究问题。

增强学习（Reinforcement Learning）又称为Approximate Dynamic Programming，是另外一个类型的机器学习方法。比如俄罗斯方块，一共4种图形，每种概率都是25%，每次消一行就能获得分数，累积到顶层就会输，如果用贪心算法估计很快会输。由于游戏是不断进行的，这类似于无限步数的规划问题，未来的情况只跟当前的情况和未来到达到方块有关，跟过去的路径无关，因此是动态规划问题，由于未来是未知的，不像传统信息学竞赛的确定性动态规划，因此是随机规划（Stochastic Programming）问题。每次有4种可能，还要结合当前的状态，比如是20×20的情况，每格有”空格“和”占有“两种情况，即2^400次方种可能，因此总数太多，这就是维数灾难。这种情况下只能近似求解，比如马尔科夫蒙特卡罗（MCMC)模拟一下，这就是近似动态规划。机器学习为了名在好听，起名叫增强学习。这适合玩游戏下棋这类概率分布比较明确、规则也确定的问题。

那么把它们用在金融上如何呢？过去很多人也用过神经网络，但问题是过度拟合严重，样本内漂亮，样本外亏钱，而不是图像处理那种模型不够复杂欠拟合的问题。因此，它不是深度不够，而是神经网络都太深了，要更浅的模型才行。至于增强学习，很多人之前也想过用在投资组合上，每个投资周期是重新调整各个策略（或各个股票）的权重，但事实上股票未来收益的概率分布是不大好掌握的，远远不是俄罗斯方块每个方块1/4这么简单。过去赚钱的股票未来可能亏钱，过去亏钱的未来可能赚钱，很难估计，而未来收益分布这方面估计错了，无论模型其他部分再漂亮，也是典型的垃圾进垃圾出。

基于上面这些，本人对AlphaGo模型应用在金融交易领域并不乐观。

AlphaGo与量化投资

标签