研报&论文

使用机器学习法推理基金配置

由crisvalentine创建,最终由crisvalentine 被浏览 43 用户

摘要

文献来源:Byrd, David, Sourabh Bajaj, and Tucker Hybinette Balch. "Fund Asset Inference Using Machine Learning Methods: What’s in That Portfolio?." The Journal of Financial Data Science 1.3 (2019): 98-107.

推荐原因:

{w:100}{w:100} {w:100}{w:100}

介绍

本文将使用延伸线性克隆法(ELC)和顺序震荡选择法(SOS),在给定投资组合总价值的时间序列时,推理一个投资组合的未知成分和权重分配。

\

引入符号、目标及方法

{w:100}{w:100}

延伸线性克隆法(ELC)

以线性克隆法作为起点,线性克隆法假设投资组合的成分是已知的,但我们并不会提前知道组合的成分,因此需要修改方法。执行相同的线性回归进行拟合,但本文允许因子项的数量为可变的,每只股票的权重都是未知的,且不限制权重和为1.0,因为在分析时可对系数之和进行评估,以检验我们对系数解释的合理性,期望它是自然地趋向于1,而不是将其归一化。ELC步骤具体如下图。

{w:100}{w:100}在ELC方法中,投资组合的线性回归系数被隐式地用做一个衡量各资产对投资组合重要性的指标。系数本质上是一个得分(权重=得分),并且只保留了得分最高的N个股票。

顺序震荡选择法(SOS)

SOS算法通过保留基本的时间独立的线性方法,并允许对潜在的候选组合进行更多的探索。SOS算法来自机器学习领域,被用于解决特征选择问题,也就是说,给定一组可能可以预测未来结果的特征,那么这些特征中的哪些子集在什么时候最具预测价值呢?

SOS的工作方式是,尝试每一个特征,去发现最具有预测性的特征,将其添加到一个特征集中使用,然后尝试在组合中将其与每一个特征结合,找出能够增加预测能力的特征集合。SOS算法步骤具体如下图。

{w:100}{w:100}

实验的基本信息和结果

实验使用的候选股票池U为标普500,P为行业ETF(共9只,如下图),数据采用的是股票的历史价格(考虑股息率),周期为12个月(起始日期:2013年10月),准确性的评估指标为布尔分类算法和MCC。下文中将展示根据布尔分类算法和MCC分别得出的ELC法和SOS法的准确性。

实验在BSD-based UNIX系统中执行,该系统采用2.6GHz的英特尔i7处理器和1600MHz DDR的16GB内存。ELC的运行时间在3.24到3.61秒,平均运行时间为3.38秒。SOS的运行时间在8.82到15.41秒之间,平均运行时间为11.48秒。

布尔分类算法

预测准确性最简单的方法是布尔分类算法。虽然它有局限性,但分类的准确性是很容易计算的,并且有直接的解释,使得它在金融文献中很受欢迎,在失败的例子中表示分类错误,在成功的例子中表示预测精准度或者预测成功的概率。在统计领域张,也被称为兰德指数。抛开术语不谈,在一般情况下,分析一个集合S中X和Y这两个部分的相似性。在一系列的预测中,X,Y分别表示被预测部分,实际公式为:

{w:100}{w:100}使用标普500作为候选池,ELC法的预测准确性在0.068到0.725,均值为0.357;SOS法的预测精确性为0.882到0.986,均值为0.933,结果展示如下图。平均而言, SOS对股票的错误分类比ELC少90%。

对于真实数据来说,简单的使用预测准确性对于不等分类是很敏感的,会产生分类不平衡的问题。面对不平衡的分类(例如,对于元素池,正确的远多于错误的),简单的准确度计算可能会产生较高的相似值,不能很好地解释每个类别发生的频率。在本文的案例中,目标组合的大部分股票来自候选池。适当的分类不能将正确和错误的标签分为50对50的比例,所以算法可能预测错误的多于正确的。

{w:100}{w:100}

马修斯相关系数(MCC)

MCC是一种计算皮尔森积矩相关系数的权变法,并且因此具有了相同的解释能力。本文遵循abs(r)的惯用解释,当abs(r)大于0.1,表示精度较差;abs(r)大于0.3,表示精度处于中间水平;abs(r)大于0.5,表示精度强;abs(r)大于0.7,表示精度非常强。负数表示相似的反相关性。

ELC法获得的MCC值为0.000至0.365,平均值为0.170,表明相关性较弱。SOS法获得的MCC值为0.561至0.891,平均值为0.664(强至非常强)。具体结果展示如下图。

{w:100}{w:100}

讨论

本文引入了对投资组合的推理问题,该解决方案在金融中有许多潜在的应用。每个投资组合的目标都是不同的,在指数跟踪的情况下,目标是使跟踪误差最小,而对于投资组合的推理,目标是准确的推理组合成分。

本文提出两种潜在的解决方案,ELC和SOS,ELC在推理组合成分方面的表现差于SOS。ELC方法会大大高估大多数投资组合的实际容量,导致准确性降低。在为ELC流程添加了最小阈值后,ELC的准确性确实有所提高,但仍比SOS差很多。在本文的案例中,虽然SOS的结果好于ELC,但仍有改进空间。在重复实验中,当设置投资组合的最大容量为100只股票并且成分股的最小权重不得小于1%时,两种方法的效果都有明显的提升。这表明,如果权重受到动态的最小阈值限制,或者是对组合规模有一个合理设定,则可以更好的实现业绩。利用基金之前的资金披露或许是一种获得提示的方法,例如,假定基金的容量相似,或者将之前所披露的持仓用作算法的初始化状态。另一个限制是由于本文设置的数据周期,所以基金必须具有高流动性和每日价格。该限制可以使用基金的交易日价格(可用)信息来放宽。

标签

机器学习投资组合金融市场算法交易数据驱动
{link}