华泰人工智能系列之十二：人工智能选股之特征选择-华泰证券-20180725 (副本)

由sztuwhr创建，最终由sztuwhr更新于2022-09-21 07:39 被浏览 51 用户

摘要

特征选择是人工智能选股策略的重要步骤，能够提升基学习器的预测效果

特征选择是机器学习数据预处理环节的重要步骤，核心思想是从全体特征中选择一组优质的子集作为输入训练集，从而提升模型的学习和预测效果。我们将特征选择方法应用于多因子选股，发现特征选择对逻辑回归_6m、XGBoost_6m基学习器的预测效果有一定提升。我们以全A股为股票池，以沪深300和中证500为基准，构建行业中性和市值中性的选股策略。基于F值和互信息的方法对于逻辑回归_6m、XGBoost_6m、XGBoost_72m基学习器的回测表现具有明显的提升效果。

随着入选特征数的增加，模型预测效果先上升后下降

特征个数并非越多越好。以逻辑回归_6m和XGBoost_6m为基学习器时，随着入选特征数的增加，模型的AUC先上升后下降；对于我们的70个特征而言，入选特征数在50左右效果最好。以XGBoost_72m为基学习器时，随着入选特征数的增加，模型的AUC先上升后持平。以基于F值+FPR方法对逻辑回归_6m进行特征选择为例，统计入选特征的频次，发现入选频次高的特征以价量类因子为主。

特征选择是预处理的重要步骤，意义在于减少时间开销，并避免过拟合

特征选择是特征预处理的重要环节之一，其意义在于：1）减少时间开销；2）避免过拟合；3）使模型容易被解释。特征选择方法主要包括过滤式、包裹式、嵌入式三类，最常用的方法为过滤式。“过滤”的标准可以来自于无监督学习，如特征本身的方差、熵等；可以是围绕特征和标签构建的统计指标，如F值、互信息、卡方等；也可以由其它模型提供，如L1正则化线性模型的回归系数、树模型的特征重要性等。

面对海量因子时特征选择方法能够大幅提升模型的开发效率

特征选择本质上是一种降维手段，没有引入新的信息，因此难以给基学习器的效果带来质的改变。特征选择的优势在于，当我们面对海量的原始特征，仅靠人力无法逐一筛选时，该方法将大幅提升机器学习模型的开发效率。实际上，由于本文使用的70个原始特征均为经单因子测试确证有效的因子，所以特征选择方法更多地是起到锦上添花的作用，如果原始特征包含部分无效的因子，那么特征选择方法可能会对选股策略效果带来更明显的改善。

正文

/wiki/static/upload/e5/e55128a7-381f-4446-9221-cb921279fb25.pdf