华泰人工智能系列之二十八：基于量价的人工智能选股体系概览-华泰证券-20200218 (副本)

由sztuwhr创建，最终由sztuwhr更新于2022-09-21 07:44 被浏览 64 用户

摘要

本文构建了基于量价的人工智能选股体系并测试其有效性

经过华泰金工前期报告的探索，我们认为人工智能模型已经可以很好融入多因子选股模型的因子生成和多因子合成步骤。在多因子模型的信息来源中，量价信息能提供海量的数据，是最适合AI技术运用的领域。本文构建了基于量价信息的全流程人工智能选股体系，主要包含三个步骤：(1)遗传规划自动挖掘因子；(2)机器学习模型进行多因子合成；(3)机器学习模型的可解释性分析。在测试中，该体系能提供独立于传统多因子模型的增量超额收益。

步骤1：遗传规划自动挖掘因子——因子的适应度、增量信息和挖掘效率

因子是超额收益的来源。遗传规划通过暴力生成+进化的方式，从原始量价数据中挖掘选股因子。该步骤中有三个关键环节：(1)因子适应度的定义，如果以因子的RankIC作为适应度，则可以挖掘线性因子；如果以因子的互信息为适应度，则可以挖掘非线性因子。非线性因子可能描述了市场中更高维度的规律，如果能利用这种规律，则可能为现有体系提供增量的alpha信息。(2)挖掘增量信息需要引入因子正交化机制，为了避免频繁正交化带来的时间开销，我们提出以残差收益率为预测目标的增量信息挖掘方法。(3)提升因子挖掘的效率需要借助高性能计算的技术。

步骤2：机器学习模型进行多因子合成——强拟合能力和过拟合的权衡

相比线性模型，机器学习模型有更强的拟合能力，能够拟合非线性关系。实际应用中，需要在机器学习的强拟合能力和过拟合现象间寻找平衡点。针对机器学习模型易过拟合的缺点，我们引入特征选择和时序交叉验证调参。本文选择嵌入式特征选择方法——随机森林模型，在模型训练时自动进行特征选择，并使用时序交叉验证对模型的三个关键参数寻优。

步骤3：机器学习模型的可解释性分析——从“黑箱”到“白箱”

模型的可解释性是指人类能够理解其决策原因的程度。优秀的可解释性有助于打开机器学习模型的“黑箱”，提升人类对模型的信任，其重要性体现在：建模阶段，辅助研究人员理解模型，进行模型的对比选择，必要时优化调整模型；在投入运行阶段，向他人解释模型的内部机制和结果，并通过可解读的反馈结果不断优化模型。本文主要使用基于SHAP值的方法进行模型可解释性分析。

基于量价的人工智能选股能提供独立于传统多因子模型的增量超额收益

本文从日频量价信息出发，通过遗传规划滚动挖掘调仓周期为20个交易日的因子，并使用随机森林模型拟合得到合成因子。合成因子进行行业、市值、20日收益率、20日波动率、20日换手率五因子中性化后，RankIC均值为8.87%，IC_IR为1.16，分五层测试中TOP组合年化超额收益率为9.65%，信息比率为3.08。将合成因子叠加到使用传统因子的模型上后构建中证500增强选股组合，可使得组合的年化超额收益率平均提升1.38%，信息比率平均提升0.14。SHAP值可解释性分析显示，随机森林模型有效利用了遗传规划挖掘出的线性因子和非线性因子。

正文

/wiki/static/upload/a8/a8146abf-4fb7-444d-95dd-11abaa842b22.pdf