人工智能51：文本PEAD选股策略 20220107-华泰证券

由small_q创建，最终由small_q更新于2022-07-25 08:01 被浏览 36 用户

摘要

基于业绩公告相关文本的SUE.txt因子可以刻画PEAD效应

盈余后价格漂移效应（PEAD）是指股价在盈余公告发布后有较大概率向业绩高于或低于预期的方向漂移。传统SUE因子基于公告财务数据来衡量效应并预测股票的异常收益，而本文尝试从纯文本的角度出发构建文本SUE.txt因子，对文本进行解构从而挖掘alpha信息。基于业绩预告与相关研报文本的数据实证表明，SUE.txt因子具有较强的选股能力，机器学习模型对文本的拆分和解构与直观逻辑相符，模型可信度较高。最后使用华泰金工因子库对SUE.txt基础池进行增强，20130104-20211231回测期年化收益43.47%，相对中证500超额年化收益29.98%；2021年收益52.79%。 滚动训练构建SUE.txt因子，特征为词频矩阵，标签为公告前后2日AR

本文使用的公告为业绩预告，相关文本为分析师点评业绩预告研报文本标题和摘要。在对上述文本进行分词后，保留给定词性并选择样本内标题出现次数最多的100词和摘要出现次数最多的500词构建词频矩阵，作为模型的训练特征。同时计算业绩预告发布前后2个交易日相对中证500的超额收益，将其分为“上涨”、“震荡”、“下跌”三类，作为训练标签。最后，本文分别测试了Logistic模型和XGBoost模型，将模型预测的上涨和下跌类别的log-odds值之差，在进行指数衰减后，作为最终的SUE.txt因子。

SUE.txt因子分层选股效果优秀，XGBoost模型优于Logistic模型

每月末追溯过去一季度业绩预告并计算相应的SUE.txt因子进行分5层回测。从结果来看，基于XGBoost模型和Logistic模型分别构建的因子分层表现均较为优秀，其中XGBoost模型的多头端收益与分层效果均优于Logistic模型，两者在第一层股票池的年化收益分别为27.62%与24.68%，回测期为20130104-20211231。此外，本文使用构建训练标签的2日AR特征，在进行同样的指数衰减处理后直接作为因子进行回测，发现因子在盈利能力和分层能力上均显著强于2日AR因子，说明因子对2日AR因子具有明显的增益效果。 模型可解释性探索：词重要性分析结果与直观逻辑相符合

本文参考Yano等（2012）提出的词重要性和Meursault等（2021）采用的段落重要性概念，对模型的可解释性进行了探索。对词重要性分析的结果表明，“上调”、“预增”、“景气”等词对SUE.txt有较大的正面影响，而“下调”、“下滑”、“亏损”等词则有较大的负面影响，与直观逻辑相符。进一步本文构建了包含财报、运营、宏观环境和战略四大类的分类词典，将文本段落按其所包含的关键词进行分类。分析发现，描述宏观环境的段落占比最低，对SUE.txt有较大的正面影响；描述运营的段落占比最高，对SUE.txt有较大的负面影响；此外，描述财报的段落则包含较多好坏参杂的重要信息。 利用华泰金工因子库对SUE.txt股票池进行增强

本文选取SUE.txt因子的第一层股票分层作为基础池，选择华泰金工因子中分层效果较好且多头收益明显的因子对股池内的股票进行等权合成打分，并选择得分最高的30只股票作为增强池。在回测期20130104-20211231内，增强池年化收益43.47%，夏普比率1.57；相对中证500年化超额收益，2021年绝对收益52.79%，超额收益36.19%。对成分股分析表明，SUE.txt基础池与增强池在各板块的股票数量分布较为均衡，未出现板块明显超配的情况。

正文

/wiki/static/upload/45/4581b368-5abf-47a6-bd34-83f2e2e7b556.pdf

风险提示：通过机器学习模型构建选股策略是历史经验的总结，存在失效的可能。人工智能模型可解释程度较低，使用须谨慎。