对标注与StockRanker的疑问

新手专区
标签: #<Tag:0x00007fc06f8e4bd0>

(wfzcy1) #1

使用StockRanker算法时,因为标注是分类标注,标注后的训练数据是否跟时序没有关系? 也就是说训练数据打乱时序时训练出的模型应该是一样的吧?


(达达) #2

虽然是分类标注,但是比如收益率还有大部分的因子特征都具有时序性属性,打乱训练结果会有影响,平台的模板参数是经过很多寻优尝试之后的结果,建议您使用平台的默认配置。


(wfzcy1) #3

一般操作都是标注、提取因子,然后整合,再后训练,如果在整合后进行筛选或打乱数据集,是否就没有什么影响? 平台的默认配置是指:新建->可视化策略-AI选股策略所生成的吗?
这个问题主要是由于在策略中加入几个因子,其回测表现与想象加入的因子表现不一致,我想找出其中的原因,但因为有机器学习的算法的因素,如何找出因子与回测的真实联系,如何加强某一因子的权重表现,我就很迷茫,请指教。


(达达) #4
 相关性这个问题,从模型训练的角度是可以评估因子对你定义标注的贡献率,比如Stockranker算法您可以通过参考下文中关于feature_gains来判断因子对模型的贡献度

StockRanker结果解读

 此外,相关性还可以通过你的策略收益的分解来分析(收益归因分析),使用factor_profit_analyze()分析你的收益在各维度的分布,或者通过risk_analyze()来分析因子在各维度的风险暴露,详细请参考宽客学院版面中的相关内容。收益与风险是同源的,您放大了一个因子的权重必然也要承担市场与因子不匹配时的大亏损,实际上对任何因子的暴露,即放大了盈利能力也增大了亏损能力,看您的思路是匹配特定行情(资金曲线大涨大跌)还是力争资金曲线平稳