【其他】自动标注里分20个类的逻辑是什么?
由xsolo创建,最终由small_q 被浏览 76 用户
摘要
自动标注模块自带“将分数映射到20 个分类”离散化功能,我本来的理解是计算出 label之后,把所有样本的return从高到低排序,然后每5%的样本归到一类。如果是这样,那 14组里label的min 也会高于 13组里label的max。
但是我看了一下数据,实际情况不是这样的,相邻两个bin里的label有重叠的取值,就很疑惑了。 谁能解释一下 这里自动分类的逻辑?
正文
答:您这边能给出具体的重叠截图吗? 我这边抽样试过是没有重叠的。另外是对label进行分类不是return进行分类
问:我说的“重叠”的意思是:自动标注模块基于5日的收益分成了20个bin,所以label的取值是从0到19。理论上label为3的样本的5日收益都低于label为4的样本,但却不是这样,这个你可以简单验证一下。
答:我目前没发现这个情况, label是shift(close, -5) / shift(open, -1),不是五日收益
问:我重新跑了一下,确实没有重叠的情况。可能是之前哪里有个小错误。抱歉。 不过,看起来离散化这个动作并不是均匀分组,估计应该是所谓的等距分箱吧。
答:这种方法可以理解为:分桶、离散化,其实就是把连续变量离散为20个分类变量