问答交流

【其他】自动标注里分20个类的逻辑是什么?

由xsolo创建,最终由small_q 被浏览 76 用户

摘要

自动标注模块自带“将分数映射到20 个分类”离散化功能,我本来的理解是计算出 label之后,把所有样本的return从高到低排序,然后每5%的样本归到一类。如果是这样,那 14组里label的min 也会高于 13组里label的max。


但是我看了一下数据,实际情况不是这样的,相邻两个bin里的label有重叠的取值,就很疑惑了。 谁能解释一下 这里自动分类的逻辑?

{w:100}

正文

答:您这边能给出具体的重叠截图吗? 我这边抽样试过是没有重叠的。另外是对label进行分类不是return进行分类

问:我说的“重叠”的意思是:自动标注模块基于5日的收益分成了20个bin,所以label的取值是从0到19。理论上label为3的样本的5日收益都低于label为4的样本,但却不是这样,这个你可以简单验证一下。

答:我目前没发现这个情况, label是shift(close, -5) / shift(open, -1),不是五日收益



{w:100}


问:我重新跑了一下,确实没有重叠的情况。可能是之前哪里有个小错误。抱歉。 不过,看起来离散化这个动作并不是均匀分组,估计应该是所谓的等距分箱吧。


{w:100}


答:这种方法可以理解为:分桶、离散化,其实就是把连续变量离散为20个分类变量

评论
  • 您这边能给出具体的重叠截图吗? 我这边抽样试过是没有重叠的。另外是对label进行分类不是return进行分类
  • 我说的“重叠”的意思是:自动标注模块基于5日的收益分成了20个bin,所以label的取值是从0到19。理论上label为3的样本的5日收益都低于label为4的样本,但却不是这样,这个你可以简单验证一下。
  • 我目前没发现这个情况, label是shift(close, -5) / shift(open, -1),不是五日收益 ![{w:100}](/wiki/api/attachments.redirect?id=e67d9d5d-a91d-4fff-bc3f-e284bf2bd00b)
  • 我重新跑了一下,确实没有重叠的情况。可能是之前哪里有个小错误。抱歉。 不过,看起来离散化这个动作并不是均匀分组,估计应该是所谓的等距分箱吧。 ![{w:100}](/wiki/api/attachments.redirect?id=6df48e12-8eff-423c-af8d-819e3ba74716)
  • 这种方法可以理解为:分桶、离散化,其实就是把连续变量离散为20个分类变量
{link}