【其他】自动标注里分20个类的逻辑是什么？

由xsolo创建，最终由small_q更新于2025-02-16 03:26 被浏览 78 用户

摘要

自动标注模块自带“将分数映射到20 个分类”离散化功能，我本来的理解是计算出 label之后，把所有样本的return从高到低排序，然后每5%的样本归到一类。如果是这样，那 14组里label的min 也会高于 13组里label的max。

但是我看了一下数据，实际情况不是这样的，相邻两个bin里的label有重叠的取值，就很疑惑了。谁能解释一下这里自动分类的逻辑？

{w:100}

答：您这边能给出具体的重叠截图吗？我这边抽样试过是没有重叠的。另外是对label进行分类不是return进行分类

问：我说的“重叠”的意思是：自动标注模块基于5日的收益分成了20个bin，所以label的取值是从0到19。理论上label为3的样本的5日收益都低于label为4的样本，但却不是这样，这个你可以简单验证一下。

答：我目前没发现这个情况， label是shift(close, -5) / shift(open, -1)，不是五日收益

{w:100}

问：我重新跑了一下，确实没有重叠的情况。可能是之前哪里有个小错误。抱歉。不过，看起来离散化这个动作并不是均匀分组，估计应该是所谓的等距分箱吧。

{w:100}

答：这种方法可以理解为：分桶、离散化，其实就是把连续变量离散为20个分类变量

您这边能给出具体的重叠截图吗？我这边抽样试过是没有重叠的。另外是对label进行分类不是return进行分类
我说的“重叠”的意思是：自动标注模块基于5日的收益分成了20个bin，所以label的取值是从0到19。理论上label为3的样本的5日收益都低于label为4的样本，但却不是这样，这个你可以简单验证一下。
我目前没发现这个情况， label是shift(close, -5) / shift(open, -1)，不是五日收益 ![{w:100}](/wiki/api/attachments.redirect?id=e67d9d5d-a91d-4fff-bc3f-e284bf2bd00b)