问答交流

基础特征提取中特征向前抽取问题

由xd123456创建,最终由xd123456 被浏览 32 用户

问题

为什么平台中的特征抽取是没有按股票分组排序的,而是抽取部分和原始数据部分分开。比如我这里抽100天:

{w:100}{w:100}

{w:100}{w:100}可以看到抽取部分的索引和实际部分差了十万八千里。我之前在写策略的时候也没有注意到这个问题,这可能会导致我计算30日均价,用到ts_mean()这种函数,每个股票前面几个数据全部都是错误的。

要解决这个问题,需要手动添加排序模块:

{w:100}{w:100}这样抽取的数据才会正常拼接。

我感觉这是一个很严重的问题,因为给的很多策略模版从来都没有这一步骤,今天写策略的时候感觉数据一直不对才发现了这个问题。我觉得平台既然写了这个数据抽取功能,就应该在抽取的同时给数据按股票排好序,不然这样抽取还有什么意义?

\

评论
  • 膜拜大神提出的问题,赶紧拿自己的策略去测试一下
  • 你好,这个问题不纯在哈,你在这个第一张截图里可以看到,000009.SZA这只票的排序都是按照instrument分组后date排序的结果,重新设置索引即可,不印象指标的计算
  • 一般我们的策略都是先基础特征提取,然后衍生特征提取。如果我在衍生特征提取里使用ts_mean(xxx,30),那么计算出来的,比如第一天的数据,用到的是其他股票最后29天的数据,并不是这个股票抽取部分的数据,我昨天已经打印并且验证过了,必须要通过排序模块,结果才会正确
  • ![{w:100}](/wiki/api/attachments.redirect?id=f29dbd75-4a33-432e-95bf-0eaf716f3e3e)如图,不加排序计算收盘价五日平均,前面几条数据全错
  • 我比较疑惑的是为什么不在抽取的同时自动做好排序,这样不是更好吗?这对于一些自定义函数很不友好,新人如果自定义些自定义函数,肯定不会考虑到要重置索引,导致容易出问题
{link}