数据处理

数据处理在金融领域中占据核心地位，它是将原始数据转化为有价值信息的关键环节。在金融行业，数据不仅是数字的简单堆砌，更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略，并加强风险管理。在大数据时代，金融机构不仅需要收集和存储海量的数据，更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步，如人工智能和机器学习，使得金融企业能够更准确地预测未来市场动向，为客户提供个性化服务，以及自动化和优化内部运营。因此，对于金融行业来说，掌握先进的数据处理技术并将其应用于实践，是保持竞争优势和实现持续增长的关键。

【其他】老代码运行问题

[2024-02-05 12:37:18.977789] INFO StockRanker训练: 31d53250 准备训练: 686765 行数, test: 0 rows
[2024-02-05 12:37:18.997786] INFO StockRanker训练: AI模型训练，将在686765*18=1236.18万数据上对模型训练进行3轮迭代训练。预计将需要2～3分钟。请耐心等待。
[2024-02-05 12:37:19.348217] ERROR: moduleinvoker:2279671359.py:392:<module> module name

更新时间：2025-02-15 11:56

【其他】自定义数据如何使用

join_area_data = M.sql_join_2.v1(
    sql1=ori_data.data,  # 标签数据
    sql2=area_ds,  # 地区数据
    sql_join="""WITH
sql1 AS (
    {sql1}
),
sql2 AS (
    {sql2}
)

SELECT * FROM sql1 JOIN sql2 USING (instrument)
"""
)

area_ds是自定义数据集，类型为dai.DataSource，在使用Join的时候报错：**ArrowInva

更新时间：2025-02-15 11:53

【代码报错】NaTType does not support strftime

默认可视化线性模板里，sql就加了几个条件，其他没改，就回测不了，提示日期为空或属性不存在，能帮忙看下吗？\n策略：https://bigquant.com/codeshare/6316cf34-e449-4b15-87b1-1754a9b5a2e5
```
回测时出现错误
ValueError: NaTType does not support strftime
添加“缺失数据模块”后，出现这个错误
AttributeError: 'DataSource' object has no attribute 'iter_df'
怎么解决？
```

更新时间：2025-02-15 11:49

【平台使用】模拟交易中使用到CSV文件怎么处理呢

模拟交易中使用到CSV文件怎么处理呢

更新时间：2025-02-15 11:30

【代码报错】换手率的市值中性化怎么sql操作啊

neutralize(sum(turn_0,90), total_market_cap) as hsl, 报错。

更新时间：2025-02-15 11:16

【指标定制】算子转换问题

group_sum(date,where(price_limit_status_03,1,0))/mean(group_sum(date,where(price_limit_status_03,1,0)),180)，请问这个算子怎么转成新版的sql

更新时间：2025-02-15 11:02

【代码报错】eft分钟数据没有前一日收盘价

拉取数据显示报错，没有per_close字段

更新时间：2025-02-14 10:48

【平台使用】特征表达式无法抽取数据

https://bigquant.com/codesharev3/0fcad747-50d5-47b1-81ea-c6d9127ccae5

为何在加入了2个特征表达式，什么值都去不到。谢谢各位

更新时间：2025-02-14 09:13

【平台使用】数据接口更改为DAI

请工程师帮忙把这个策略改成将数据接口更改为 DAI的，我这个是固定模型的，固定的数据我已做好了，但是还是不知道数据怎么改成DAI的

https://bigquant.com/codeshare/692be05e-a686-4b22-968e-bab70c56d69b

更新时间：2025-02-05 02:55

前言

在上一个教程中，我们讲解了如何开发一个AI StockRanker耍单票策略，今天我们在这个策略上做一个细节的调整：一字涨停取消卖出。本文的目的是做成一个教程示例，让大家了解如何在回测引擎里通过日期索引得到当天的因子值。

正文

因为持仓里的票如果是一字涨停，那么继续拿住也说得过去，因此我们加入这样的一个逻辑。

在历史数据回测中，要实现这样的功能，需要提前拿到次日的数据，包括最高价、最低价、收盘涨跌停状态。这几个因子，我们在输入特征列表里抽取出来，因为是次日数据，所以我们使用m_lead算子来抽取：

![](/wiki/api/attachments.redirec

更新时间：2025-01-12 14:41

【代码报错】ArrowInvalid: Object "_6d344565ed5a4f89b31d48b6d65cd0d9" is not found in Bigma

如何获取bigm模块中的内容


m1 = M.input_features_dai.v30(
    input_1=m7.data,
    mode="""表达式""",
    expr="",
    expr_filters="return",
    expr_tables="""cn_stock_prefactors""",
    extra_fields="""date, instrument""",
    order_by="""date, instrument""",
    expr_drop_na=True,
    extract_d

更新时间：2025-01-06 01:57

102

# 在有序数组中找到出现最多的元素
def func() :
  num = arr[0]
  cnt = arr1
  maxNum = arr[0]
  maxCnt = 1
  
  for i in arr[1:]:
    if i == num :
      cnt += 1
    else:
      if cnt > maxCnt:
        maxCnt = cnt
        maxNum = num
    
    
  if cnt > maxCnt:
    maxCnt = cnt
    maxNum = num

更新时间：2024-12-26 15:11

【平台使用】如何将平台处理后的数据保存到本地？

我在平台进行了数据处理，需要保存到本地运行，如何保存到本地？

更新时间：2024-12-12 01:44

【代码报错】ArrowInvalid: 没有访问 "_337e3530e87a4dc6b0649919ae791200" 的权限

DataSource apply_bdb 修改无权限提示

def fillna_to_zero(df):
    return df.fillna(0)
m3.data.apply_bdb(func=fillna_to_zero, as_type=pd.DataFrame)

:::warning

您可以去社区论坛问答交流板块反馈咨询去发帖>>

ArrowInvalid Traceback (most recent call last)

Cell In[4], line 3

更新时间：2024-12-10 01:38

【代码报错】Parser Error: syntax error at or near "ORDER"

ORDER BY 报错帮我看下哪里有问题

import dai


import pandas as pd

# 提取股票数据
stock_sql = """
WITH 
zuori1 AS (
    SELECT 
        cn_stock_bar1d.date, 
        cn_stock_bar1d.instrument,
        close,
        volume,
        volume AS volume_1,
        close AS close_1,
        pe_ttm,
    FRO

更新时间：2024-11-13 03:09

【代码报错】ValueError: Pandas data cast to numpy dtype of object. Check input data with np.asarray(data)

行业中性化

在复现行业中性化的代码报错

## 加载包
import dai
import pandas as pd
import numpy as np
import math
import warnings
from datetime import datetime, timedelta

from bigmodule import M
from bigtrader.finance.commission import PerOrder

niu_date= '2024-11-10'
today = datetime.now().date().strftime(

更新时间：2024-11-13 03:06

【代码报错】IndexError: single positional indexer is out-of-bounds

又出现一个single positional indexer is out-of-bounds

请帮忙处理：

https://bigquant.com/codesharev3/d5e911e4-51e9-4684-a6f5-25cb97efc1dc

更新时间：2024-10-28 01:52

【代码报错】ConversionException: Conversion Error: Could not convert string 'Infinity' to INT64

代码报错-Conversion Error: Could not convert string 'Infinity' to INT64

您之前说了是数据里面有inf值，进行处理，替换成0或者nan再进行因子分析，具体怎样修改哪一行代码，我已经剔除了inf，还是不行，能给出具体的操作吗？

https://bigquant.com/codesharev3/3bd6dc8b-8b9e-4207-8d68-fa1d4ce0e162

更新时间：2024-10-28 01:42

数据定义

以下涉及到的流数据暂未开放，后期我们会为大家提供流数据获取服务。

构造这个因子需要用到的数据的表格形式如下:

日期	买一量	卖一量
t1	b1	a1
t2	b2	a2
…	…	…
tn	bn	an

首先我们求出截面净委买比例：

最后将分钟内的截面净委买比例求平均即可得到时间加权的净委买比例，所以这

更新时间：2024-10-22 07:09

期货现货价差实时因子加工

本文以中证1000的股指期货(IM2503.CFE)与指数(000852.SH)价差为例, 我们来加工股指与期货的价差因子并进行实时可视化操作。以下涉及到的流数据暂未开放，后期我们会为大家提供流数据获取服务。

数据定义

因子构造思路较为简单，我们需要用到期货l1快照数据以及指数快照数据，首先计算快照上的价差，最后将价差用last函数聚合成分钟频的数据。

因子加工代码

首先导入第三方库，并将数据推送至中间表：

import dai
import time
import plotly.graph_objects as go
from IPython

更新时间：2024-10-22 07:08

【代码报错】no data left after dropnan

这个策略之前模拟正常，现在突然报错：no data left after dropnan

1、截图模拟交易报错的页面，配文：报错内容：[0;31mException[0m: no data left after dropnan

2、粘贴策略链接：https://bigquant.com/codesharev3/9be3987e-8535-4b59-860c-18ccd7b6f917

谢谢支持的老师。

更新时间：2024-10-12 09:05

1、bigtrade的模式和聚宽很大的一个区别就是，策略要用的数据你们是先全部提取好了作为直接输入到回测引擎，这样就可以减少回测引擎每回测一天跑一天数据的麻烦，且再次回测也会有缓存，加快回测效率。我想问的是，我在取数据的时候是取整个回测时间段的，模拟的时候取数是当前的，这两个取数代码的写法肯定不同，不像聚宽，永远取回测日当前时间数据就行，而且我策略要用到的因子数据是需要比较复杂的加工的，有sql，有python，那我提交模拟之后，模拟交易怎么能识别我计算因子的逻辑，然后计算当天的因子值

2.我write_bdb的表是永久有效的么？这个表的存储空间需要付费么？

更新时间：2024-10-10 10:24

分页第1页第2页第3页第4页第5页第6页

数据处理

【其他】老代码运行问题

【其他】自定义数据如何使用

【代码报错】NaTType does not support strftime

【平台使用】因子分析如果要分析预计算因子该如何调用

【平台使用】模拟交易中使用到CSV文件怎么处理呢

【其他】c_normalize只适用于单表

【代码报错】换手率的市值中性化怎么sql操作啊

【指标定制】算子转换问题

【代码报错】eft分钟数据没有前一日收盘价

【平台使用】特征表达式无法抽取数据

【代码报错】求助：时间会报错

【平台使用】数据接口更改为DAI

耍单票策略——一字涨停取消卖出

前言

正文

【代码报错】ArrowInvalid: Object "_6d344565ed5a4f89b31d48b6d65cd0d9" is not found in Bigma

111

102

【平台使用】如何将平台处理后的数据保存到本地？

【代码报错】ArrowInvalid: 没有访问 "_337e3530e87a4dc6b0649919ae791200" 的权限

您可以去社区论坛问答交流板块反馈咨询去发帖>>

【代码报错】Parser Error: syntax error at or near "ORDER"

【代码报错】ValueError: Pandas data cast to numpy dtype of object. Check input data with np.asarray(data)

【代码报错】IndexError: single positional indexer is out-of-bounds

【代码报错】ConversionException: Conversion Error: Could not convert string 'Infinity' to INT64

时间加权净委买比例

数据定义

期货现货价差实时因子加工

数据定义

因子加工代码

【代码报错】no data left after dropnan

【其他】关于代码策略的几个问题

数据处理

前言

正文

102

您可以去社区论坛问答交流板块反馈咨询 去发帖>>

数据定义

数据定义

因子加工代码

您可以去社区论坛问答交流板块反馈咨询去发帖>>