数据处理

数据处理在金融领域中占据核心地位，它是将原始数据转化为有价值信息的关键环节。在金融行业，数据不仅是数字的简单堆砌，更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略，并加强风险管理。在大数据时代，金融机构不仅需要收集和存储海量的数据，更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步，如人工智能和机器学习，使得金融企业能够更准确地预测未来市场动向，为客户提供个性化服务，以及自动化和优化内部运营。因此，对于金融行业来说，掌握先进的数据处理技术并将其应用于实践，是保持竞争优势和实现持续增长的关键。

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2026-05-09 04:40

量化人需要掌握的Numpy与Pandas

讲Numpy与Pandas的教程不少。Pandas的开发者(Wes Mckinney)还亲自写了一本书，《Python for Data Analysis》，英文电子版在这里。有网友将其翻译成了中文版，都是可免费阅读的。

但是没有一个教程贴合量化场景来讲解Numpy与Pandas的。作为量化

更新时间：2026-02-26 01:29

最近读到中金量化多因子系列中提到一些高频因子，比如50分钟K线最高与最低价相关系数平方的均值、成交量最高50根K线成交量收益率动量等等，那么根据分钟行情数据构建出来的话，应该是计算出多行的数据，那么对于我们量化爱好者来说，做因子测试的话是利用这些日内多行的数据吗？还是需要做降频处理到每日只取一行数据？之前听万老师讲课听过一般会对高频因子做降频处理，这样处理数据算力负担不会太大。所以有些疑惑，一、想确认下刚才所讲的这两个高频因子是需要取多行数据还是可以降频处理？二、如果可以做降频处理，那么采用什么方式处理比较好？比如取它们均值还是什么？

更新时间：2026-01-02 12:58

如何利用滚动回测进行策略开发和因子挖掘？

问题

如何利用滚动回测进行策略开发和因子挖掘？

视频

[https://www.bilibili.com/video/BV1Gr4y177FR?share_source=copy_web&vd_source=2e7dc1240ea373ea6eba1134af8dd086](https://www.bilibili.com/video/BV1Gr4y177FR?share_source=copy_web&vd_source=2

更新时间：2025-12-30 06:37

如何解读Transformer等深度学习中序列窗口滚动模块功能

问题

transformer等深度学习中序列窗口滚动模块具体的功能是什么，为什么要把数据做这个处理，能否用numpy的源码写一个函数？

视频

https://www.bilibili.com/video/BV1i44y1q7As?p=4&share_source=copy_web

策略源码

2021年7月8日Meetup策略模板：

[https://bigquant.com/experimentshare/6235b7c

更新时间：2025-12-30 06:37

如何通过爬虫获取开盘啦app上面的数据？

问题

如何通过爬虫获取开盘啦app上面的数据？

视频

https://www.bilibili.com/video/BV13R4y1C7KQ/

策略源码

https://bigquant.com/experimentshare/cb90e8e440bc47b9bbc9cb897e452af8

更新时间：2025-12-30 06:37

因子构建

因子构建步骤：

理论推导：根据投资哲学和市场观察来定义因子。例如，价值、动量、质量等。
数据获取：获取原始数据
数据处理：对因子数据进行清洗、填充缺失值、处理极值等。
因子计算：根据公式计算因子值
单因子分析：进行分层回测、IC分析、回归分析
加权合成：使用多个因子，需要决定每个因子的权重，将多个因子按照权重合成一个综合因子。
因子回测：使用历史数据测试因子的有效性。
因子优化：根据回测结果对因子进行优化，比如：组合优化。

因子定义

金融学理论：

投资理论
行为金融学

基本面因子 —— QMJ因子

QMJ因

更新时间：2025-12-30 06:37

Pandas处理日K数据构建MACD季度因子

看视频

https://www.bilibili.com/video/BV1jh411u7zj/?vd_source=ecd29bbd04cbefdfa426167c55241973

策略源码

[https://bigquant.com/experimentshare/d4804cb7b37b40e191de5b196897c33b](https://bigquant.com/experiment

更新时间：2025-12-30 06:37

71st Meetup

选取了IC较高的因子后，如何合成一个策略，一般步骤是什么

在因子开发研究完之后，选取了|IC|较高的几个因子后，一般如何合成一个策略，即在工程方法论上的一般步骤是什么？比如应该如何选择哪些模型进行合成（树模型or深度学习模型，是否有规律），分别是否都必须在训练前进行特征工程的处理再训练（去极值、中性化去除相关性），比如是否需要探查各个因子的相关性（如果多个因子存在一定的相关性，一般相关度大于多少需要进行处理，是否需要逐对特征两两取残差）

“水中行舟”研报如何用dai的SQL方式来实现？

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间：2025-12-30 06:37

【平台数据处理求指教】关于SQL和Python 运行速度的问题

能介绍一下平台数据的处理方式吗，有时候完全使用SQL计算因子特征会非常的慢，尤其是高频数据表要join其它日频表的时候。

下面一张图是我需要复现研报（兴业证券）的内容，请问这种因子我是该提取数据出来后用python还是直接用SQL写了存表呢？

更新时间：2025-12-04 13:43

合并三个数据表的方法

from bigmodule import M
import dai
# 假设 M 已在环境中可用
m1 = M.input_features_dai.v30(
    mode="SQL",
    sql="""
    SELECT
        a.date, 
        a.instrument,
        a.* EXCLUDE(date, instrument),
        b.pe_ttm AS pe_ttm,
        b.total_market_cap AS market_cap,
        a.

更新时间：2025-12-03 03:57

【平台使用】集合竞价断断续续的有null

数据表存在大量NULL

更新时间：2025-12-02 06:05

新版因子实现

导语

平台已经整理好新旧因子对比，可以在基础特征抽取里面直接抽取。

A股

量价因子

老版因子	新版因子	字段描述
adjust_factor_*	当期值: adjust_factor\n滞后值: m_lag(adjust_factor, i)，i为滞后期数	第前 * 个交易日的复权因子 \n * 取值: 0 .. 20
amount_*	当期值: amount\n滞后值: m_lag(amount, i)，i为滞后期数	第前 * 个交易日的交易额\n * 取值: 0 .. 120

更新时间：2025-11-28 03:17

高频因子投研框架

高频因子投研一直是一个专业研究员头疼的问题，主要难点有以下几点。

1.高频因子计算速度慢，通常高频因子是指股票分钟数据或更高频率数据。每只股票每天有240条分钟k线，数万条level2数据，如果按照数据量计算的话，每天仅分钟数据约有5000*240 = 120万条。是日频数据的240倍。1天的分钟数据计算=1年的日频数据计算。1年的分钟数据因子计算=240年的日线因子数据计算。这种计算如果使用python进行处理的话通常需要大量时间。

2.高频因子数据量巨大占用内存空间大，读写速度慢

高频因子投研框架解决了以上所有的问题，任何量化爱好者仅用2C8G的环境也可以进行分钟

更新时间：2025-11-23 14:44

提交代码后不出结果的几个可能原因(会实时更新)

大家在提交之前务必要在cpt_jyc_2025_stock_csi1000_bar1m上使用因子分析工具来查看。如果在该数据集上无法展示因子分析绩效, 那么提交后也不会产生分数!

机器学习模型训练失败

经过这几天的跟踪, 有一部分的比例是因为使用了机器学习模型导致无法出得分, 此时需要各位检查一下机器学习是否预测成功。可能存在以下原因导致无法出结果:

训练数据中存在缺失值导致损失为NaN:

针对这种情况，请大家

更新时间：2025-10-17 08:25

因子常见处理方式

本文介绍量化因子三种常见的处理方式，分别为：

标准化处理
极值处理
中性化处理

这三种数据处理方式，都是截面处理，即当天全市场5000之票做预处理，不涉及时序数据。

标准化处理

把当天的因子值按均值为0，标准差为1进行标准化处理

c_normalize(mkt) as score1

极值处理

其实就是把分位数较大和较小的因子按分位数的因子值做截断处理

c_winsorize(score1, 0.01, 0.99) as score2

中性化处理

剔除市值和行业影响，当天全市场数据做回归取残差

c_neutralize(score2,

更新时间：2025-10-08 03:54

数据合并

两个“输入特征（DAI SQL）”模块，分别从两个数据表提取数据，之后可以共同连接一个新的“输入特征（DAI SQL）”模块，做到数据连接的功能

我们来看一个具体的例子，在下面这个例子中：

m1模块的作用是从cn_stock_prefactors表中提取出pe_ttm和total_market_cap两个字段，并且过滤掉ST股票
m2模块的作用是从cn_stock_money_flow表中提取出main_flow和main_rate两个字段

![](/wiki/api/attachments.redirect?id=2d891157-85

更新时间：2025-09-23 01:28

表达式函数

BigQuant的DAI数据平台提供了许多字段运算的表达式函数，完整的函数在这个文档（DAI SQL 函数列表），我们这篇文档总结了一些常见的表达式

1. DAI数据平台表达式函数的使用

1.1 输入特征模块中使用表达式函数

DAI数据平台封装的表达式函数，需要在可视化模式下的“输入特征（DAI SQL）”模块中的“表达式特征”一栏中填写，之后再连接数据抽取模块就可以把该表达式的计算抽取出来

例如，我们以5日平均收盘价`m_avg(close,

更新时间：2025-09-23 01:27

练习赛性能优化方向

提示 1： 在处理大规模数据时，Python 的 for 循环是最高效的选择吗？
提示 2： 代码中获取的数据格式是 pandas DataFrame，这是一个为高性能计算而生的工具库。不妨探索一下它自带的计算函数。
提示 3： 能否在数据查询 dai.query 阶段就让数据库帮助我们完成计算，从而避免传输海量原始数据？

更新时间：2025-09-11 13:36

kyle_作业

存档_1：学习老韵作业\n1️⃣ 这段代码在做什么

用横截面“分位数因子”训练一个轻量 XGBoost 回归器，每 60 个交易日重训，毎 5 日调仓，按预测分数等权买入 Top10。\n同时在每次训练后记录 MSE/MAE/R²/IC 与特征重要性，回测结束把训练历史与绩效打包保存。

2️⃣ 数据与因子（initialize / SQL）

数据源：cn_stock_prefactors（已过滤 is_risk_warning=0、list_days>100）。
因子全部做横截面分位数：pct_rank_by(date, …)，把不同量纲压

更新时间：2025-08-25 14:14

kr_gld的作业

实现了：

xgboost 和 stockrank 的策略。以及超参测试

相同因子的情况下， stockrank 要比 xgboost 更好些。

实现：\nxgboost 的策略\n\n因子设计

c_pct_rank(dividend_yield_ratio) as rank_div_ratio

c_pct_rank(total_market_cap) as rank_cap

c_pct_rank(close) as real_close

c_rank(close / m_lag(close, 20)) as rank_mount

c_pct_r

更新时间：2025-08-14 13:48

四金_作业

多轮因子评估后，因子计算方式复杂，模型容易出现幻觉，将数据表信息，补充到上下文中。

将模型修改为kimi：

api_key="sk-",
base_url="https://api.moonshot.cn/v1"
model="kimi-k2-0711-preview",

\

多轮验证后最终输入token爆炸，优化上下文：

1、将所有DAI因子计算的结果命名为table_1，其他通过get_data新抽取的数据命名为table_{index}

2、每次因子计算时，将table_1带入提示词，下一轮因子计算基于当前table_1继续进行，并清理get_data获取的t

更新时间：2025-08-12 03:49

梅玺交作业

原始SQL调整：

context.sql = f"""
            select
            date,
            instrument,
            pct_rank_by(date,total_market_cap) as score1,
            pct_rank_by(date,turn) as score2,
            pct_rank_by(date,close/m_lag(close, 1)) as score3,
            {n1}*score1+{n

更新时间：2025-08-06 08:49

明华的作业

import pandas as pd
import os
import glob
from datetime import datetime, timedelta

def calculate_15day_change_and_turn(stock_data_dir):
    """计算每只股票15日涨跌幅和20日均换手率"""
    stock_changes = []
    for csv_file in glob.glob(os.path.join(stock_data_dir, "*.csv")):
        try:
            df =

更新时间：2025-08-04 15:21

Liujunze_作业提交

【今日作业】

1、请回顾你过去的交易经验，选择一个你曾经使用过的交易方法，尝试用量化的方式重新表达出来（用文字描述，无需代码实现）。

之前是主观投资，即通过判断公司的产品对于市场的未来需求来选择的。比如说circle 的稳定币的作用，结合美国国债的压力和特朗普的做事风格；还有小米的Yu7

2、在看完从0-1开发量化策略之后，请自己总结一下量化策略开发的主要流程。

[策略假设] → [数据获取] → [因子生成] → [模型建模]

 ↓             ↓             ↓           ↓

[数据清洗] → [因

更新时间：2025-07-29 09:47

分页第1页第2页第3页第4页第5页第6页