数据处理

数据处理在金融领域中占据核心地位,它是将原始数据转化为有价值信息的关键环节。在金融行业,数据不仅是数字的简单堆砌,更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略,并加强风险管理。在大数据时代,金融机构不仅需要收集和存储海量的数据,更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步,如人工智能和机器学习,使得金融企业能够更准确地预测未来市场动向,为客户提供个性化服务,以及自动化和优化内部运营。因此,对于金融行业来说,掌握先进的数据处理技术并将其应用于实践,是保持竞争优势和实现持续增长的关键。

换手率的市值中性化怎么sql操作啊

neutralize(sum(turn_0,90), total_market_cap) as hsl, 报错。

更新时间:2024-05-02 09:55

000-预备知识

介绍

BigQuant是专业但易用的AI量化投资平台。如下知识可以帮助我们更好的开始策略开发。

如果没有特别说明,请在 AIStuido 3.0使用。

编程

BigQuant平台同时支持可视化编程开发和代码编程开发,并且两种模式可以无缝切换和融合

  • 可视化:无需学习复杂的编程,支持低代码/零代码开发策略。BigQuant提供策略了海量模块模版、学院、策略社区、知识库

更新时间:2024-04-29 11:14

c_normalize只适用于单表

SELECT
    sf.instrument,
    sf.date as date,
    sf.total_market_cap,

    -- 从技术指标表中选择的字段
    ta.ma_golden,
    ta.ma_long,
    ta.volume_golden,
    ta.volume_long,
    ta.three_red_soldiers,
    ta.hammer,
    ta.morning_star,
    ta.kdj_golden,
    ta.kdj_long,

更新时间:2024-04-06 11:36

关于中金高频多因子构建的求助

最近读到中金量化多因子系列中提到一些高频因子,比如50分钟K线最高与最低价相关系数平方的均值、成交量最高50根K线成交量收益率动量等等,那么根据分钟行情数据构建出来的话,应该是计算出多行的数据,那么对于我们量化爱好者来说,做因子测试的话是利用这些日内多行的数据吗?还是需要做降频处理到每日只取一行数据?之前听万老师讲课听过一般会对高频因子做降频处理,这样处理数据算力负担不会太大。所以有些疑惑,一、想确认下刚才所讲的这两个高频因子是需要取多行数据还是可以降频处理?二、如果可以做降频处理,那么采用什么方式处理比较好?比如取它们均值还是什么?

更新时间:2024-03-26 12:56

求助:格式化时间会报错

    with t1 as (
    SELECT
        date,
        date_format(date,"%Y-%m-%d") as new_date,
        instrument,
        close,
    FROM
        cn_stock_bar1m
    WHERE
        1 = 1
        AND date >= '2024-03-01'
        AND date <= '2024-03-02'
    )   
    SELECT * FROM t

更新时间:2024-03-25 09:10

模拟交易中使用到CSV文件怎么处理呢

模拟交易中使用到CSV文件怎么处理呢

更新时间:2024-03-19 09:30

71st Meetup

选取了IC较高的因子后,如何合成一个策略,一般步骤是什么

在因子开发研究完之后,选取了|IC|较高的几个因子后,一般如何合成一个策略,即在工程方法论上的一般步骤是什么?比如应该如何选择哪些模型进行合成(树模型or深度学习模型,是否有规律),分别是否都必须在训练前进行特征工程的处理再训练(去极值、中性化去除相关性),比如是否需要探查各个因子的相关性(如果多个因子存在一定的相关性,一般相关度大于多少需要进行处理,是否需要逐对特征两两取残差)

\

“水中行舟”研报如何用dai的SQL方式来实现?

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间:2024-03-15 03:36

因子分析如果要分析预计算因子该如何调用

/home/aiuser/work/因子分析.ipynb

https://bigquant.com/wiki/doc/5zug5a2q5yig5p6q-Tzo0w3iZgs

“因子分析”的使用文档是如下的调用,实际操作可行

\

m2 = M.input_features.v1(
    features='f

更新时间:2024-03-06 07:11

NaTType does not support strftime

  • 默认可视化线性模板里,sql就加了几个条件,其他没改,就回测不了,提示日期为空或属性不存在,能帮忙看下吗?\n策略:https://bigquant.com/codeshare/6316cf34-e449-4b15-87b1-1754a9b5a2e5

    回测时出现错误
    ValueError: NaTType does not support strftime
    添加“缺失数据模块”后,出现这个错误
    AttributeError: 'DataSource' object has no attribute 'iter_df'
    怎么解决?
    

更新时间:2024-02-19 05:57

自定义数据如何使用

join_area_data = M.sql_join_2.v1(
    sql1=ori_data.data,  # 标签数据
    sql2=area_ds,  # 地区数据
    sql_join="""WITH
sql1 AS (
    {sql1}
),
sql2 AS (
    {sql2}
)

SELECT * FROM sql1 JOIN sql2 USING (instrument)
"""
)

area_ds是自定义数据集,类型为dai.DataSource,在使用Join的时候报错:**ArrowInva

更新时间:2024-02-15 07:44

老代码运行问题

  • [2024-02-05 12:37:18.977789] INFO StockRanker训练: 31d53250 准备训练: 686765 行数, test: 0 rows
  • [2024-02-05 12:37:18.997786] INFO StockRanker训练: AI模型训练,将在686765*18=1236.18万数据上对模型训练进行3轮迭代训练。预计将需要2~3分钟。请耐心等待。
  • [2024-02-05 12:37:19.348217] ERROR: moduleinvoker:2279671359.py:392:<module> module name

更新时间:2024-02-05 04:59

numpy和pandas的区别关系及作用

Numpy(Numerical Python)和Pandas两个库是Python编程语言中两个极其重要的库,尤其在数据科学、金融分析和量化投资领域。尽管它们在处理数据方面有所重叠,但各自设计的初衷和优势领域有所不同。

Numpy简介

  • 核心功能:Numpy是一个开源的Python库,用于科学计算。它提供了一个高性能的多维数组对象和这些数组的操作工具。
  • 设计初衷:为数学运算、尤

更新时间:2024-02-01 08:48

如何调优,数据小于20万行,择时,StockRanker训练

更新时间:2024-01-23 03:53

请教个问题

如何构建跨周期数据项,并利用这些数据项构建因子?

平时处理的都是日线数据,但如果需要用日线和上月的月线数据进行一些计算形成一些因子,我应该如何构建?

更新时间:2024-01-12 02:34

构建行业中性化哑变量矩阵时,1月数据,跑10分钟都跑不出来原因是?

#提取一级行业,可以获得5000多只股票的行业列表。

sql ='''
select *
from cn_stock_industry_component
where date between '2023-0-01' and '2023-01-07'
'''
import dai
ww = dai.query(sql).df()
www_uni = ww.drop_duplicates(subset='instrument')

www_uni

#获取cn_stock_bar1d表数据

sql = '''
select *

更新时间:2024-01-12 02:31

这代码中的DELAY 的函数 是什么意思

OPEN/DELAY(CLOSE,1)-1 这代码中的DELAY 的函数 是什么意思

更新时间:2023-12-15 02:22

请问DELAY 这个函数是什么意思

OPEN/DELAY(CLOSE,1)-1   这个函数中DELAY 是什么意思

\

更新时间:2023-12-14 07:32

多元回归模型

请教一下,用1000多个股票一年的收益率数据和20个因子做多元回归模型,这里有多只股票和多个日期,应该要怎么处理呢?如何预测股票收益率?

更新时间:2023-11-27 06:10

Pandas使用小技巧


https://bigquant.com/experimentshare/1e185519774149e6803c36f1e6ecb1e6

\

更新时间:2023-11-26 16:58

Pandas库之数据处理与规整

导语

本文继续讲解Pandas库在数据分析和处理上的一些应用。

https://bigquant.com/experimentshare/07c4ac37ae7946909653473c22b73bd3


本文由BigQuant宽客学院推出,版权归BigQuant所有,转载请注明出处。

\

更新时间:2023-11-26 16:58

因子构建

因子构建步骤:

  1. 理论推导:根据投资哲学和市场观察来定义因子。例如,价值、动量、质量等。
  2. 数据获取:获取原始数据
  3. 数据处理:对因子数据进行清洗、填充缺失值、处理极值等。
  4. 因子计算:根据公式计算因子值
  5. 单因子分析:进行分层回测、IC分析、回归分析
  6. 加权合成:使用多个因子,需要决定每个因子的权重,将多个因子按照权重合成一个综合因子。
  7. 因子回测:使用历史数据测试因子的有效性。
  8. 因子优化:根据回测结果对因子进行优化,比如:组合优化。

\

因子定义

金融学理论:

  • 投资理论
  • 行为金融学

基本面因子 —— QMJ因子

QMJ因

更新时间:2023-11-16 09:44

读分钟数据很容易导致内存溢出

就读几天的分钟数据,我用8G的FAI或者用2C/8G AI Studio就把内存读爆了。是不是读数据有啥BUG?

代码如下:

import dai

dayStart = "2022-12-22" dayEnd = "2023-12-31" sql = f"""FROM cn_stock_bar1m WHERE date >= '{dayStart} 09:30:00' AND date <= '{dayEnd} 15:00:00'""" df = dai.query(sql).df()



\

更新时间:2023-10-09 08:26

高频因子抽取到日频报错

https://bigquant.com/wiki/doc/tezheng-ri-xIjPe1UFMu

这个例子程序也一直报错

更新时间:2023-10-09 07:10

为什么LightGBM不能输出特征重要性

后面会报错

https://bigquant.com/experimentshare/16f3f6c7fa904475ac8a131e2345ab0a

\

更新时间:2023-10-09 06:22

排序出错——csv

https://bigquant.com/experimentshare/d242d0c6c6a242c1ad2ad3cc11678891

\

更新时间:2023-10-09 03:43

分页第1页第2页第3页第4页