数据处理

数据处理在金融领域中占据核心地位,它是将原始数据转化为有价值信息的关键环节。在金融行业,数据不仅是数字的简单堆砌,更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略,并加强风险管理。在大数据时代,金融机构不仅需要收集和存储海量的数据,更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步,如人工智能和机器学习,使得金融企业能够更准确地预测未来市场动向,为客户提供个性化服务,以及自动化和优化内部运营。因此,对于金融行业来说,掌握先进的数据处理技术并将其应用于实践,是保持竞争优势和实现持续增长的关键。

【其他】因子分析疑问

1、如果我的因子在sql之外还需要用Python做一些处理,请问提交因子的时候factor_sql 该怎么写?

2、因子分析中是否每个股票每个交易日都要有因子值,我是否可以每个股票只有月末有一个因子,其他时间都是空的。

更新时间:2024-10-10 10:10

【平台使用】如何将从模块抽取的大表格数据单独下载?

老师,请问模块抽取出来的数据是一个大表格,如何才能将下面图示中的M4表格另外下载出来?谢谢

更新时间:2024-10-10 10:03

【平台使用】如何将DAI查询的数据导出为XLS表格?

老师,请问DAI查询出来的数据表太大,如何单独形成一个XLS表格,方便自己进行分析,谢谢

import dai

df = dai.query("""

SELECT

    date, instrument,

    IF(price_limit_status = 3,1,0) AS _zt,

    If(m_sum(_zt,10) = 1,1,0) AS _firstzt,

     open/m_lead(close,-1)-1 AS _jump,

     If(_jump > 0.04,1,0) AS _jumphigh,

     close/ope

更新时间:2024-10-10 09:49

【代码报错】m_product()函数计算结果为NaN值

代码如下

import dai

st = '' 

sql = f""" 
select
    date,
    instrument,
    sw2021_level2,
    sw2021_level2_name,
    r_ind,
    r_mkt,
    m_product(r_ind + 1,240)- 1 as r_ind_1y,
    m_product(r_mkt + 1,240)- 1 as r_mkt_1y,
    r_ind - r_mkt as r_std,
    (r_ind_1y - r_m

更新时间:2024-10-09 10:16

【代码报错】行情数据NaN空值处理

行情数据NaN空值处理的bug问题

 回测时发现仓位中有些早期时间段(大多2012年前)仓位很轻,按理持仓就为10支,可那些日子里只有1,2支. 后面发现,:\n     因为我代码中有:  m_max(close,100). 只要这100前有一个NAN值,这支股票就被无情的排除了.

 要是:m_max( close,100,  参数=’ 0’ ).这里加个参数,表示数据中有NAN时填充0计算.  也可以=”停牌前的价格”\n要是能有这选择参数就完美了.

\

更新时间:2024-10-09 09:47

在DAI SQL中利用ASOF JOIN计算股息率

一、股息率定义

股息率是指公司每年支付的股息与其股票当前市场价格的比率。它是一个重要的投资指标,帮助投资者评估股票的收入潜力,股息率越高,通常表示投资者可以从该股票中获得更多的被动收入。计算公式为:

本文更多介绍如何使用 ASOF JOIN 操作处理日频数据和非日频数据,因此,我们简化股息率的公式,假设分子分母都使用总股本,则上述公式可以简化如下:

![](/wiki/api/attachments.redirect?id=4

更新时间:2024-09-02 08:33

持仓交易日个数

positions = context.get_account_positions()

for code, position in positions.items():

    print(code,position.last_sale_date, context.trading_calendar.session_distance(position.last_sale_date, data.current_dt))

\

更新时间:2024-06-29 00:03

策略分享

策略流程

  1. 筛选条件:净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35。
  2. 策略回测:开盘买入,收盘卖出,回测时间为2017-05-01至2017-06-15

策略实现

输入特征模块

  • 将净利润增长率,净资产收益率,市盈率作为作为输入特征;

  • 将净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35设置为表达式过滤条件。

    \

数据抽取模块

  • 抽取数据,并设置开始日期为2014-12-31 ,结束日期为2016-12-31。

\

BigTrader模块

  • m5”BigTra

更新时间:2024-06-19 06:45

Word2Vec介绍:训练Skip-gram模型的python实现

1. 获取数据

首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。

我们使用shell命令获取以上文档,脚本如下:

DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR

cd $DATASETS_DIR

# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
  wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
  c

更新时间:2024-06-12 06:06

Pandas库之数据处理与规整

旧版声明

本文为旧版实现,仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU


下列代码在读取数据时,使用最新dai.query接口即可。

数据读取

\

导语

本文继续讲解Pandas库在数据分析和处理上的一些应用。

[https://bigquant.com/codesharev2/5a39d584-7b74-4d00-832f-

更新时间:2024-06-12 02:36

Pandas查看和选择

新版数据导入部分使用dai库

导语

本节主要讲解Pandas库中 DataFrame 的数据查看与选择


Pandas 是基于 Numpy 构建的,让以 Numpy 为中心的应用变得更加简单。平台获取的数据主要是以 Pandas 中DataFrame 的形式。除此之外,Pandas 还包括 一维数组Series 以及三维的Panel。

Pandas中获取数据的方式

下面将进行详细介绍:

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而

更新时间:2024-06-11 08:59

缺失值处理

在使用“输入特征(DAI SQL)”提取数据的时候,可能会遇到缺失值的问题,缺失值的出现可能是因为原始数据表中有缺失值,也有可能是表达式计算的过程中产生了缺失值

对于缺失值,我们主要有两种处理方式,缺失值删除,或者缺失值填充

1. 缺失值删除

要想将缺失值剔除,只需要在“输入特征(DAI SQL)”模块中,将“表达式-移除空值”勾选即可

值得注意的是,使用这种方法,只要一行数据中有一个字段是空值,那么这一行就会被剔除

因此,当有多个特征被提取的时候,只要有一个特征由于运算逻辑错误导致整个字段都是空值的话,那么所有行都是包含空值的,这样的话数据提取

更新时间:2024-05-27 03:49

“漂亮50”策略尝试_v1_new

策略介绍

A股分两种:“漂亮50”和“要命3000” http://stock.qq.com/a/20170428/006821.htm 证券时报记者以三个指标筛选出A股的“漂亮50”,这三个指标分别是净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35。

策略流程

  1. 筛选条件:净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35。
  2. 策略回测:开盘买入,收盘卖出,回测时间为2017-05-01至2017-06-15

策略实现

输入特征模块

  • 将净利润增长率,净资产收益率,市盈率作为作为输入特征

更新时间:2024-05-27 02:05

203-常见的数据处理方式

本系列文章列举了AIStudio3.0环境中可视化模式下的常用数据处理方式

小伙伴们可以在评论区发你们想了解的其他数据处理方式,我们会在本文持续更新

更新时间:2024-05-22 09:37

DNN算法实现股票预测

新版本暂无深度学习可视化模块

导语

在阅读了 深度学习的简要介绍后,本文将介绍深度学习DNN模型及其在量化投资领域中的应用。

深度学习在量化领域的应用

机器学习作为人工智能的核心,其传统算法在解决很多问题上都表现出了高效性。随着近些年数据处理技术上的进步和计算能力的提升,深度学习得以在很多问题上也大放光彩,成为近一段时间互联网、金融等领域的大热门。

在量化投资领域,机器学习尤其是由统计学延伸的各种算法一直以来都被尝试应用在选股、择时等策略的开发上,随着深度学习在其他领域上的突破,其在自动化交易甚至投资策略的自开发自

更新时间:2024-05-21 07:27

numpy和pandas的区别关系及作用

Numpy(Numerical Python)和Pandas两个库是Python编程语言中两个极其重要的库,尤其在数据科学、金融分析和量化投资领域。尽管它们在处理数据方面有所重叠,但各自设计的初衷和优势领域有所不同。

Numpy简介

  • 核心功能:Numpy是一个开源的Python库,用于科学计算。它提供了一个高性能的多维数组对象和这些数组的操作工具。
  • 设计初衷:为数学运算、尤

更新时间:2024-05-20 02:35

Pandas使用小技巧


https://bigquant.com/experimentshare/1e185519774149e6803c36f1e6ecb1e6

\

更新时间:2024-05-20 02:34

Numpy使用入门

\

更新时间:2024-05-20 02:32

Pandas使用入门

\

更新时间:2024-05-20 02:32

【历史文档】常见问题

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-16 06:03

【历史文档】策略回测-回测模块详解

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-16 02:44

【历史文档】策略-模型训练+股票预测

导语

完成了数据处理,接下来就可利用平台集成的各算法进行模型训练和模型预测啦。本文将详细介绍“模型训练”、“模型预测”两大模块操作、原理。

模型训练模型预测是AI策略区别于传统量化策略的核心,我们通过模型训练模块利用训练集因子和标注数据构建一个模型,并通过模型预测模型将预测集的因子数据输入模型进行预测。 \n {w:100}{w:100}{w:100}{w:100}

在模块列表的 机器学习 、 **深度学习

更新时间:2024-05-15 09:51

【历史文档】算子-数据处理

{{use_style}}

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

[https://bigquant.com/wiki/doc/demos-ecdRvuM1TU](https://bigquant.com/wiki/doc/demos-ecd

更新时间:2024-05-15 07:29

000-预备知识

介绍

BigQuant是专业但易用的AI量化投资平台。如下知识可以帮助我们更好的开始策略开发。

如果没有特别说明,请在 AIStuido 3.0使用。

编程

BigQuant平台同时支持可视化编程开发和代码编程开发,并且两种模式可以无缝切换和融合

  • 可视化:无需学习复杂的编程,支持低代码/零代码开发策略。BigQuant提供策略了海量模块模版、学院、策略社区、知识库

更新时间:2024-04-29 11:14

停止模块读取缓存,更新改动执行情况

m7 = M.derived_feature_extractor.v3(
        input_data=m1.data,
        features=m15.data,
        date_col='date',
        instrument_col='instrument',
        drop_na=False,
        remove_extra_columns=False,
        m_cached=False, # 去掉缓存
        user_functions={}
    )

更新时间:2023-06-06 02:58

分页第1页第2页第3页第4页第5页第6页
{link}