数据处理

数据处理在金融领域中占据核心地位,它是将原始数据转化为有价值信息的关键环节。在金融行业,数据不仅是数字的简单堆砌,更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略,并加强风险管理。在大数据时代,金融机构不仅需要收集和存储海量的数据,更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步,如人工智能和机器学习,使得金融企业能够更准确地预测未来市场动向,为客户提供个性化服务,以及自动化和优化内部运营。因此,对于金融行业来说,掌握先进的数据处理技术并将其应用于实践,是保持竞争优势和实现持续增长的关键。

新手求助帖

https://bigquant.com/codesharev3/0fcad747-50d5-47b1-81ea-c6d9127ccae5

为何在加入了2个特征表达式,什么值都去不到。谢谢各位

更新时间:2024-07-03 16:35

持仓交易日个数

positions = context.get_account_positions()

for code, position in positions.items():

    print(code,position.last_sale_date, context.trading_calendar.session_distance(position.last_sale_date, data.current_dt))

\

更新时间:2024-06-29 00:03

策略分享

策略流程

  1. 筛选条件:净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35。
  2. 策略回测:开盘买入,收盘卖出,回测时间为2017-05-01至2017-06-15

策略实现

输入特征模块

  • 将净利润增长率,净资产收益率,市盈率作为作为输入特征;

  • 将净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35设置为表达式过滤条件。

    \

数据抽取模块

  • 抽取数据,并设置开始日期为2014-12-31 ,结束日期为2016-12-31。

\

BigTrader模块

  • m5”BigTra

更新时间:2024-06-19 06:45

数据合并

两个“输入特征(DAI SQL)”模块,分别从两个数据表提取数据,之后可以共同连接一个新的“输入特征(DAI SQL)”模块,做到数据连接的功能

我们来看一个具体的例子,在下面这个例子中:

  • m1模块的作用是从cn_stock_prefactors表中提取出pe_ttmtotal_market_cap两个字段,并且过滤掉ST股票
  • m2模块的作用是从cn_stock_money_flow表中提取出main_flowmain_rate两个字段

![](/wiki/api/attachments.redirect?id=2d891157-85

更新时间:2024-06-19 02:45

202-本地文件上传

介绍

  • 本地上传csv文件并读取
  • 和其他数据联合使用

实现

dai处理文件

  • 生成一个csv文件作为测试,包括日期、股票代码、当日涨跌幅。
  • 使用dai直接操作csv,如果是本地csv文件则直接拖拽至资源管理器。

输入特征联合使用

  • 将操作后的csv输入:mafactor.csv中的factor_001因子。
  • 表达式特征中输入cn_stock_prefactors中的股息率排名作为sc

更新时间:2024-06-19 02:41

Word2Vec介绍:训练Skip-gram模型的python实现

1. 获取数据

首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。

我们使用shell命令获取以上文档,脚本如下:

DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR

cd $DATASETS_DIR

# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
  wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
  c

更新时间:2024-06-12 06:06

Pandas库之数据处理与规整

旧版声明

本文为旧版实现,仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU


下列代码在读取数据时,使用最新dai.query接口即可。

数据读取

\

导语

本文继续讲解Pandas库在数据分析和处理上的一些应用。

[https://bigquant.com/codesharev2/5a39d584-7b74-4d00-832f-

更新时间:2024-06-12 02:36

Pandas查看和选择

新版数据导入部分使用dai库

导语

本节主要讲解Pandas库中 DataFrame 的数据查看与选择


Pandas 是基于 Numpy 构建的,让以 Numpy 为中心的应用变得更加简单。平台获取的数据主要是以 Pandas 中DataFrame 的形式。除此之外,Pandas 还包括 一维数组Series 以及三维的Panel。

Pandas中获取数据的方式

下面将进行详细介绍:

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而

更新时间:2024-06-11 08:59

eft分钟数据没有前一日收盘价

拉取数据显示报错,没有per_close字段

更新时间:2024-06-07 15:26

如何解读Transformer等深度学习中序列窗口滚动模块功能

问题

transformer等深度学习中序列窗口滚动模块具体的功能是什么,为什么要把数据做这个处理,能否用numpy的源码写一个函数?

视频

https://www.bilibili.com/video/BV1i44y1q7As?p=4&share_source=copy_web

策略源码

2021年7月8日Meetup策略模板:

[https://bigquant.com/experimentshare/6235b7c

更新时间:2024-06-07 10:55

因子构建

因子构建步骤:

  1. 理论推导:根据投资哲学和市场观察来定义因子。例如,价值、动量、质量等。
  2. 数据获取:获取原始数据
  3. 数据处理:对因子数据进行清洗、填充缺失值、处理极值等。
  4. 因子计算:根据公式计算因子值
  5. 单因子分析:进行分层回测、IC分析、回归分析
  6. 加权合成:使用多个因子,需要决定每个因子的权重,将多个因子按照权重合成一个综合因子。
  7. 因子回测:使用历史数据测试因子的有效性。
  8. 因子优化:根据回测结果对因子进行优化,比如:组合优化。

\

因子定义

金融学理论:

  • 投资理论
  • 行为金融学

基本面因子 —— QMJ因子

QMJ因

更新时间:2024-06-07 10:55

Pandas处理日K数据构建MACD季度因子

看视频

https://www.bilibili.com/video/BV1jh411u7zj/?vd_source=ecd29bbd04cbefdfa426167c55241973

策略源码

[https://bigquant.com/experimentshare/d4804cb7b37b40e191de5b196897c33b](https://bigquant.com/experiment

更新时间:2024-06-07 10:55

71st Meetup

选取了IC较高的因子后,如何合成一个策略,一般步骤是什么

在因子开发研究完之后,选取了|IC|较高的几个因子后,一般如何合成一个策略,即在工程方法论上的一般步骤是什么?比如应该如何选择哪些模型进行合成(树模型or深度学习模型,是否有规律),分别是否都必须在训练前进行特征工程的处理再训练(去极值、中性化去除相关性),比如是否需要探查各个因子的相关性(如果多个因子存在一定的相关性,一般相关度大于多少需要进行处理,是否需要逐对特征两两取残差)

\

“水中行舟”研报如何用dai的SQL方式来实现?

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间:2024-06-07 10:55

如何通过爬虫获取开盘啦app上面的数据?

问题

如何通过爬虫获取开盘啦app上面的数据?

视频

https://www.bilibili.com/video/BV13R4y1C7KQ/

\

策略源码

https://bigquant.com/experimentshare/cb90e8e440bc47b9bbc9cb897e452af8

\

更新时间:2024-06-07 10:55

如何利用滚动回测进行策略开发和因子挖掘?

问题

如何利用滚动回测进行策略开发和因子挖掘

视频

[https://www.bilibili.com/video/BV1Gr4y177FR?share_source=copy_web&vd_source=2e7dc1240ea373ea6eba1134af8dd086](https://www.bilibili.com/video/BV1Gr4y177FR?share_source=copy_web&vd_source=2

更新时间:2024-06-07 10:55

表达式函数

BigQuant的DAI数据平台提供了许多字段运算的表达式函数,完整的函数在这个文档(DAI SQL 函数列表),我们这篇文档总结了一些常见的表达式

1. DAI数据平台表达式函数的使用

1.1 输入特征模块中使用表达式函数

DAI数据平台封装的表达式函数,需要在可视化模式下的“输入特征(DAI SQL)”模块中的“表达式特征”一栏中填写,之后再连接数据抽取模块就可以把该表达式的计算抽取出来

例如,我们以5日平均收盘价`m_avg(close,

更新时间:2024-05-28 09:55

缺失值处理

在使用“输入特征(DAI SQL)”提取数据的时候,可能会遇到缺失值的问题,缺失值的出现可能是因为原始数据表中有缺失值,也有可能是表达式计算的过程中产生了缺失值

对于缺失值,我们主要有两种处理方式,缺失值删除,或者缺失值填充

1. 缺失值删除

要想将缺失值剔除,只需要在“输入特征(DAI SQL)”模块中,将“表达式-移除空值”勾选即可

值得注意的是,使用这种方法,只要一行数据中有一个字段是空值,那么这一行就会被剔除

因此,当有多个特征被提取的时候,只要有一个特征由于运算逻辑错误导致整个字段都是空值的话,那么所有行都是包含空值的,这样的话数据提取

更新时间:2024-05-27 03:49

“漂亮50”策略尝试_v1_new

策略介绍

A股分两种:“漂亮50”和“要命3000” http://stock.qq.com/a/20170428/006821.htm 证券时报记者以三个指标筛选出A股的“漂亮50”,这三个指标分别是净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35。

策略流程

  1. 筛选条件:净利润增长率长大于15%,连续3年净资产收益率大于15%,市盈率低于35。
  2. 策略回测:开盘买入,收盘卖出,回测时间为2017-05-01至2017-06-15

策略实现

输入特征模块

  • 将净利润增长率,净资产收益率,市盈率作为作为输入特征

更新时间:2024-05-27 02:05

203-常见的数据处理方式

本系列文章列举了AIStudio3.0环境中可视化模式下的常用数据处理方式

小伙伴们可以在评论区发你们想了解的其他数据处理方式,我们会在本文持续更新

更新时间:2024-05-22 09:37

算子转换问题

group_sum(date,where(price_limit_status_03,1,0))/mean(group_sum(date,where(price_limit_status_03,1,0)),180),请问这个算子怎么转成新版的sql

更新时间:2024-05-22 03:34

DNN算法实现股票预测

新版本暂无深度学习可视化模块

导语

在阅读了 深度学习的简要介绍后,本文将介绍深度学习DNN模型及其在量化投资领域中的应用。

深度学习在量化领域的应用

机器学习作为人工智能的核心,其传统算法在解决很多问题上都表现出了高效性。随着近些年数据处理技术上的进步和计算能力的提升,深度学习得以在很多问题上也大放光彩,成为近一段时间互联网、金融等领域的大热门。

在量化投资领域,机器学习尤其是由统计学延伸的各种算法一直以来都被尝试应用在选股、择时等策略的开发上,随着深度学习在其他领域上的突破,其在自动化交易甚至投资策略的自开发自

更新时间:2024-05-21 07:27

numpy和pandas的区别关系及作用

Numpy(Numerical Python)和Pandas两个库是Python编程语言中两个极其重要的库,尤其在数据科学、金融分析和量化投资领域。尽管它们在处理数据方面有所重叠,但各自设计的初衷和优势领域有所不同。

Numpy简介

  • 核心功能:Numpy是一个开源的Python库,用于科学计算。它提供了一个高性能的多维数组对象和这些数组的操作工具。
  • 设计初衷:为数学运算、尤

更新时间:2024-05-20 02:35

Pandas使用小技巧


https://bigquant.com/experimentshare/1e185519774149e6803c36f1e6ecb1e6

\

更新时间:2024-05-20 02:34

Numpy使用入门

\

更新时间:2024-05-20 02:32

Pandas使用入门

\

更新时间:2024-05-20 02:32

分页第1页第2页第3页第4页
{link}