数据处理

数据处理在金融领域中占据核心地位,它是将原始数据转化为有价值信息的关键环节。在金融行业,数据不仅是数字的简单堆砌,更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略,并加强风险管理。在大数据时代,金融机构不仅需要收集和存储海量的数据,更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步,如人工智能和机器学习,使得金融企业能够更准确地预测未来市场动向,为客户提供个性化服务,以及自动化和优化内部运营。因此,对于金融行业来说,掌握先进的数据处理技术并将其应用于实践,是保持竞争优势和实现持续增长的关键。

构建行业中性化哑变量矩阵时,1月数据,跑10分钟都跑不出来原因是?

#提取一级行业,可以获得5000多只股票的行业列表。

sql ='''
select *
from cn_stock_industry_component
where date between '2023-0-01' and '2023-01-07'
'''
import dai
ww = dai.query(sql).df()
www_uni = ww.drop_duplicates(subset='instrument')

www_uni

#获取cn_stock_bar1d表数据

sql = '''
select *

更新时间:2024-01-12 02:31

这代码中的DELAY 的函数 是什么意思

OPEN/DELAY(CLOSE,1)-1 这代码中的DELAY 的函数 是什么意思

更新时间:2023-12-15 02:22

请问DELAY 这个函数是什么意思

OPEN/DELAY(CLOSE,1)-1   这个函数中DELAY 是什么意思

\

更新时间:2023-12-14 07:32

多元回归模型

请教一下,用1000多个股票一年的收益率数据和20个因子做多元回归模型,这里有多只股票和多个日期,应该要怎么处理呢?如何预测股票收益率?

更新时间:2023-11-27 06:10

因子构建

因子构建步骤:

  1. 理论推导:根据投资哲学和市场观察来定义因子。例如,价值、动量、质量等。
  2. 数据获取:获取原始数据
  3. 数据处理:对因子数据进行清洗、填充缺失值、处理极值等。
  4. 因子计算:根据公式计算因子值
  5. 单因子分析:进行分层回测、IC分析、回归分析
  6. 加权合成:使用多个因子,需要决定每个因子的权重,将多个因子按照权重合成一个综合因子。
  7. 因子回测:使用历史数据测试因子的有效性。
  8. 因子优化:根据回测结果对因子进行优化,比如:组合优化。

\

因子定义

金融学理论:

  • 投资理论
  • 行为金融学

基本面因子 —— QMJ因子

QMJ因

更新时间:2023-11-16 09:44

读分钟数据很容易导致内存溢出

就读几天的分钟数据,我用8G的FAI或者用2C/8G AI Studio就把内存读爆了。是不是读数据有啥BUG?

代码如下:

import dai

dayStart = "2022-12-22" dayEnd = "2023-12-31" sql = f"""FROM cn_stock_bar1m WHERE date >= '{dayStart} 09:30:00' AND date <= '{dayEnd} 15:00:00'""" df = dai.query(sql).df()



\

更新时间:2023-10-09 08:26

高频因子抽取到日频报错

https://bigquant.com/wiki/doc/tezheng-ri-xIjPe1UFMu

这个例子程序也一直报错

更新时间:2023-10-09 07:10

为什么LightGBM不能输出特征重要性

后面会报错

https://bigquant.com/experimentshare/16f3f6c7fa904475ac8a131e2345ab0a

\

更新时间:2023-10-09 06:22

排序出错——csv

https://bigquant.com/experimentshare/d242d0c6c6a242c1ad2ad3cc11678891

\

更新时间:2023-10-09 03:43

新手编写代码回测遇到问题

{w:100} {w:100}

更新时间:2023-10-09 03:41

输入特征列表中,表达式引擎构建新因子报错。

{w:100} {w:100} {w:100}

更新时间:2023-10-09 03:29

因子分析快速回测模块无法正常运行

一直有类似的错误,应该是该模块的代码有一些问题,需要查看一下

更新时间:2023-10-09 02:27

可视化策略是不是无法使用申万一二三级指数层面的分析?

用可视化策略是不是只能分析股票的相关数据?比如我要分析行业,分析申万一级的电子行业的换手率历史数据是不是没有办法做到?如果可以的话麻烦说一下具体的方法!

更新时间:2023-10-09 02:27

因子中含有特殊字符?

stock_ranker 模型会报错, xgboost不会

更新时间:2023-10-09 02:26

双数据源合并报错KeyError: 'date'

只能请各位大佬帮忙看看了,谢谢

https://bigquant.com/codeshare/57441371-b673-46db-922e-8c1e63d60b0e

\

更新时间:2023-10-09 02:08

.sql中的dai.DataSoure 怎样读取里面的内容

想用纯代码模式改写下SR DAI版本的模板,但是不知道这处传进去的数据应该是什么格式

更新时间:2023-10-09 02:06

量化投资从哪里获取数据

数据的重要性

巧妇难为无米之炊

数据是基础,是量化研究的一个关键环节,没有数据,量化就是无源之水,无根之木。所以,数据必须有。

垃圾进垃圾出

数据分析领域有一个名言,“Garbage in, Garbage out”,如果我们在模型里面,输入的数据有很多细节没有处理好,我们模型计算出来的结果,甚至有可能南辕北辙,模型的可信度大大降低。所以,数据要尽可能精确。

如何选择一个好的数据源?

免费 or 收费?

这是一个利弊权衡取舍的问题。这个世界上,不存在完全免费的东西,任何看似免费的东西,都是在以另一种方式收费。市场上的很多数据生产商,也必然遵

更新时间:2023-06-14 03:02

【量化基础】R语言获取金融数据之quantmod包

说在前面

在量化交易中,第一步也是最基础的一步就是获得数据,因为只有获得数据之后我们才能对我们的策略进行回测,进而判断该策略是否有盈利空间。

获得了数据之后,我们通常使用R、python等语言对数据进行处理。这其中往往会涉及格式整理、数据读取等步骤。于是我们想,如果可以直接通过R或python获取数据,就省去了很多麻烦,而R中的quantmod和python中的tushare正好可以实现这一目的,我将分两篇文章分别介绍一下这两个常用的工具吧。

这篇文章我们将如何使用R获取金融数据,我们经常使用的是大名鼎鼎的quantmod包。该包功能强大且简单便捷。下面我们通过一个例子进行

更新时间:2023-06-14 03:02

机器学习做CTA的一些注意事项

现在机器学习方法大行其道,很多人也想用这些方法来做CTA,我自己也做了一段时间,高频低频都有,觉得有些地方需要注意一下。

首先是数据处理方面。传统的量化交易系统喜欢主力连续合约或指数合约,其实最关键的是换月部分的处理。如果是主力连续,那么换月时计算指标回看行情的时候可能会用到不同的合约,这当然是不大合理的;如果用指数合约,其实更不靠谱,毕竟很多非主力合约买卖价差非常大,价格跳跃严重,而且换月部分还是用了不同的合约。靠谱一些的方法自然是每个合约都保存完整的行情,分别计算完技术指标,再抽取主力部分形成连续合约;而不是先生成连续合约再计算指标。

有了数据之后就是建模了。如果是分笔数据,5

更新时间:2023-06-14 03:02

重磅干货-史上最全推荐系统资源分享

软件即服务类推荐系统

SaaS推荐系统在开发过程中遇到很多挑战,比如必须处理多租户(multi-tenancy),存储和处理大量数据以及其他软件相关的问题,如在远程服务器上保护客户敏感数据的安全。

使用SaaS推荐系统的好处是,可以以较低的开销来获取价值,而不需要大量的前期投入,它们通常具有明确的集成方式提供给用户使用,并且在使用它时,可以对其进行开发和改进。

SaaS推荐系统有:

SuggestGrid:改进自Rcmmndr。SuggestGrid是一个通用推荐系统。它基于Apache Spark,但有很多改进。

Peerius:一个封闭的、专注于产品和电子

更新时间:2023-06-14 03:02

TensorFlow系列



\

更新时间:2023-06-14 03:02

独家 | 搭建入门级高频交易系统(架构细节分享)

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1000' height='400'></svg>)

本期作者:Gonçalo Abreu

本期编译:1+1=6

前言

在过去的几个月里,我们花费了很多时间构建属于自己的入门级高频交易系统。由于我们将学习机器学习应用金融领域已经

更新时间:2023-06-14 03:02

[AFML] 读书笔记 (一)金融数据的特殊结构

在对金融数据进行分析时,我们往往更希望使用原始的非结构化数据。在对非结构化数据进行处理的过程中,更有机会发现竞争对手所不知道的特征。


金融数据的种类

![](data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='776' height='274'></svg>)

  1. *基本

更新时间:2023-06-14 03:02

压箱底的一段话:关于量化交易

下面这段话是我刚接触量化交易时导师回复我的,背景就是我请教导师如何学习量化交易,导师从美国对冲基金归国一直在国内做高频交易。PS:大概一个月没更新,下面几段话应该值回大家关注这个专栏。

关于量化其实不要神话了,就是对数据的处理,和内在规律性的探索。


工具上matlab,C++这样的能学多少学多少,行情数据都有,自己就可以来跑一些时间序列的模型,验证下是不是有规律可以发掘,比如有没有长期稳定的协整关系,这个一般是用来做pairs trading任何来自数据的规律都能转换为交易策略。

但是一旦过了工具关,能顺手的玩数据了,就要进入思想关了,这个关每个人必须自己来突破,所谓思想就是怎么

更新时间:2023-06-14 03:02

【Alpha-Nebula】微博情绪能否预测中国股票市场?

首先,欢迎大家关注我们的专栏:Alpha-Nebula,这次讲述的paper是“Can Online Emotions Predict the Stock Market in China?”,在这篇文章里,作者探寻了微博情绪与股票市场的价格波动之间的关系。

数据处理

  1. 首先,由于作者观察到非交易日的微博数据明显减少,故而作者移除了非交易日的微博舆情数据。
  2. 其次,作者之前在2012年发表过一篇paper:Zhao, J., Dong, L., Wu, J., Xu, K.: Mood

更新时间:2023-06-14 03:02

分页第1页第2页第3页第4页