pandas

"Pandas" 是金融科技领域的关键工具之一。它是一个强大的Python数据处理库,特别适用于金融数据分析、清洗和预处理。其DataFrame和Series数据结构能够高效地处理时间序列数据,如股票价格、交易量和财务指标等。通过Pandas,金融分析师可以快速进行数据切片、聚合、转换和可视化,进而洞察市场趋势,评估投资风险,并做出更明智的金融决策。

numpy和pandas的区别关系及作用

Numpy(Numerical Python)和Pandas两个库是Python编程语言中两个极其重要的库,尤其在数据科学、金融分析和量化投资领域。尽管它们在处理数据方面有所重叠,但各自设计的初衷和优势领域有所不同。

Numpy简介

  • 核心功能:Numpy是一个开源的Python库,用于科学计算。它提供了一个高性能的多维数组对象和这些数组的操作工具。
  • 设计初衷:为数学运算、尤

更新时间:2024-05-20 02:35

Pandas库之数据处理与规整

旧版声明

本文为旧版实现,仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU


下列代码在读取数据时,使用最新dai.query接口即可。

数据读取

\

导语

本文继续讲解Pandas库在数据分析和处理上的一些应用。

[https://b

更新时间:2024-05-20 02:34

Pandas使用小技巧


https://bigquant.com/experimentshare/1e185519774149e6803c36f1e6ecb1e6

\

更新时间:2024-05-20 02:34

Pandas基础操作技能get! 强烈推荐!

旧版声明

本文为旧版实现,仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU


下列代码在读取数据时,使用最新dai.query接口即可。

数据读取

\

策略案例

[https://bigquant.com/experimentshare/

更新时间:2024-05-20 02:34

10分钟学会Pandas

10分钟学会Pandas

Pandas最初被作为金融数据分析工具而开发出来,在金融领域被广泛使用。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具、函数和方法。

本文是针对pandas新手的快速入门学习指南。你可以在 AI量化平台-编写策略 里,一步一步的学习和实践。

# 导入库
import pandas as pd
import numpy as np

Pandas数据结构

主要数据结构:Series和DataFrame,Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(即

更新时间:2024-05-20 02:33

Pandas查看和选择

导语

本节主要讲解Pandas库中 DataFrame 的数据查看与选择


Pandas 是基于 Numpy 构建的,让以 Numpy 为中心的应用变得更加简单。平台获取的数据主要是以 Pandas 中DataFrame 的形式。除此之外,Pandas 还包括 一维数组Series 以及三维的Panel。

Pandas中获取数据的方式

下面将进行详细介绍:

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相

更新时间:2024-05-17 02:12

在终端里pip install安装了新包,导致更新了pandas的版本。如何重置为平台初始的版本?

如何恢复平台初始时安装的各个包的版本?

更新时间:2024-02-21 03:59

性能告警cannot map directly to c-types

请问:在回测时报性能告警,是什么原因,如何避免?

/usr/local/python3/lib/python3.8/site-packages/pandas/core/generic.py:2605: PerformanceWarning:

your performance may suffer as PyTables will pickle object types that it cannot

map directly to c-types [inferred_type->mixed,key->block3_values] [items->Index(['instrument

更新时间:2024-01-16 09:57

新版的stockranker DAI如何固化模型

如结果为m5.stockRanker(DAI)

用m5.model获取DataSource

import pandas as pd
pd.DataFrame([DataSource("datasource的name").read()]).to_pickle('/home/bigquant/work/userlib/model.csv') 

再在自定义python模块中输入以下内容是吗

def bigquant_run(input_1, input_2, input_3):
    data = pd.read_pickle('/home/

更新时间:2024-01-11 07:52

提交任务报错:ValueError: NaTType does not support strftime

执行不报错,但是提交任务报错。麻烦工程师小哥看一下什么问题 ?

https://bigquant.com/codeshare/222f36b9-2f22-48aa-88b6-04d9791ec1d7



![](/wiki/api/attachments.redirect?id=18621c

更新时间:2023-12-22 07:02

pandas 的排序问题

问题

pandas 的排序问题,用了排序函数后仍然是乱序 排序函数在m14中,有问题的是对double_low 排序

https://bigquant.com/experimentshare/dd75a98a618044a9ae97fee56dd56f5e

解答

{w:100}

更新时间:2023-10-09 07:41

求问pandas第二表哪儿出现问题

问题

第二个表格生成后,没有

df[(df['price_limit_status']>2)].head(1000) #

选择满足条件的信息的过滤条件了,用那个合并符号试过,但是结果都是显示无效,求帮忙指出如何编辑才能让第二表的两个条件都能实现!

策略

https://bigquant.com/experimentshare/f6b17a8be07f4bd18e930db0167a593d

\

更新时间:2023-10-09 07:39

NaTType does not support strftime

根据视频4.1.3可视化模块操作,提示这个报错,对于表字段的提取,应该最后加什么模块来展现或者输出数据呢?

{w:100}

更新时间:2023-10-09 07:22

WorldQuant Alpha101因子 附录四:对Alpha101因子的因子分析示例(以Alpha#100为例)

Step 1 导入相关包

import pandas as pd 
import numpy as np
import warnings
import empyrical
import dai
import bigcharts
warnings.filterwarnings('ignore')
from biglearning.api import tools as T
print('导入包完成!')

Step 2 读取因子数据、设置因子分析参数并进行因子数据预处理

params = {'gr

更新时间:2023-08-21 11:08

pandas库读取csv文件

很高兴能给大家分享我学python的经历,今晚的直播很感动。自己在直播前准备还是不够充分,导致讲课后半部分很没逻辑。但大家都很鼓励我,让我很感动。现在先附上大家的鼓励,永远留作纪念。

![](data:image/svg+xml;utf8,<svg%20xmlns='[http://www.w3.org/2000/svg' width='368' height='529](http://www.w3.

更新时间:2023-06-14 03:02

Python-pandas模块Series(1)

1.前言


seriesn. 系列,连续;[电] 串联;级数;丛书

在介绍series之前,需要说一说它和pandas之间的关系。其实很好理解,pandas模块中有两个主要的数据结构:

  1. Series一种类似一维数组的数据结构;
  2. DataFrame一个表格型的数据结构。(后面会介绍他)

虽然它们并不能解决所有的问题,但是他们为大多数的应用提供了一种可靠的、易于使用的基础。

2.Series

Series是一种类似于一维数组的对象,它由一组数据(他的类型可以是任意的numpy数据类型)还有一组与之相关的数据标签(即索引)组成

更新时间:2023-06-14 03:02

Python数据处理:关于Pandas你需要知道的都在这里了

使用Python 处理数据 数据整理是数据科学研究流程中的一个重要步骤。本文要介绍的pandas就是一个广受欢迎的数据整理库。这个应用最早基于NumPy开发,那么NumPy又是什么东西?NumPy其实是Python里进行数学计算的基础工具。Pandas库提供了快速、简捷、易懂的数据结构,简化了数据整理步骤。

然而,pandas简捷的数据结构并不是那么容易上手。正因为pandas数据结构比较简洁,所以许多常用的功能放置只能被在其他的函数当中。将这些极其常用的功能和数据本身进行了分离,这就是pandas刚开始不那么容易上手的原因。对新手来说,需要找到一个好的学习的切入点。现在市面上有许多

更新时间:2023-06-14 03:02

时间序列数据处理

基础知识

时间序列(time series)数据是一种重要的结构化数据形式。在多个时间点观察或测量的任何事物都可以形成一段时间序列。

时间序列的处理对经济、金融数据尤为重要。

在pandas中的数据结构

  • 时间戳(timestamp):特定的时刻(时间点)
  • 固定时期(period):如2007年1月或2008年全年
  • 时间间隔(interval):由起始和结束的时间戳表示,period可看作interval的特例。

最简单和常用的时间序列是用时间戳进行索引。

——时间序列在pandas中,一般泛指以时间列作为索引的数据集。


更新时间:2023-06-14 03:02

【金融数据处理Tricks】3. Dask

众所周知,用pandas做循环的速度是非常感人的,在数据量一大的情况之下,即使使用iterrows等自带的loop方式,依然有很大的计算成本。

在这种情况下,有几种可能的解决办法,第一种方法是尽量使用pandas的内置函数,比如rolling等,第二种方法则是可以讲dataframe转化为numpy的array或者list之后再利用lambda或其他函数进行处理。最后一种方法则是这篇文章的重点,主要是关于如何对dataframe进行多线程操作。

今天我们主要介绍Dask,一个专门用来做大数据存储读取以及并行计算的库,可以提升numpy, pandas, sklearn这些库的运行效率,官方

更新时间:2023-06-14 03:02

【金融数据处理Tricks】1. Resample

最近时间稍微充裕,笔者便想着趁此机会总结一些量化分析中遇到的一些实际问题与处理方法,而工具则主围绕着pandas这个金融数据处理利器package,这次我想先说说resample的功效。

首先让我们来看一个dataframe,这个dataframe很简单,index是时间,columns是price和volume:

可以看到该dataframe的时间分布式不均匀的,然而很多统计分析建模都是需要时间均匀间

更新时间:2023-06-14 03:02

嘿,关于 Python 数据分析,我想对你说几句

这是一篇关于《利用 Python 进行数据分析》的读后感(确切说我还有两章多一点没看完),以及一些关于 Python 入门和进阶的东西。

六月底的时候在专栏说,也许七月份会写一些东西,但是整个七月份都一直没有特意去做这样一件事。这是因为最近一直在看《利用 Python 进行数据分析》,还剩下一部分没看完。我想说,这确实是一本好书,值得一看,甚至是反复看。全书正文 400 页,逐步介绍了 NumPy、pandas、matplotlib 三个库的使用,配合了大量实际例子;另外有附录 50 页,是一份非常精简的 Python 语法介绍。全书翻译非常专业,其中关于 pandas 和 matplotl

更新时间:2023-06-14 03:02

KeyError: "None of [Index(['relative_ret_30', 'relative_ret_5', 'relative_ret'], dtype='object')] a

问题

问题描述

KeyError: "None of [Index(['relative_ret_30', 'relative_ret_5', 'relative_ret'], dtype='object')] a,怎么解决

问题策略

https://bigquant.com/experimentshare/45b6df2e1f684bc69fde21a5985f0f63

\

更新时间:2023-06-01 14:26

报错:'NoneType' object is not subscriptable

克隆了原来的 【研究】隐马尔科夫模型(HMM)的择时应用 只是在原来的基础上调整了取数的周期,策略代码如下:

from hmmlearn.hmm import GaussianHMM import datetime import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from matplotlib import cm from matplotlib import pyplot

读取沪深300历史数据

df = DataSource('bar1d_C

更新时间:2023-06-01 02:13

pandas怎么实现两个条件同时生效

问题

在看了平台好几篇pandas的文章,想问下,两个条子同时生效要怎么做?不是合并这一类的,就是单纯的两个条件同时起作用,例如文章里面的出现的两个

#列名修改

df_test = df[:6] #取局部数据作练习 df_test.columns = ['列%s' % str(i) for i in range(1,len(df_test.columns)+1)]

#更改所有的列名 df_test

#数据过滤

df[(df['fs_roe']>1) & (df['company_type'] != '地方国有企业')].head()

#选择满足多种条件的

更新时间:2023-06-01 02:13

ValueError: cannot reindex from a duplicate axis

问题

问题描述

<ValueError: cannot reindex from a duplicate axis>,如何解决

问题截图

{w:100}{w:100} {w:100}{w:100}

更新时间:2023-06-01 02:13

分页第1页第2页