Numpy(Numerical Python)和Pandas两个库是Python编程语言中两个极其重要的库,尤其在数据科学、金融分析和量化投资领域。尽管它们在处理数据方面有所重叠,但各自设计的初衷和优势领域有所不同。
更新时间:2024-05-20 02:35
本文为旧版实现,仅供学习参考。
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
下列代码在读取数据时,使用最新dai.query接口即可。
\
本文继续讲解Pandas库在数据分析和处理上的一些应用。
[https://b
更新时间:2024-05-20 02:34
更新时间:2024-05-20 02:34
本文为旧版实现,仅供学习参考。
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
下列代码在读取数据时,使用最新dai.query接口即可。
\
[https://bigquant.com/experimentshare/
更新时间:2024-05-20 02:34
Pandas最初被作为金融数据分析工具而开发出来,在金融领域被广泛使用。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具、函数和方法。
本文是针对pandas新手的快速入门学习指南。你可以在 AI量化平台-编写策略 里,一步一步的学习和实践。
# 导入库
import pandas as pd
import numpy as np
主要数据结构:Series和DataFrame,Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(即
更新时间:2024-05-20 02:33
本节主要讲解Pandas库中 DataFrame 的数据查看与选择
Pandas 是基于 Numpy 构建的,让以 Numpy 为中心的应用变得更加简单。平台获取的数据主要是以 Pandas 中DataFrame 的形式。除此之外,Pandas 还包括 一维数组Series 以及三维的Panel。
下面将进行详细介绍:
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相
更新时间:2024-05-17 02:12
如何恢复平台初始时安装的各个包的版本?
更新时间:2024-02-21 03:59
请问:在回测时报性能告警,是什么原因,如何避免?
/usr/local/python3/lib/python3.8/site-packages/pandas/core/generic.py:2605: PerformanceWarning:
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block3_values] [items->Index(['instrument
更新时间:2024-01-16 09:57
如结果为m5.stockRanker(DAI)
用m5.model获取DataSource
import pandas as pd
pd.DataFrame([DataSource("datasource的name").read()]).to_pickle('/home/bigquant/work/userlib/model.csv')
再在自定义python模块中输入以下内容是吗
def bigquant_run(input_1, input_2, input_3):
data = pd.read_pickle('/home/
更新时间:2024-01-11 07:52
执行不报错,但是提交任务报错。麻烦工程师小哥看一下什么问题 ?
https://bigquant.com/codeshare/222f36b9-2f22-48aa-88b6-04d9791ec1d7
![](/wiki/api/attachments.redirect?id=18621c
更新时间:2023-12-22 07:02
pandas 的排序问题,用了排序函数后仍然是乱序 排序函数在m14中,有问题的是对double_low 排序
https://bigquant.com/experimentshare/dd75a98a618044a9ae97fee56dd56f5e
更新时间:2023-10-09 07:41
第二个表格生成后,没有
df[(df['price_limit_status']>2)].head(1000) #
选择满足条件的信息的过滤条件了,用那个合并符号试过,但是结果都是显示无效,求帮忙指出如何编辑才能让第二表的两个条件都能实现!
https://bigquant.com/experimentshare/f6b17a8be07f4bd18e930db0167a593d
\
更新时间:2023-10-09 07:39
根据视频4.1.3可视化模块操作,提示这个报错,对于表字段的提取,应该最后加什么模块来展现或者输出数据呢?
更新时间:2023-10-09 07:22
import pandas as pd
import numpy as np
import warnings
import empyrical
import dai
import bigcharts
warnings.filterwarnings('ignore')
from biglearning.api import tools as T
print('导入包完成!')
params = {'gr
更新时间:2023-08-21 11:08
很高兴能给大家分享我学python的经历,今晚的直播很感动。自己在直播前准备还是不够充分,导致讲课后半部分很没逻辑。但大家都很鼓励我,让我很感动。现在先附上大家的鼓励,永远留作纪念。
![](data:image/svg+xml;utf8,<svg%20xmlns='[http://www.w3.org/2000/svg' width='368' height='529](http://www.w3.
更新时间:2023-06-14 03:02
seriesn. 系列,连续;[电] 串联;级数;丛书
在介绍series之前,需要说一说它和pandas之间的关系。其实很好理解,pandas模块中有两个主要的数据结构:
虽然它们并不能解决所有的问题,但是他们为大多数的应用提供了一种可靠的、易于使用的基础。
Series是一种类似于一维数组的对象,它由一组数据(他的类型可以是任意的numpy数据类型)还有一组与之相关的数据标签(即索引)组成
更新时间:2023-06-14 03:02
使用Python 处理数据 数据整理是数据科学研究流程中的一个重要步骤。本文要介绍的pandas就是一个广受欢迎的数据整理库。这个应用最早基于NumPy开发,那么NumPy又是什么东西?NumPy其实是Python里进行数学计算的基础工具。Pandas库提供了快速、简捷、易懂的数据结构,简化了数据整理步骤。
然而,pandas简捷的数据结构并不是那么容易上手。正因为pandas数据结构比较简洁,所以许多常用的功能放置只能被在其他的函数当中。将这些极其常用的功能和数据本身进行了分离,这就是pandas刚开始不那么容易上手的原因。对新手来说,需要找到一个好的学习的切入点。现在市面上有许多
更新时间:2023-06-14 03:02
时间序列(time series)数据是一种重要的结构化数据形式。在多个时间点观察或测量的任何事物都可以形成一段时间序列。
时间序列的处理对经济、金融数据尤为重要。
在pandas中的数据结构
最简单和常用的时间序列是用时间戳进行索引。
——时间序列在pandas中,一般泛指以时间列作为索引的数据集。
更新时间:2023-06-14 03:02
众所周知,用pandas做循环的速度是非常感人的,在数据量一大的情况之下,即使使用iterrows等自带的loop方式,依然有很大的计算成本。
在这种情况下,有几种可能的解决办法,第一种方法是尽量使用pandas的内置函数,比如rolling等,第二种方法则是可以讲dataframe转化为numpy的array或者list之后再利用lambda或其他函数进行处理。最后一种方法则是这篇文章的重点,主要是关于如何对dataframe进行多线程操作。
今天我们主要介绍Dask,一个专门用来做大数据存储读取以及并行计算的库,可以提升numpy, pandas, sklearn这些库的运行效率,官方
更新时间:2023-06-14 03:02
最近时间稍微充裕,笔者便想着趁此机会总结一些量化分析中遇到的一些实际问题与处理方法,而工具则主围绕着pandas这个金融数据处理利器package,这次我想先说说resample的功效。
首先让我们来看一个dataframe,这个dataframe很简单,index是时间,columns是price和volume:
可以看到该dataframe的时间分布式不均匀的,然而很多统计分析建模都是需要时间均匀间
更新时间:2023-06-14 03:02
这是一篇关于《利用 Python 进行数据分析》的读后感(确切说我还有两章多一点没看完),以及一些关于 Python 入门和进阶的东西。
六月底的时候在专栏说,也许七月份会写一些东西,但是整个七月份都一直没有特意去做这样一件事。这是因为最近一直在看《利用 Python 进行数据分析》,还剩下一部分没看完。我想说,这确实是一本好书,值得一看,甚至是反复看。全书正文 400 页,逐步介绍了 NumPy、pandas、matplotlib 三个库的使用,配合了大量实际例子;另外有附录 50 页,是一份非常精简的 Python 语法介绍。全书翻译非常专业,其中关于 pandas 和 matplotl
更新时间:2023-06-14 03:02
KeyError: "None of [Index(['relative_ret_30', 'relative_ret_5', 'relative_ret'], dtype='object')] a,怎么解决
https://bigquant.com/experimentshare/45b6df2e1f684bc69fde21a5985f0f63
\
更新时间:2023-06-01 14:26
克隆了原来的 【研究】隐马尔科夫模型(HMM)的择时应用 只是在原来的基础上调整了取数的周期,策略代码如下:
from hmmlearn.hmm import GaussianHMM import datetime import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from matplotlib import cm from matplotlib import pyplot
df = DataSource('bar1d_C
更新时间:2023-06-01 02:13
在看了平台好几篇pandas的文章,想问下,两个条子同时生效要怎么做?不是合并这一类的,就是单纯的两个条件同时起作用,例如文章里面的出现的两个
#列名修改
df_test = df[:6] #取局部数据作练习 df_test.columns = ['列%s' % str(i) for i in range(1,len(df_test.columns)+1)]
#更改所有的列名 df_test
#数据过滤
df[(df['fs_roe']>1) & (df['company_type'] != '地方国有企业')].head()
#选择满足多种条件的
更新时间:2023-06-01 02:13
<ValueError: cannot reindex from a duplicate axis>,如何解决
更新时间:2023-06-01 02:13