数据清洗

从金融角度看,数据清洗是一个至关重要的环节,它涉及到对原始数据进行核查、校验、修正和标准化,以确保数据的质量和准确性。在金融领域,数据的准确性和完整性对于风险管理、投资决策以及监管报告等都具有决定性意义。通过有效的数据清洗,金融机构能够提高数据分析的效率,降低因数据错误导致的决策风险,进而在竞争激烈的市场中保持领先地位。此外,随着金融科技的不断发展,自动化和智能化的数据清洗工具也在不断涌现,它们能够大幅提升数据处理的速度和准确性,为金融机构提供更加可靠的数据支撑。

AI可视化的数据清洗

AI可视化的因子特征数据清洗

清洗流程

大部分的金工报告中第一步都是提取因子数据,随后就是对这些因子特征数据的清洗。以华泰证券的金工报告为例,数据清洗的标准流程大概包括:

  • 缺失值处理(删除或者用行业均值填充)
  • 因子异常值处理(固定比例法、均值标准差法、MAD法)
  • 行业市值中性化处理(将因子暴露以行业哑变量和市值为变量做线性回归,抽取截距项)
  • PCA分析

清洗的目的是使得因子数据摆脱异常值、行业、市值和多重共线性的影响。

特征因子数据清洗模块

def bigquant_run(input_1, input_2, input_3):

#

更新时间:2024-06-11 03:29

因子构建

9月24日Meetup 模板案例:

策略案例

https://bigquant.com/experimentshare/51adf36b114f4563b853329db07b3595

\

更新时间:2024-06-07 10:55

62nd Meetup

数据因子:

  • 如何用可视化的方式提取自己构造入库的因子,提取后需要特征抽取吗?
  • 如何在可视化模块中读取csv数据表中的数据?
  • 什么时候需要用到基础/衍生特征抽取?
  • 如何在双均线策略上增加收入增长,上市时间大于1年,小于5年的筛选因子?
  • 如何确保数据准确性和完整性,如何清洗数据?


策略优化:

  • 量化策略真的有效吗?
  • 如何获取有效的策略?
  • 验证策略需要自己搭建平台还是使用开源的?
  • 是否需要自己部署程序,还是可以在平台建立量化策略,哪种方式比较好?
  • 如何找到价格在年均线底部的股票?
  • 如何筛选月内涨幅大于10%,小于30%的股票?

更新时间:2024-06-07 10:55

构建日历周线级别因子

https://bigquant.com/experimentshare/f5061810f6e34b71ad59641c2f54e290

\

更新时间:2024-06-07 10:55

【历史文档】大家帮我看看是咋回事,回测数据交易有问题

本帖内容对应旧版平台与旧版资源,其内容不再适合最新版平台

https://bigquant.com/experimentshare/fd3f21c915964e5b8800b41fe1314ec9

\

更新时间:2024-05-20 08:29

Pandas使用小技巧


https://bigquant.com/experimentshare/1e185519774149e6803c36f1e6ecb1e6

\

更新时间:2024-05-20 02:34

使用sklearn进行数据预处理

https://bigquant.com/experimentshare/fa4b0df66251484196ca7588a9505f75

\

更新时间:2024-05-20 02:09

分钟数据获取

策略案例

AIStudio3.0.0分钟数据获取请转移至:

https://bigquant.com/wiki/doc/5yig6zkf5pww5o2u6i635yw-6fK4a8ZOZx

[https://bigquant.com/experimentshare/893162aea1dc4c4f953f670293646709](https://bigquant.com/experimentshare/893162aea1dc4c4f953f6

更新时间:2024-05-17 01:13

【历史文档】高阶技巧-计算个股连板数量

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-16 03:40

【历史文档】算子样例-策略绩效评价

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-15 07:51

【历史文档】因子构建与标注样例-构建大盘收益率因子

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间:2024-05-15 06:34

分钟数据周期转换与分时策略构建

导语

很多朋友都在尝试使用平台的分钟数据,下面介绍一下分钟数据的读取与分时策略的构建。

分钟数据的读取

  • 股票分钟数据,以000001.SZA为例:
df1 = DataSource('bar1m_000001.SZA').\
            read(start_date='2015-01-01',end_date='2015-05-01').set_index('date')

更新时间:2024-05-15 02:10

训练过程中报错,请问该怎么解决

https://bigquant.com/codeshare/10296b06-11cf-475f-80e7-81b7f0fbc5d5

\

更新时间:2023-11-27 06:17

如何把次日开盘数据加入策略?

如何把次日开盘数据加入策略?比如竞价金额,竞价成交量。开盘涨幅。

更新时间:2023-10-17 01:36

请问交易软件上看到的行业K线数据如何获取

比如991344游戏行业,指数里面没看到有这个

更新时间:2023-10-09 06:34

如何优化策略?

请问:

比如,我开发一个策略,回测两年时间,前一年的表现很好,后一年的表现很差,那么该如何优化让策略长期表现一致呢?

谢谢

更新时间:2023-10-09 06:03

排序出错——csv

https://bigquant.com/experimentshare/d242d0c6c6a242c1ad2ad3cc11678891

\

更新时间:2023-10-09 03:43

请问如何构建消息类因子?

消息在股票交易中有很大的影响力,如果没有对消息的处理会导致策略经常中雷,怎么办呢?

更新时间:2023-10-09 03:28

平台给的模版高频因子抽取报错

https://bigquant.com/experimentshare/5c62736dd4bb44c9a4831181e1a00868

{w:100}

更新时间:2023-10-09 02:53

日历效应实现——回测模块

https://bigquant.com/codeshare/108f8f5f-14e7-4a73-ba80-d9daa1f4f87d

\

更新时间:2023-10-09 02:36

金工多因子平台介绍-长江证券-20161221

摘要

个股的因子暴露度从数据库中因子的值(如PE、PB的值),然后进行清洗数据、正态化等操作

投资组合的因子暴露度纯因子组合的收益(以第m个因子为例)“加权平均值”

纯因子组合“加权平均值”对某个因子暴露度为1,其余为0

纯因子组合的收益(以第m个因子为例)

正文

/wiki/static/upload/58/5831f59e-851b-48c2-88b7-ba9de653eb2b.pdf

\

更新时间:2023-06-01 14:28

双均线基金策略-股票日频

https://bigquant.com/experimentshare/5277de40609d4fffa7bbe6df2e5b1231

\

更新时间:2023-06-01 06:18

ZScoreNorm标准化后输出全为空值?

问题

问题描述

ZScoreNorm标准化后输出全为空值?

问题策略

https://bigquant.com/experimentshare/e91b4eed4f534753a3692800f33a4737

\

更新时间:2023-06-01 02:13

主板的分时数据如何导入

问题

主板的分时数据如何导入

更新时间:2023-06-01 02:13

数据清洗(预处理)v53如何进行行业中性化

问题

请问数据清洗(预处理)v53如何进行行业中性化?我直接将行业特征送入该模块,模块显示下列错误:

<ERROR: moduleinvoker: module name: dataclean, module version: v53, trackeback: ValueError: Grouper for 'industry_sw_level1_0' not 1-dimensional>

解答

数据清洗(预处理)v53 该模块是用户分享模块,看不到源码的哈。

建议使用平台上 “因子分析” 模块,里面可以进行行业中性化处理


![{w:100}{w:100}](

更新时间:2023-06-01 02:13

分页第1页第2页
{link}