数据预处理

数据预处理在金融领域扮演着至关重要的角色。它是金融分析和模型构建的基石，直接关系到投资策略、风险控制以及市场分析等决策的质量。通过对原始数据进行清洗、转换和标准化等操作，数据预处理能够消除异常值、填补缺失数据、平滑噪声，从而使数据更加规整和一致，提高分析的准确性和可靠性。此外，数据预处理还能够将不同来源、不同格式的数据整合到一起，为后续的金融建模和量化分析提供坚实的数据基础。在竞争激烈的金融市场中，有效的数据预处理能够帮助金融机构快速洞察市场变化，做出明智的投资决策，从而获取更大的经济效益。

问题

在机器学习中策略中，数据正态分布或方形分布对训练的准确性产生重要影响吗？如果有，有什么方法处理呢？

视频

https://www.bilibili.com/video/BV1jT4y1R7wc?share_source=copy_web

更新时间：2025-12-30 06:37

深度学习在期货高频上的应用

8月19日Meetup问题模板：

https://bigquant.com/experimentshare/f58dbfb388454407b8a2b99eb14cf1ea

更新时间：2025-12-30 06:37

深度学习的特征裁剪值调整

https://bigquant.com/experimentshare/900f6943cf024d2d90f10135afcad089

值调整

更新时间：2025-12-30 06:37

预处理数据

数据预处理在众多深度学习算法中都起着重要作用，实际上，对数据进行适当处理后，很多算法能够发挥最佳效果。然而面对各种各样的数据，很多时候我们不知道怎么样才能针对性进行处理。本文介绍了Python下的机器学习工具scikit-learn。其中，“sklearn.preprocessing”模块提供了几种常见的函数和转换类，把原始的特征向量变得更适合估计器使用。

[https://bigquant.com/experimentshare/45cc0fe6c95b43848f64032bbef0a440](https://bigquant.com/experimentshare/

更新时间：2025-05-12 07:37

【指标定制】神经网络dnn模型sql标签怎么写，预测的时候总是维度不匹配，因为多了标签列

/* 使用DAI SQL为量化模型预测生成标签数据。标签反映了未来5日的收益率，并且被离散化为20个桶，每个桶代表一个收益率范围。这样，我们就可以训练模型来预测未来的收益率范围，而不仅仅是具体的收益率值。

首先定义了一个名为label_data的临时表，用于计算和存储未来5日收益率，其1%和99%分位数，以及离散化后的收益率（被分为20个桶，每个桶代表一个收益率范围）。
对未来5日收益率进行了截断处理，只保留在1%和99%分位数之间的值。
选择了标签值不为空，并且非涨跌停（未来一天的最高价不等于最低价）的数据
从这个临时表中选择了日期、股票代码和标签字段，以供进模

更新时间：2025-02-16 01:51

【平台使用】关于DQN模型错误，为什么错，怎么操作，怎么构架一个优秀的深度强化模型

https://bigquant.com/codeshare/e91330dd-e6b5-40ca-ba6a-b76050db6c40

更新时间：2025-02-16 01:27

问题

https://bigquant.com/experimentshare/3aff241f03194816912c850f1f118ab6

更新时间：2025-02-16 01:11

【其他】Tabnet如何实现分类任务

https://bigquant.com/experimentshare/75aff243f241447da1d1994ed9d29c44

如何实现分类任务啊，怎么在原有策略上修改

更新时间：2025-02-15 15:36

【平台使用】为什么高频特征抽取输出值为None?

见链接：

https://bigquant.com/experimentshare/e939e9c9a1ef43ec8f267205b530219b

更新时间：2025-02-15 14:31

策略案例

https://bigquant.com/experimentshare/a5ed3eddf32f4e4dad4811a1acc257f0

更新时间：2024-05-24 10:28

旧版声明

本文为旧版实现，仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

策略案例

[https://bigquant.com/experimentshare/42bf93884b1246ad83c2874f06765732](https://bigquant.com/experimentshare/42bf93884b12

更新时间：2024-05-20 06:39

机器学习之“无监督学习”

起源于 1901 年 Pearson 的主成分分析（PCA），通过对协方差矩阵的特征值分解或 SVD 分解，通过对特征值排序选取相应的特征向量，将高维特征映射到低维上，达到降维的目的。用于数据预处理。

1998 年，降维算法PCA首次与核方法结合，先将数据集通过核函数（Kernel Function）映射到高维空间，然后在高维特征空间中做 PCA。核 PCA 有更好的降维效果。

2000 年，始于局部线性嵌入（Locally Linear Embedding）的流形学习（Manifold Learning）引领了降维算法的新浪潮。

2008 年，t-SNE 作为非线性降维方法，可更好地

更新时间：2024-05-20 03:21

使用sklearn进行数据预处理

https://bigquant.com/experimentshare/fa4b0df66251484196ca7588a9505f75

更新时间：2024-05-20 02:09

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-17 06:42

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-16 01:52

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-15 08:18

因子库的因子怎样使用？

怎样使用因子库里的因子作为特征？

{w:100}

这个因子id没法直接使用，

{w:100} 只能复制因子的表达式使用吗？

{w:100}

更新时间：2023-06-01 14:26

请问各位大佬，如何对因子看板中的因子进行批量因子分析？

更新时间：2023-06-01 14:26

问题

运行资源充足，但总是自动重启，100%复现

https://bigquant.com/experimentshare/721a8a757c1941e3b06b628c35279ce3

解答

可能是训练集数据存在异常值导致的，对数据进行预处理，可以参考以下策略

策略

[https://bigquant.com/experimentshare/596e737dfe9b423095685612871eed

更新时间：2023-06-01 02:13

问题

预测数据前我想做个自定义筛选，策略中只是举例，但我想实现这个功能，应该怎么把DataFrame输入模型，目前的报错是

{w:100}

解答

这里需要把dataframe格式的数据转换成DataSource的类型，用如下代码就可以了。 data=DataSource.write_df(df),

更新时间：2023-06-01 02:13

问题

回归问题的标签设置

更新时间：2023-06-01 02:13

问题

例如我要在特征中加入一个因子：统计30日内收益小于5%的天数，该怎么写

解答

{w:100}

更新时间：2023-06-01 02:13

策略案例

https://bigquant.com/experimentshare/44cc116a1dad4c37983b9be35da208ee

更新时间：2022-11-20 03:34

人工智能系列之十二：人工智能选股之特征选择华泰证券_20180725_

摘要

特征选择是人工智能选股策略的重要步骤，能够提升基学习器的预测效果特征选择是机器学习数据预处理环节的重要步骤，核心思想是从全体特征中选择一组优质的子集作为输入训练集，从而提升模型的学习和预测效果。我们将特征选择方法应用于多因子选股，发现特征选择对逻辑回归_6m、基学习器的预测效果有一定提升。我们以全A股为股票池，以沪深300和中证500为基准，构建行业中性和市值中性的选股策略。基于F值和互信息的方法对于逻辑回归_6m、XGBoost_6m、基学习器的回测表现具有明显的提升效果。随着入选特征数的增加，模型预测效果先上升后下降特征个数并非越多越好。以逻辑回归_6m和XGBoost_

更新时间：2022-07-29 07:12

分页第1页第2页

数据预处理

问题

视频

预处理数据

问题

策略案例

旧版声明

策略案例

更新

更新

更新

请问各位大佬，如何对因子看板中的因子进行批量因子分析？

问题

解答

策略

问题

解答

问题

问题

解答

策略案例

摘要

请问各位大佬，如何对因子看板中的因子进行批量因子分析？