训练集

从金融角度看待“训练集”，可以将其精炼地描述为：在量化分析、风险评估或算法交易等金融科技应用中，用于“教授”或“训练”机器学习模型的一组历史或模拟金融数据。这组数据包含了多种金融变量，如价格、交易量、财务指标等，并通过特定的算法处理，使模型能够学习并识别出数据中的潜在模式，进而在未来的金融决策中提供预测或建议。训练集的质量和多样性对于模型的准确性和泛化能力至关重要。

DNN-AI选股：深度学习的学习率调整

2021年8月5日Meetup问题：深度学习的学习率在哪里可以调整，训练集和测试集的loss如何打印到一张图上，early_stop如何设置？深度学习的权值初始化方法对结果影响很大，能否做个全面介绍，CNN,lstm,mlp一般试用哪种初始化方法。lstm或者cnn后面接的mlp一般用几层为好？mlp的神经元数量一般要相较输入层扩充几倍？

[https://bigquant.com/experimentshare/c0853836ac224f7ab02c97acce9f973f](https://bigquant.com/experimentshare/c0853836ac224f7ab02

更新时间：2025-12-30 06:37

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-12-30 06:37

问题

Q3:过滤创业板和科创板的股票，是否要在训练集和预测集都进行过滤？另外，想在trade回测模块中通过编写代码实现过滤，该如何编写？

视频

https://www.bilibili.com/video/BV1aq4y1A7xK?share_source=copy_web

策略源码

如果我们不想考虑创业板和科创板的股票，那么需要在数据的训练和预测阶段都过滤。不然创业板和科创板的股票数据会影响AI模型，降低模型的准确率。

[ht

更新时间：2025-12-30 06:37

AI选股策略——综合过滤

新建一个可视化AI选股策略，如下图所示：

在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”、“过滤市场”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能；

在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”、“过滤市场”、“选取指定概念板块股”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能。

[https://bigquant.com/experimentshare/81d64826251e47d6b10cf2bea879bf38](https://bigquant.com/e

更新时间：2025-09-06 15:08

问题

请问如何搭建简单的resnet

就给我展示最小单元好了

更新时间：2025-02-16 01:14

问题

如何设置训练步长，在训练模块中没有这个选项
如何设置验证集，并打印loss、mae等，按照模板智能看训练集的

{w:100}{w:100}

验证集通过这个端口传入，构造方法和训练集一样。只需要设定开始和结束的日期。

步长可以通过

![{w:100}{w:100}](/wiki/api/attachments.redirect?id=276f2f17-0d2e

更新时间：2025-02-16 01:06

【其他】通过预测数据与真实数据的差异，进而评估出模型效果

当我们在训练集上将模型训练出来以后，可以通过在验证集上使用该模型进行预测，然后通过预测数据与真实数据的差异，进而评估出模型效果。

[details=点击查看评价标准 ]

[/details]

模型评估具体分为两步：

模型在验证集上预测，因此需要m11模块，实现GBDT算法在验证集预测

计算模型评估指标，因此需要m8和m9模块

更新时间：2025-02-15 15:42

【其他】请问一下回测的时间序列是倒序么？

遇到个不理解的，同一个AI Ranker模型，起始时间一致，结束时间不同，为啥会有这么大的差别，机器不是通过训练集训练之后就把交易模型固定了么？然后通过测试集来进行回测验证。问题是我训练集啥的参数都没变，就变动了一下测试集的终止日期。讲道理应该只是后面的日期范围内的收益率有变动。。。。看看下图，即便是多增加的两个月回测数据，至少前几个月的收益率曲线大体形状应该一致的吧。。

22年1月4日——23年2月15日{w:100}

![22年1月4

更新时间：2025-02-15 14:56

【平台使用】训练集和测试集需不需要都加入自动标注模块

{w:100} 测试集也加入自动标注模块会有什么影响吗

更新时间：2025-02-15 14:47

Machine Learning is Fun! — 全世界最简单的机器学习入门指南

你是否曾经听到过人们谈论机器学习，而你却对其含义只有一个模糊的概念呢？你是否已经厌倦了在和同事对话时只能点头呢？现在，让我们一起来改变这个现状吧！

这篇指南是为那些对机器学习感兴趣，但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条，但是读着读着倍感挫折，然后直接放弃，希望能有人给出一个更直观的解释。本文就是你们想要的东西。

本文的写作目标是让任何人都能看懂，这意味着文中有大量的概括。但是那又如何呢？只要能让读者对机器学习更感兴趣，这篇文章的任务也就完成了。

什么是机器学习？

机器学习是一种概念：不需要写任何与问题有关的特定代码，泛型算法（Gene

更新时间：2024-12-04 08:53

Word2Vec介绍：训练Skip-gram模型的python实现

1. 获取数据

首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。

我们使用shell命令获取以上文档，脚本如下：

DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR

cd $DATASETS_DIR

# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
  wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
  c

更新时间：2024-06-12 06:06

背景

机器学习的研究领域包括有监督学习（Supervised Learning），无监督学习（Unsupervised Learning），半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）等诸多内容。针对有监督学习和半监督学习，都需要一定数量的标注数据，也就是说在训练模型的时候，全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中，工作人员获得样本的成本其实是不低的，甚至在某些时候是相对较高的，那么如何通过较少成本来获得较大价值的标注数据，进一步地提升

更新时间：2024-05-20 06:19

在机器学习模型构建过程中，我们通常需要评价模型在训练集和验证集上的表现来判断模型的质量好坏，本文主要以随机森林模型为例介绍新增模型评价功能。

评价回归模型

我们以随机森林-回归模型为例，首先建立如下的模型训练可视化流程

如图所示，

通过证券代码列表模块m1指定了抽取数据为2010-01-01至2013-01-01的A股数据
通过自动标注模块m2我们计算了一个机器学习的目标，这里计算股票的未来5日收益率
通

更新时间：2024-05-15 02:10

有效因子选择

我收集了很多因子在因子分析里他的收益率和夏普率都很高，并且他们的相关系数都接近0，但把他们组合放到我的算法模型里去测试效果就不理想，有什么办法能看到这些组合因子（最好能看到每个因子在训练集和测试集正收益贡献了多少，负收益贡献了多少，可以是百分比，比如某个因子在这个模型里正收益是80%，负收益是20%，这样方便我们有钟对性的在这个模型去选择有效因子）在这个算法模型里训练集和测试集的拟合情况

更新时间：2023-06-01 14:26

模拟交易训练集可以选近XX天的滚动数据吗？

问题

模拟交易训练集可以选近XX天的滚动数据吗？

解答

可参考下这个帖子https://bigquant.com/community/t/topic/128990 5

更新时间：2023-06-01 02:13

预测股票日期有误，发布模拟交易失败

问题

预测明天股票时候显示日期2021.10.08，而且发布交易模拟盘失败

https://bigquant.com/experimentshare/c248a0a49a0c4e7e8beea08d70782f3e

解答

训练集预测集时间不能设置成一样的

更新时间：2022-12-20 14:20

分享一个计算RankIC的自定义模块

在StockRanker策略的基础上增加了一个计算RankIC的自定义模块，m22输出训练集的平均RankIC, m20输出测试集的平均RankIC。分享一下，如有问题大家多多指教。

https://bigquant.com/experimentshare/b1f45cb0a35a4a329cf6feca54d23005

更新时间：2022-11-20 03:34

回测老内核重启

问题

回测老内核重启然后就停了。是免费的缘故么？

解答

得看下策略具体是在哪个模块停止内核的，如果回测模块没有做过多改动的话，在回测阶段重启内核的概率不大，得检查下是否是训练集和预测集数据过大导致训练模型时内核重启的原因。

更新时间：2022-11-09 01:23

华泰人工智能系列之十四：对抗过拟合，从时序交叉验证谈起华泰证券_20181128_

摘要

时序交叉验证方法适用于时间序列数据，能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤，本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集，分别比较两种交叉验证方法的表现。结果表明，对于时序数据，时序交叉验证方法在训练集上的表现相对较差，但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合，而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时，使用时序交叉验证方法。传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验

更新时间：2022-07-29 06:13

分页第1页第2页