训练集

从金融角度看待“训练集”,可以将其精炼地描述为:在量化分析、风险评估或算法交易等金融科技应用中,用于“教授”或“训练”机器学习模型的一组历史或模拟金融数据。这组数据包含了多种金融变量,如价格、交易量、财务指标等,并通过特定的算法处理,使模型能够学习并识别出数据中的潜在模式,进而在未来的金融决策中提供预测或建议。训练集的质量和多样性对于模型的准确性和泛化能力至关重要。

Machine Learning is Fun! — 全世界最简单的机器学习入门指南

你是否曾经听到过人们谈论机器学习,而你却对其含义只有一个模糊的概念呢?你是否已经厌倦了在和同事对话时只能点头呢?现在,让我们一起来改变这个现状吧!

这篇指南是为那些对机器学习感兴趣,但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条,但是读着读着倍感挫折,然后直接放弃,希望能有人给出一个更直观的解释。本文就是你们想要的东西。

本文的写作目标是让任何人都能看懂,这意味着文中有大量的概括。但是那又如何呢?只要能让读者对机器学习更感兴趣,这篇文章的任务也就完成了。

什么是机器学习?

机器学习是一种概念:不需要写任何与问题有关的特定代码,泛型算法(Gene

更新时间:2024-01-26 07:22

请问如何搭建简单的resnet

问题

请问如何搭建简单的resnet

就给我展示最小单元好了

更新时间:2023-10-09 08:20

Transformer模型固化后预测出错?

{w:100}

\

更新时间:2023-10-09 07:35

请教dl中一些问题

问题

  1. 如何设置训练步长,在训练模块中没有这个选项
  2. 如何设置验证集,并打印loss、mae等,按照模板智能看训练集的

{w:100}{w:100}

验证集通过这个端口传入,构造方法和训练集一样。只需要设定开始和结束的日期。

步长可以通过

![{w:100}{w:100}](/wiki/api/attachments.redirect?id=276f2f17-0d2e

更新时间:2023-10-09 07:35

通过预测数据与真实数据的差异,进而评估出模型效果

当我们在训练集上将模型训练出来以后,可以通过在验证集上使用该模型进行预测,然后通过预测数据与真实数据的差异,进而评估出模型效果。

[details=点击查看评价标准 ]

[/details]

模型评估具体分为两步:

模型在验证集上预测,因此需要m11模块,实现GBDT算法在验证集预测

计算模型评估指标,因此需要m8和m9模块

更新时间:2023-10-09 07:09

请问一下回测的时间序列是倒序么?

遇到个不理解的,同一个AI Ranker模型,起始时间一致,结束时间不同,为啥会有这么大的差别,机器不是通过训练集训练之后就把交易模型固定了么?然后通过测试集来进行回测验证。问题是我训练集啥的参数都没变,就变动了一下测试集的终止日期。讲道理应该只是后面的日期范围内的收益率有变动。。。。看看下图,即便是多增加的两个月回测数据,至少前几个月的收益率曲线大体形状应该一致的吧。。

22年1月4日——23年2月15日{w:100}

![22年1月4

更新时间:2023-10-09 06:15

训练集和测试集需不需要都加入自动标注模块

{w:100}测试集也加入自动标注模块会有什么影响吗

更新时间:2023-10-09 06:04

TensorFlow教程翻译 | Neural Machine Translation(seq2seq) Tutorial

写在前面:读TensorFlow的这篇官网教程,给了我很大的帮助,该教程对seq2seq模型在理论上和代码实现上都有简要介绍。感觉有必要翻译一下做个记录,文章很长,不会做到一字一句的翻译,有些不好翻译的地方我会给出原句,有不严谨的地方望谅解。

本文目录:

  • 前沿 | Introduction
  • 基础 | Basic
  • 训练- 如何构建我们的第一个NMT系统
  • 词向量 | Embedding
  • 编码器 | Encoder
  • 解码器 | Decoder
  • 损失 | Loss
  • **梯度计算和优化 | Gradient co

更新时间:2023-06-14 03:02

深度学习与TensorFlow:FCN论文翻译(二)

文章居然超长了,接上篇


Fully convolutional networks

Each layer of data in a convnet is a three-dimensional array of size h × w × d, where h and w are spatial dimensions, and d is the feature or channel dimension. The first layer is the image, with pixel size h × w, and d color channels. Locations in hi

更新时间:2023-06-14 03:02

金融交易中的机器学习与统计

金融数据的特点是时间序列,这意味着传统预测模型(包括机器学习和统计,为避免不必要的学派之争,统一称为预测模型)使用的训练集、验证集、测试集的方法或许不大适用,特别是交叉验证,很难说用后面的数据验证前面的数据算不算样本外,毕竟现实中只能前面的数据先发生。但也有人说我近期观察到一个pattern,最近几天都出现,想看看在历史行情中表现如何......

另外还有人说我拿奇数年的数据做个模型,然后拿偶数年的数据验证一下,这样是否靠谱?比如十年数据,一般来说,1-5做训练,6-10做预测,效果会最差;1-5预测6,1-6预测7,这样滚动着来,效果可以好一些,这些都可以算作严格的样本外;如果是1

更新时间:2023-06-14 03:02

有效因子选择

我收集了很多因子在因子分析里他的收益率和夏普率都很高,并且他们的相关系数都接近0,但把他们组合放到我的算法模型里去测试效果就不理想,有什么办法能看到这些组合因子(最好能看到每个因子在训练集和测试集正收益贡献了多少,负收益贡献了多少,可以是百分比,比如某个因子在这个模型里正收益是80%,负收益是20%,这样方便我们有钟对性的在这个模型去选择有效因子)在这个算法模型里训练集和测试集的拟合情况

更新时间:2023-06-01 14:26

模拟交易训练集可以选近XX天的滚动数据吗?

问题

模拟交易训练集可以选近XX天的滚动数据吗?

解答

可参考下这个帖子https://bigquant.com/community/t/topic/128990 5

更新时间:2023-06-01 02:13

用随机森林-分类算法实现A股股票选股

策略案例


https://bigquant.com/experimentshare/a326c3952ba54193aa9b19576d1e0c22

\

更新时间:2022-12-30 01:01

预测股票日期有误,发布模拟交易失败

问题

预测明天股票时候显示日期2021.10.08,而且发布交易模拟盘失败

https://bigquant.com/experimentshare/c248a0a49a0c4e7e8beea08d70782f3e

解答

训练集预测集时间不能设置成一样的

更新时间:2022-12-20 14:20

分享一个计算RankIC的自定义模块

在StockRanker策略的基础上增加了一个计算RankIC的自定义模块,m22输出训练集的平均RankIC, m20输出测试集的平均RankIC。分享一下,如有问题大家多多指教。

https://bigquant.com/experimentshare/b1f45cb0a35a4a329cf6feca54d23005

\

更新时间:2022-11-20 03:34

回测老内核重启

问题

回测老内核重启然后就停了。 是免费的缘故么?

\

解答

得看下策略具体是在哪个模块停止内核的,如果回测模块没有做过多改动的话,在回测阶段重启内核的概率不大,得检查下是否是训练集和预测集数据过大导致训练模型时内核重启的原因。

更新时间:2022-11-09 01:23

创业板和科创板股票过滤

问题

Q3:过滤创业板和科创板的股票,是否要在训练集和预测集都进行过滤?另外,想在trade回测模块中通过编写代码实现过滤,该如何编写?

视频

https://www.bilibili.com/video/BV1aq4y1A7xK?share_source=copy_web

策略源码

如果我们不想考虑创业板和科创板的股票,那么需要在数据的训练和预测阶段都过滤。不然创业板和科创板的股票数据会影响AI模型,降低模型的准确率。

[ht

更新时间:2022-10-11 10:30

AI选股策略——综合过滤

新建一个可视化AI选股策略,如下图所示:

在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”、“过滤市场”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能;

在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”、“过滤市场”、“选取指定概念板块股”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能。

[https://bigquant.com/experimentshare/81d64826251e47d6b10cf2bea879bf38](https://bigquant.com/e

更新时间:2022-09-01 23:27

DNN-AI选股:深度学习的学习率调整

问题

深度学习的学习率在哪里可以调整,训练集和测试集的loss如何打印到一张图上,early_stop如何设置?深度学习的权值初始化方法对结果影响很大,能否做个全面介绍,CNN,lstm,mlp一般试用哪种初始化方法。lstm或者cnn后面接的mlp一般用几层为好?mlp的神经元数量一般要相较输入层扩充几倍?

视频

https://www.bilibili.com/video/BV1Hv411K7cR

策略源码

[https://bigquant.com/experimen

更新时间:2022-08-31 23:05

主动学习(Active Learning)

\

背景

机器学习的研究领域包括有监督学习(Supervised Learning)无监督学习(Unsupervised Learning),半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升

更新时间:2022-08-27 06:26

开箱实盘即用,批量测试因子的实盘策略模板

导语

大家在做AI策略时,很纠结训练集用几年,预测集用几年?ST如何过滤?大盘风控如何加?如何只取部分数据进行训练?本文解决了AI策略研发中最常见的一些疑问,形成了一个模板策略,大家只需要把精力放到挖掘有效的因子即可。

本策略也可以作为因子挖掘的模板,通过回测的各项指标即可发现回测的这组因子在过去一段时间是否有效。

本文重点解决了以下几点:

1、在一般的AI策略中,训练集的范围是固定的,如何利用过去最近几年的数据作为训练集,来滚动预测未来一段时间的收益率?滚动回测结束后,如何计算整体回测的收益曲线、夏普指标等?

2、开发策略的时候,会碰到某些因子只想用于过滤数据,不作为训练的因

更新时间:2022-08-04 12:53

华泰人工智能系列之十四:对抗过拟合,从时序交叉验证谈起 华泰证券_20181128_

摘要

时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。 传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验

更新时间:2022-07-29 06:13

用python进行量化数据预处理

数据预处理是任何机器学习模型的基本要求。预处理数据意味着使用机器学习模型易于读取的数据。在本文中,我们将讨论数据预处理的基础知识以及如何使数据适合机器学习模型。

什么是数据预处理?

数据预处理是准备原始数据并使其适用于机器学习模型的过程。数据预处理包括数据清理,将数据提供给机器学习模型。数据清洗后,数据预处理需要将数据转换为机器学习模型可以理解的格式。


为什么需要数据预处理?

数据预处理主要用于以下方面:

  • 准确的数据:机器学习模型可读的准确的量化数据

更新时间:2022-07-20 11:20

关于模型训练的一点简单想法:以DNN和StockRanker对比为例

作者:donkyxote

策略思想

基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。

StockRanker模型

原有模型是基于BQ提供的Stockranker机器学习算法:


![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f55

更新时间:2022-06-22 14:58

关于模型训练的一点简单想法:以DNN和StockRanker对比为例

策略思想

基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。

StockRanker模型

原有模型是基于BQ提供的Stockranker机器学习算法:

![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f5599

更新时间:2022-06-22 05:47

分页第1页第2页