训练集

从金融角度看待“训练集”,可以将其精炼地描述为:在量化分析、风险评估或算法交易等金融科技应用中,用于“教授”或“训练”机器学习模型的一组历史或模拟金融数据。这组数据包含了多种金融变量,如价格、交易量、财务指标等,并通过特定的算法处理,使模型能够学习并识别出数据中的潜在模式,进而在未来的金融决策中提供预测或建议。训练集的质量和多样性对于模型的准确性和泛化能力至关重要。

用python进行量化数据预处理

数据预处理是任何机器学习模型的基本要求。预处理数据意味着使用机器学习模型易于读取的数据。在本文中,我们将讨论数据预处理的基础知识以及如何使数据适合机器学习模型。

什么是数据预处理?

数据预处理是准备原始数据并使其适用于机器学习模型的过程。数据预处理包括数据清理,将数据提供给机器学习模型。数据清洗后,数据预处理需要将数据转换为机器学习模型可以理解的格式。


为什么需要数据预处理?

数据预处理主要用于以下方面:

  • 准确的数据:机器学习模型可读的准确的量化数据

更新时间:2022-07-20 11:20

关于模型训练的一点简单想法:以DNN和StockRanker对比为例

作者:donkyxote

策略思想

基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。

StockRanker模型

原有模型是基于BQ提供的Stockranker机器学习算法:


![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f55

更新时间:2022-06-22 14:58

关于模型训练的一点简单想法:以DNN和StockRanker对比为例

策略思想

基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。

StockRanker模型

原有模型是基于BQ提供的Stockranker机器学习算法:

![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f5599

更新时间:2022-06-22 05:47

DeepAlpha-DNN VS Lightgbm 实践报告

作者:dkl297836

策略思想

基于32个短期价量因子,训练集使用2016年1月1日至2020年12月31日共5年数据,每个交易日买入模型当日预测结果排名靠前的10只A股股票,个股最大仓位限制为20%,持股时间设置为5个交易日,初始资金100万。

Lightgbm策略

原有策略是基于Lightgbm机器学习算法,该策略的表现见图1:

![图 1:lightgbm-2021年1月1日至2022年6月10日回测结果{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachment

更新时间:2022-06-20 07:57

AI选股策略——去除退市股

新建一个可视化AI选股策略,如下图所示:

在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在训练集中去除退市的股票

在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在验证集中去除退市的股票

[https://bigquant.com/experimentshare/600c3c1348764283973f5b62183e9caf](https://bigquant.com/experimentshare/600c3c13487

更新时间:2022-03-04 03:00

在lintcode刷AI题:猫狗分类器

lintcode上面有十几道类似于Kaggle的小项目,用于深度学习的入手练习再好不过了,现在就让我们上手这道猫狗分类器的问题吧!

(全程用Keras框架,简单上手!)

题目描述:

给出一张猫或狗的图片,识别出这是猫还是狗。

这种识别具有很重要的意义,比如:

Web服务为了进行保护,会防止一些计算机进行恶意访问或信息爬取,进而设立一些验证问题,这些验证问题对于人来说很容易做,但是对于计算机这很困难。这样的方法称为CAPTCHA(完全

更新时间:2021-09-09 02:22

循环神经网络(RNN)介绍2:keras代码分析

根据上一篇的介绍,我们已经对循环神经网络有了基本了解。上一篇文章的“keras部署神经网络”部分,我们提供了搭建一个简单RNN网络的代码,但是实际运行代码时总会遇见各种问题,笔者就是如此,为了方便理解代码,笔者带着大家一步步分析代码,对代码中涉及到的一些自然语言处理的概念解释,实际运行中遇到的错误进行分析并给出解决方法。

我们的目标是:使用keras搭建RNN网路,使用推文数据训练模型

实现目标的思路是:准备工作 -> 数据序列化 -> 得到词嵌入矩阵 -> 训练网络

  • 准备工作:读取相关库函数,读入数据集,划分训练集和测试集,
  • 数据序列化:将文本转换为数字序列

更新时间:2021-08-11 06:00

Word2Vec介绍:训练Skip-gram模型的python实现

1. 获取数据

首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。

我们使用shell命令获取以上文档,脚本如下:

DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR

cd $DATASETS_DIR

# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
  wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
  c

更新时间:2021-08-09 06:51

DNN-AI选股:深度学习的学习率调整

2021年8月5日Meetup问题:深度学习的学习率在哪里可以调整,训练集和测试集的loss如何打印到一张图上,early_stop如何设置?深度学习的权值初始化方法对结果影响很大,能否做个全面介绍,CNN,lstm,mlp一般试用哪种初始化方法。lstm或者cnn后面接的mlp一般用几层为好?mlp的神经元数量一般要相较输入层扩充几倍?

[https://bigquant.com/experimentshare/c0853836ac224f7ab02c97acce9f973f](https://bigquant.com/experimentshare/c0853836ac224f7ab02

更新时间:2021-08-06 10:07

caffe学习(2): Cifar-100 tutorial

由于caffe官方和很多博客已经提供了mnistcifar10在caffe上测试的教程,这里就不再复现这些教程了,今天和大家分享一下如何在caffe下训练cifar100数据集

**数据准备

更新时间:2021-08-06 09:46

用线性-分类算法实现A股股票选股

策略案例


https://bigquant.com/experimentshare/5c5e31cf67c94de099b00aeab9676e48

\

更新时间:2021-07-30 07:26

分页第1页第2页