数据预处理是任何机器学习模型的基本要求。预处理数据意味着使用机器学习模型易于读取的数据。在本文中,我们将讨论数据预处理的基础知识以及如何使数据适合机器学习模型。
数据预处理是准备原始数据并使其适用于机器学习模型的过程。数据预处理包括数据清理,将数据提供给机器学习模型。数据清洗后,数据预处理需要将数据转换为机器学习模型可以理解的格式。
数据预处理主要用于以下方面:
更新时间:2022-07-20 11:20
作者:donkyxote
基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。
原有模型是基于BQ提供的Stockranker机器学习算法:
![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f55
更新时间:2022-06-22 14:58
基于17个短期因子,其中8个量价因子,9个均线因子。训练集使用2005-01-04至2020-06-01日,每个交易日买入模型当日预测结果排名靠前的1只A股股票,次日卖出。
原有模型是基于BQ提供的Stockranker机器学习算法:
![图 1:stockranker-2021年1月4日至2022年1月21日的模拟实盘结果{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachments.redirect?id=bb5b3d09-3e20-4840-b5e0-2220d7f5599
更新时间:2022-06-22 05:47
作者:dkl297836
基于32个短期价量因子,训练集使用2016年1月1日至2020年12月31日共5年数据,每个交易日买入模型当日预测结果排名靠前的10只A股股票,个股最大仓位限制为20%,持股时间设置为5个交易日,初始资金100万。
原有策略是基于Lightgbm机器学习算法,该策略的表现见图1:
![图 1:lightgbm-2021年1月1日至2022年6月10日回测结果{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}](/wiki/api/attachment
更新时间:2022-06-20 07:57
新建一个可视化AI选股策略,如下图所示:
在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在训练集中去除退市的股票
在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在验证集中去除退市的股票
[https://bigquant.com/experimentshare/600c3c1348764283973f5b62183e9caf](https://bigquant.com/experimentshare/600c3c13487
更新时间:2022-03-04 03:00
lintcode上面有十几道类似于Kaggle的小项目,用于深度学习的入手练习再好不过了,现在就让我们上手这道猫狗分类器的问题吧!
(全程用Keras框架,简单上手!)
题目描述:
给出一张猫或狗的图片,识别出这是猫还是狗。
这种识别具有很重要的意义,比如:
Web服务为了进行保护,会防止一些计算机进行恶意访问或信息爬取,进而设立一些验证问题,这些验证问题对于人来说很容易做,但是对于计算机这很困难。这样的方法称为CAPTCHA(完全
更新时间:2021-09-09 02:22
根据上一篇的介绍,我们已经对循环神经网络有了基本了解。上一篇文章的“keras部署神经网络”部分,我们提供了搭建一个简单RNN网络的代码,但是实际运行代码时总会遇见各种问题,笔者就是如此,为了方便理解代码,笔者带着大家一步步分析代码,对代码中涉及到的一些自然语言处理的概念解释,实际运行中遇到的错误进行分析并给出解决方法。
我们的目标是:使用keras搭建RNN网路,使用推文数据训练模型
实现目标的思路是:准备工作 -> 数据序列化 -> 得到词嵌入矩阵 -> 训练网络
更新时间:2021-08-11 06:00
首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。
我们使用shell命令获取以上文档,脚本如下:
DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR
cd $DATASETS_DIR
# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
c
更新时间:2021-08-09 06:51
2021年8月5日Meetup问题:深度学习的学习率在哪里可以调整,训练集和测试集的loss如何打印到一张图上,early_stop如何设置?深度学习的权值初始化方法对结果影响很大,能否做个全面介绍,CNN,lstm,mlp一般试用哪种初始化方法。lstm或者cnn后面接的mlp一般用几层为好?mlp的神经元数量一般要相较输入层扩充几倍?
[https://bigquant.com/experimentshare/c0853836ac224f7ab02c97acce9f973f](https://bigquant.com/experimentshare/c0853836ac224f7ab02
更新时间:2021-08-06 10:07
更新时间:2021-08-06 09:46
更新时间:2021-07-30 07:26