首先获取训练集“Stanford V1.0”和使用Glove模型训练好的词向量矩阵。
我们使用shell命令获取以上文档,脚本如下:
DATASETS_DIR="utils/datasets"
mkdir -p $DATASETS_DIR
cd $DATASETS_DIR
# Get Stanford Sentiment Treebank
if hash wget 2>/dev/null; then
wget http://nlp.stanford.edu/~socherr/stanfordSentimentTreebank.zip
else
c
更新时间:2024-06-12 06:06
Q3:过滤创业板和科创板的股票,是否要在训练集和预测集都进行过滤?另外,想在trade回测模块中通过编写代码实现过滤,该如何编写?
https://www.bilibili.com/video/BV1aq4y1A7xK?share_source=copy_web
如果我们不想考虑创业板和科创板的股票,那么需要在数据的训练和预测阶段都过滤。不然创业板和科创板的股票数据会影响AI模型,降低模型的准确率。
[ht
更新时间:2024-06-07 10:55
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-06-07 10:55
2021年8月5日Meetup问题:深度学习的学习率在哪里可以调整,训练集和测试集的loss如何打印到一张图上,early_stop如何设置?深度学习的权值初始化方法对结果影响很大,能否做个全面介绍,CNN,lstm,mlp一般试用哪种初始化方法。lstm或者cnn后面接的mlp一般用几层为好?mlp的神经元数量一般要相较输入层扩充几倍?
[https://bigquant.com/experimentshare/c0853836ac224f7ab02c97acce9f973f](https://bigquant.com/experimentshare/c0853836ac224f7ab02
更新时间:2024-06-07 10:55
\
机器学习的研究领域包括有监督学习(Supervised Learning),无监督学习(Unsupervised Learning),半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升
更新时间:2024-05-20 06:19
【旧版说明】此文档为旧版,相关新版文档参考:
https://bigquant.com/wiki/doc/102-ai-hXNHGsyWzS
新建一个可视化AI选股策略,如下图所示:
在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在训练集中去除退市的股票
在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”m27(从“用户模块”——“共享模块”中找到并拖入画布),即可实现在验证集中去除退市的股票
更新时间:2024-05-20 03:41
你是否曾经听到过人们谈论机器学习,而你却对其含义只有一个模糊的概念呢?你是否已经厌倦了在和同事对话时只能点头呢?现在,让我们一起来改变这个现状吧!
这篇指南是为那些对机器学习感兴趣,但又不知从哪里开始的人而写的。我猜有很多人曾经尝试着阅读机器学习的维基百科词条,但是读着读着倍感挫折,然后直接放弃,希望能有人给出一个更直观的解释。本文就是你们想要的东西。
本文的写作目标是让任何人都能看懂,这意味着文中有大量的概括。但是那又如何呢?只要能让读者对机器学习更感兴趣,这篇文章的任务也就完成了。
机器学习是一种概念:不需要写任何与问题有关的特定代码,泛型算法(Gene
更新时间:2024-05-20 03:18
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-17 10:28
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-17 06:42
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-16 03:41
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平
更新时间:2024-05-15 08:22
在机器学习模型构建过程中,我们通常需要评价模型在训练集和验证集上的表现来判断模型的质量好坏,本文主要以随机森林模型为例介绍新增模型评价功能。
我们以随机森林-回归模型为例,首先建立如下的模型训练可视化流程
如图所示,
更新时间:2024-05-15 02:10
请问如何搭建简单的resnet
就给我展示最小单元好了
更新时间:2023-10-09 08:20
\
更新时间:2023-10-09 07:35
验证集通过这个端口传入,构造方法和训练集一样。只需要设定开始和结束的日期。
步长可以通过
![{w:100}{w:100}](/wiki/api/attachments.redirect?id=276f2f17-0d2e
更新时间:2023-10-09 07:35
当我们在训练集上将模型训练出来以后,可以通过在验证集上使用该模型进行预测,然后通过预测数据与真实数据的差异,进而评估出模型效果。
[details=点击查看评价标准 ]
[/details]
模型评估具体分为两步:
模型在验证集上预测,因此需要m11模块,实现GBDT算法在验证集预测
计算模型评估指标,因此需要m8和m9模块
更新时间:2023-10-09 07:09
遇到个不理解的,同一个AI Ranker模型,起始时间一致,结束时间不同,为啥会有这么大的差别,机器不是通过训练集训练之后就把交易模型固定了么?然后通过测试集来进行回测验证。问题是我训练集啥的参数都没变,就变动了一下测试集的终止日期。讲道理应该只是后面的日期范围内的收益率有变动。。。。看看下图,即便是多增加的两个月回测数据,至少前几个月的收益率曲线大体形状应该一致的吧。。
![22年1月4
更新时间:2023-10-09 06:15
测试集也加入自动标注模块会有什么影响吗
更新时间:2023-10-09 06:04
我收集了很多因子在因子分析里他的收益率和夏普率都很高,并且他们的相关系数都接近0,但把他们组合放到我的算法模型里去测试效果就不理想,有什么办法能看到这些组合因子(最好能看到每个因子在训练集和测试集正收益贡献了多少,负收益贡献了多少,可以是百分比,比如某个因子在这个模型里正收益是80%,负收益是20%,这样方便我们有钟对性的在这个模型去选择有效因子)在这个算法模型里训练集和测试集的拟合情况
更新时间:2023-06-01 14:26
模拟交易训练集可以选近XX天的滚动数据吗?
可参考下这个帖子https://bigquant.com/community/t/topic/128990 5
更新时间:2023-06-01 02:13
预测明天股票时候显示日期2021.10.08,而且发布交易模拟盘失败
https://bigquant.com/experimentshare/c248a0a49a0c4e7e8beea08d70782f3e
训练集预测集时间不能设置成一样的
更新时间:2022-12-20 14:20
在StockRanker策略的基础上增加了一个计算RankIC的自定义模块,m22输出训练集的平均RankIC, m20输出测试集的平均RankIC。分享一下,如有问题大家多多指教。
https://bigquant.com/experimentshare/b1f45cb0a35a4a329cf6feca54d23005
\
更新时间:2022-11-20 03:34
回测老内核重启然后就停了。 是免费的缘故么?
\
得看下策略具体是在哪个模块停止内核的,如果回测模块没有做过多改动的话,在回测阶段重启内核的概率不大,得检查下是否是训练集和预测集数据过大导致训练模型时内核重启的原因。
更新时间:2022-11-09 01:23
新建一个可视化AI选股策略,如下图所示:
在训练集流程中的缺失数据处理模块m13前加入模块“去除退市股”、“过滤市场”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能;
在验证集流程中的缺失数据处理模块m14前加入模块“去除退市股”、“过滤市场”、“选取指定概念板块股”、“过滤st股票”(从“用户模块”——“共享模块”中找到并拖入画布)即可实现相应的过滤功能。
[https://bigquant.com/experimentshare/81d64826251e47d6b10cf2bea879bf38](https://bigquant.com/e
更新时间:2022-09-01 23:27
时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。 传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验
更新时间:2022-07-29 06:13