在因子开发研究完之后,选取了|IC|较高的几个因子后,一般如何合成一个策略,即在工程方法论上的一般步骤是什么?比如应该如何选择哪些模型进行合成(树模型or深度学习模型,是否有规律),分别是否都必须在训练前进行特征工程的处理再训练(去极值、中性化去除相关性),比如是否需要探查各个因子的相关性(如果多个因子存在一定的相关性,一般相关度大于多少需要进行处理,是否需要逐对特征两两取残差)
\
方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列
更新时间:2024-03-15 03:36
如何把我的因子中创建的因子,引入输入特征列表模块中
假设我们采用新的模版代替原来输入特征列表的部分?直接用“输入特征(DAI SQL)”代替,貌似报错了。或者有相关用新模版建立线性-回归算法策略的文档吗,这样就可以用自己的数据进行策略分析了。
![](/wiki/api/attac
更新时间:2024-02-04 02:45
featuretools有专门的 transfrom 类的特征处理方式,但是我在实际使用中没有使用,因为featuretool的思路是凡是能够进行特征变换的特征都要应用一遍,所以应用的模式基本上是生成大量的性能不强的特征,下一步必须进行严格的。
所以今天尝试用gplearn进行一下特征工程,本人能力有限,如有错误还请指正,也欢迎交流。
gplearn是Python内最成熟的符号回归算法实现,作为一种一种监督学习方法,符号回归(symbolic regression)试图发现某种隐藏的数学公式,以此利用特征变量预测目标变量。
符号回归的具体实现方式是遗
更新时间:2024-01-14 04:45
更新时间:2023-12-11 06:46
更新时间:2023-11-26 16:58
本文14323字,阅读约28分钟
导语:本文旨在用精炼的语言阐述实操层面的机器学习量化应用方法,包括给出实践中一些常见、实际问题的处理方案,并结合了量化应用实例。读完后大家可以在本平台进行实践检验。
1.人工智能量化投资概述
2.人工智能技术简介
3.机器学习在量化投资中应用的具体方法解析
AI相对于传统量化投资的优势 传统的量化投资策略是通过建立各种数学模型,在各种金融数据中试图找出市场的规律并加以利用,力所能及的模式或许可以接近某一个局部的最优,而真正的全局“最优解”或许在我们的经验认知之外。如同不需要借助人类经验的Alpha Zero,不仅
更新时间:2023-11-26 16:58
《Machine Learning for Stock Price Forecasting》是Ali El-Shayeb撰写的机器学习系列文章 ,本文主要介绍其第二部分内容——《监督式机器学习算法的应用》,并将其思想和代码应用在中国股票市场,开发出具有择时功能的监督式机器学习算法,最后进行策略回测。对此感兴趣的小伙伴可以直接在本文文末克隆策略源代码,进行深入和扩展研究。
Ali El-Shayeb通过价格和成交量相关的9个特征训练模型,特征列表和数据来源见下图。
![](/community/uploads/default/origin
更新时间:2023-11-26 16:58
更新时间:2023-11-26 16:58
几天前,我着手解决一个实际问题——大型超市销售问题。在使用了几个简单模型做了一些特征工程之后,我在排行榜上名列第 219 名。
虽然结果不错,但是我还是想做得更好。于是,我开始研究可以提高分数的优化方法。结果我果然找到了一个,它叫遗传算法。在把它应用到超市销售问题之后,最终我的分数在排行榜上一下跃居前列。
![{w:100%}{w:100}{w:100}{w:100}](/
更新时间:2023-11-26 16:58
逻辑上,以每一天回顾历史,比较是否是新低日,然后return一个bool变量。以这样的变量得到新的特征列,然后用自定义模块输入到模型中
更新时间:2023-10-09 07:55
\
更新时间:2023-10-09 07:35
\
更新时间:2023-10-09 07:09
https://bigquant.com/experimentshare/75aff243f241447da1d1994ed9d29c44
如何实现分类任务啊,怎么在原有策略上修改
更新时间:2023-10-09 07:05
更新时间:2023-10-09 07:03
三种构建大盘风控指标的方法关于LSTM+CNN的模型进行大盘风控的策略代码未找到,能否提供一下,谢谢。
https://bigquant.com/wiki/doc/dapan-zhibiao-fangfa-MoB3kNcAMG
更新时间:2023-10-09 06:28
比如 PE>0这种变量
更新时间:2023-10-09 03:40
消息在股票交易中有很大的影响力,如果没有对消息的处理会导致策略经常中雷,怎么办呢?
更新时间:2023-10-09 03:28
需要在特征里表述,之前5日涨停次数我是这么写的:
ztnum=where(price_limit_status_0==3,1,0)+where(price_limit_status_1==3,1,0)+where(price_limit_status_2==3,1,0)+where(price_limit_status_3==3,1,0)+where(price_limit_status_4==3,1,0)
对于周期较长的,这种写法就不太合适了。
更新时间:2023-10-09 02:52
\
更新时间:2023-06-27 03:23
在AI量化策略开发第一步中,我们已经完成了训练集和预测集数据范围的设置。接下来在第二步中,我们来学习如何使用数据标注模块来设置我们的训练目标。
数据标注是有监督学习算法的关键,标注是否能够准确描述问题的目标直接影响模型的有效性。
第一步:在模块列表的数据标注下找到自动标注(股票)模块,并拖入
更新时间:2023-06-14 07:56
在深度学习中,经常有“end-to-end(端到端)”学习的提法,与之相对应的传统机器学习是“Divide and Conquer(分而治之)”。这些都是什么意思呢?
“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端),中间过程不可知,也难以知。比如说,基于深度学习的图像识别系统,输入端是图片的像素数据,而输出端直接就是或猫或狗的判定。这个端到端就是:像素判定。
再比如,“end-to-end”的自动驾驶系统,输入的是前置摄像头的视频信号(其实也就是像素),而输出的直接就是控制车辆行驶指令(
更新时间:2023-06-14 03:02
故不积跬步,无以至千里;不积小流,无以成江海。--《荀子·劝学篇》
1.机器学习用于选股,对财务数据的特征学习,居然还是小市值NB....
2.机器学习,海量数据预测股票的未来趋势,+Model的研究
4.[随
更新时间:2023-06-14 03:02
无论在数据分析还是机器学习中,数据预处理都是非常麻烦枯燥但又必须去做的步骤。
其实数据预处理和特征工程,两者并无明显的界限,都是为了更好的探索数据集的结构,获得更多的信息,将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理,特征工程是高级的特征处理,也可以说这里的预处理过程是广义的,包含所有的建模前的数据预处理过程。
1、了解数据集的背景知识
(1)领域知识
(2)训练集、验证集、测试集同分布问题
验证集和测试集要同一分布,这是一个评估指标设定问题
比如你的验证集是美国房价,测试集是
更新时间:2023-06-14 03:02
预处理过程
探索数据集、数据预处理、特征工程。
——见相关笔记
构建模型过程
包括构建模型的预处理,选择算法与模型优化,而模型优化涉及评估验证和调参。
预测过程
系统设计指导原则
快速搭建你的第一个系统,然后开始迭代。而不是妄图一口吃成个胖子,一下就能搭建出复杂而完美的系统。
不断地验证,不断地调试,不要妄图一下就写出一个完美的模型,而宁愿一开始比较粗糙,比较简单,但迅速实现,然后一步一步的误差分析和优化而使它变好。
1、提取特征集和标签
label
更新时间:2023-06-14 03:02
监督和非监督最简单的区别,一个数据是带label的,一个数据是不带label的。
本身并没有标签,但却能用算法归类,赋予标签。所以说聚类等无监督学习算法除了同样有分类的功能,而且还有探索数据、分析数据的内在结构、发现数据内在的隐藏信息等重要功能。所以聚类(赋予标签值)、特征工程等非监督学习算法常用在监督学习之前的步骤,非监督算法中的A不只代表算法(algorithm),也代表数据分析中的分析(analysis)。
事先没有标签,通过观察数据、进行聚类,最终将其分类。(物以类聚)
辨别出数据集中存在的簇(clumps)或聚类(cluster),其实也就是发
更新时间:2023-06-14 03:02