需要在特征里表述,之前5日涨停次数我是这么写的:
ztnum=where(price_limit_status_0==3,1,0)+where(price_limit_status_1==3,1,0)+where(price_limit_status_2==3,1,0)+where(price_limit_status_3==3,1,0)+where(price_limit_status_4==3,1,0)
对于周期较长的,这种写法就不太合适了。
更新时间:2023-10-09 02:52
\
更新时间:2023-06-27 03:23
在深度学习中,经常有“end-to-end(端到端)”学习的提法,与之相对应的传统机器学习是“Divide and Conquer(分而治之)”。这些都是什么意思呢?
“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端),中间过程不可知,也难以知。比如说,基于深度学习的图像识别系统,输入端是图片的像素数据,而输出端直接就是或猫或狗的判定。这个端到端就是:像素判定。
再比如,“end-to-end”的自动驾驶系统,输入的是前置摄像头的视频信号(其实也就是像素),而输出的直接就是控制车辆行驶指令(
更新时间:2023-06-14 03:02
故不积跬步,无以至千里;不积小流,无以成江海。--《荀子·劝学篇》
1.机器学习用于选股,对财务数据的特征学习,居然还是小市值NB....
2.机器学习,海量数据预测股票的未来趋势,+Model的研究
4.[随
更新时间:2023-06-14 03:02
无论在数据分析还是机器学习中,数据预处理都是非常麻烦枯燥但又必须去做的步骤。
其实数据预处理和特征工程,两者并无明显的界限,都是为了更好的探索数据集的结构,获得更多的信息,将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理,特征工程是高级的特征处理,也可以说这里的预处理过程是广义的,包含所有的建模前的数据预处理过程。
1、了解数据集的背景知识
(1)领域知识
(2)训练集、验证集、测试集同分布问题
验证集和测试集要同一分布,这是一个评估指标设定问题
比如你的验证集是美国房价,测试集是
更新时间:2023-06-14 03:02
预处理过程
探索数据集、数据预处理、特征工程。
——见相关笔记
构建模型过程
包括构建模型的预处理,选择算法与模型优化,而模型优化涉及评估验证和调参。
预测过程
系统设计指导原则
快速搭建你的第一个系统,然后开始迭代。而不是妄图一口吃成个胖子,一下就能搭建出复杂而完美的系统。
不断地验证,不断地调试,不要妄图一下就写出一个完美的模型,而宁愿一开始比较粗糙,比较简单,但迅速实现,然后一步一步的误差分析和优化而使它变好。
1、提取特征集和标签
label
更新时间:2023-06-14 03:02
监督和非监督最简单的区别,一个数据是带label的,一个数据是不带label的。
本身并没有标签,但却能用算法归类,赋予标签。所以说聚类等无监督学习算法除了同样有分类的功能,而且还有探索数据、分析数据的内在结构、发现数据内在的隐藏信息等重要功能。所以聚类(赋予标签值)、特征工程等非监督学习算法常用在监督学习之前的步骤,非监督算法中的A不只代表算法(algorithm),也代表数据分析中的分析(analysis)。
事先没有标签,通过观察数据、进行聚类,最终将其分类。(物以类聚)
辨别出数据集中存在的簇(clumps)或聚类(cluster),其实也就是发
更新时间:2023-06-14 03:02
\
更新时间:2023-06-14 03:02
\
更新时间:2023-06-14 03:02
在本文中,我将介绍机器学习中关于异常检测的算法。
因为知乎中对于markdown的支持太差了,本文不在知乎直接排版,所以阅读体验不是很好,若想获得更好的阅读体验,请点击下文链接进行阅读。
[异常检测chrer.com ](https://link.zhihu.com/?target=http%3A//chrer.com/2018/07/27/%25E5%25BC%2582%25E5%25B8
更新时间:2023-06-14 03:02
更新时间:2023-06-13 06:53
\
更新时间:2023-06-13 06:50
ZScoreNorm标准化后输出全为空值?
https://bigquant.com/experimentshare/e91b4eed4f534753a3692800f33a4737
\
更新时间:2023-06-01 02:13
回归问题的标签设置
\
更新时间:2023-06-01 02:13
例如我要在特征中加入一个因子:统计30日内收益小于5%的天数,该怎么写
更新时间:2023-06-01 02:13
\
徐耀杰(woshisilvio)
算法没有最好,只有更好。 这个问题的答案取决于许多因素,例如股票市场的条件,数据集的质量和特征工程的有效等。接下来,我们来看看这些算法的优势和劣势:
正常情况下,在处理少量的股票量
更新时间:2023-04-27 02:56
请问这个错误是什么原因
筛选过后的classes_prob_0没有数据,则索引[0]找不到相关的数据
更新时间:2022-12-20 14:20
模型板块包含了AI算法模型,多因子模型等一些研究内容。
更新时间:2022-12-06 14:42
更新时间:2022-11-20 03:34
想实现如下功能: 特征A:判断5日均线>10日均线,记1,否则计-1 特征B:sum(‘A’,10) 记录10天内5日大于10日的天数
如果a用where(ta_sma_5_0>=ta_sma_10_0,1,-1) ,则B无法sum; sum(int(‘A’),10), invalid function: int 转换也不让用
请问该如何实现这个特征呢?
更新时间:2022-09-16 00:27
文献来源:Leippold, M., Wang, Q. & Zhou, W. (2021). Machine-Learning in the Chinese Stock Market. Journal of Financial Economics.
推荐原因:随着机器学习在金融和经济领域的应用迅速兴起,越来越多的学者利用机器学习工具研究股票的截面和时间序列预测。而中国股票市场历史较短,制度依然处于不断完善的阶段,有着自身的特殊性。本文根据中国市场的特征构建了一个全面的股票收益预测因子集,并利用几大流行的机器学习算法进行实证分析。经过CSPA条件预测能力检验,作者发现神经
更新时间:2022-08-31 08:45
机器学习问题和其流程
机器学习问题本质上在于找出使得经验风险泛函(样本误差)最小的建模流程,基本的流程可以分为特征工程、模型训练和模型融合。本篇就上述三个过程,给出相关算法的介绍,并补充了之前系列报告中未详细介绍的内
机器学习三大步骤
特征工程包含特征构建、特征提取和特征选择三个过程,以选择相对最优的特征空间。特征工程往往会采用无监督和有监督的机器学习算法。机器学习模型可以分为线性模型、树模型和深度学习模型。线性模型主要体现了数据中的线性关系,如输入与输出的线性关系,点集的线性可分;树模型可以很好的捕捉输入与输出的非线性关系,和线性模型相辅相成。一些改进的随
更新时间:2022-08-31 01:53
机器学习系列报告
本系列报告试图系统全面性的介绍各种不同的机器学习方法,并且结合具体的在投资研究领域应用实例、交易策略及code示例,说明其应用情景和实现方法。机器学习的方法可以分为以下几类:监督学习、无监督学习、深度学习及其他机器学习方法(例如强化学习),对应到具体的模型上数量则更是繁多,目前大部分机器学习模型并未广泛的应用在投研领域,因此本系列主要偏重于在投研领域有应用潜力的模型及方法。此篇将以介绍监督学习方法为主
监督学习模型之回归类模型及其应用
与普通线性回归不同,监督学习中的惩罚回归模型和非参数回归,可以分别用于处理输入变量中存在大量线性相关性关系
更新时间:2022-08-31 01:52
数据预处理是任何机器学习模型的基本要求。预处理数据意味着使用机器学习模型易于读取的数据。在本文中,我们将讨论数据预处理的基础知识以及如何使数据适合机器学习模型。
数据预处理是准备原始数据并使其适用于机器学习模型的过程。数据预处理包括数据清理,将数据提供给机器学习模型。数据清洗后,数据预处理需要将数据转换为机器学习模型可以理解的格式。
数据预处理主要用于以下方面:
更新时间:2022-07-20 11:20
更新时间:2022-07-17 13:50