特征工程

特征工程在金融领域的应用,实质上是利用数据和统计学方法,挖掘和提炼影响金融决策的关键因素,将之转化为模型可理解的特征,进而提高金融模型的预测能力和决策效率。特征工程涉及特征构建、特征选择以及特征转换等环节,它能从复杂多变的市场环境中提取出关键信息,帮助金融机构在风险评估、投资策略、信贷审批等核心业务上做出更精准、更智能的决策。例如,在信贷风险评估中,特征工程可以通过整合借款人的历史信用记录、财务状况、社交网络行为等多维度数据,构建出全面而深入的风险评估特征,进而增强风险模型的预测精度,提升信贷决策的科学性和有效性。总的来说,特征工程对于金融机构提升数据驱动决策的能力,实现更精细化、智能化业务管理有着重要的价值和意义。

如何获取指定天数的涨停次数?

需要在特征里表述,之前5日涨停次数我是这么写的:

ztnum=where(price_limit_status_0==3,1,0)+where(price_limit_status_1==3,1,0)+where(price_limit_status_2==3,1,0)+where(price_limit_status_3==3,1,0)+where(price_limit_status_4==3,1,0)

对于周期较长的,这种写法就不太合适了。

更新时间:2023-10-09 02:52

【参赛】Deep Alpha-CNN策略克隆&调参擂台赛

\

更新时间:2023-06-27 03:23

【深度学习之美02】深度学习的方法论是什么?

再议“end-to-end”(端到端)

在深度学习中,经常有“end-to-end(端到端)”学习的提法,与之相对应的传统机器学习是“Divide and Conquer(分而治之)”。这些都是什么意思呢?

“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端),中间过程不可知,也难以知。比如说,基于深度学习的图像识别系统,输入端是图片的像素数据,而输出端直接就是或猫或狗的判定。这个端到端就是:像素判定。

再比如,“end-to-end”的自动驾驶系统,输入的是前置摄像头的视频信号(其实也就是像素),而输出的直接就是控制车辆行驶指令(

更新时间:2023-06-14 03:02

量化交易&机器学习干货精选

故不积跬步,无以至千里;不积小流,无以成江海。--《荀子·劝学篇》

1.机器学习用于选股,对财务数据的特征学习,居然还是小市值NB....

2.机器学习,海量数据预测股票的未来趋势,+Model的研究

3.机器学习之神经网络入门

4.[随

更新时间:2023-06-14 03:02

机器学习复习笔记之预处理过程

无论在数据分析还是机器学习中,数据预处理都是非常麻烦枯燥但又必须去做的步骤。

其实数据预处理和特征工程,两者并无明显的界限,都是为了更好的探索数据集的结构,获得更多的信息,将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理,特征工程是高级的特征处理,也可以说这里的预处理过程是广义的,包含所有的建模前的数据预处理过程。

探索数据集(探索性数据分析EDA)

1、了解数据集的背景知识

(1)领域知识

(2)训练集、验证集、测试集同分布问题

验证集和测试集要同一分布,这是一个评估指标设定问题

比如你的验证集是美国房价,测试集是

更新时间:2023-06-14 03:02

机器学习复习笔记之模型构建和优化过程

机器学习流水线

预处理过程

探索数据集、数据预处理、特征工程。

——见相关笔记

构建模型过程

包括构建模型的预处理,选择算法与模型优化,而模型优化涉及评估验证和调参。

预测过程

系统设计指导原则

快速搭建你的第一个系统,然后开始迭代。而不是妄图一口吃成个胖子,一下就能搭建出复杂而完美的系统。

不断地验证,不断地调试,不要妄图一下就写出一个完美的模型,而宁愿一开始比较粗糙,比较简单,但迅速实现,然后一步一步的误差分析和优化而使它变好。


构建模型的预处理过程

1、提取特征集和标签

label

更新时间:2023-06-14 03:02

机器学习复习笔记之无监督学习

监督和非监督最简单的区别,一个数据是带label的,一个数据是不带label的。

本身并没有标签,但却能用算法归类,赋予标签。所以说聚类等无监督学习算法除了同样有分类的功能,而且还有探索数据、分析数据的内在结构、发现数据内在的隐藏信息等重要功能。所以聚类(赋予标签值)、特征工程等非监督学习算法常用在监督学习之前的步骤,非监督算法中的A不只代表算法(algorithm),也代表数据分析中的分析(analysis)。


聚类

事先没有标签,通过观察数据、进行聚类,最终将其分类。(物以类聚)

辨别出数据集中存在的簇(clumps)或聚类(cluster),其实也就是发

更新时间:2023-06-14 03:02

TensorFlow系列



\

更新时间:2023-06-14 03:02

量化系列


\

更新时间:2023-06-14 03:02

异常检测

在本文中,我将介绍机器学习中关于异常检测的算法。

因为知乎中对于markdown的支持太差了,本文不在知乎直接排版,所以阅读体验不是很好,若想获得更好的阅读体验,请点击下文链接进行阅读。

[异常检测​chrer.com 图标](https://link.zhihu.com/?target=http%3A//chrer.com/2018/07/27/%25E5%25BC%2582%25E5%25B8

更新时间:2023-06-14 03:02

lightgbm多因子选股

https://bigquant.com/experimentshare/6101b0b2a0f347cd98594fb4d0620065

\

更新时间:2023-06-13 06:53

BigQuant复现研报


\

更新时间:2023-06-13 06:50

ZScoreNorm标准化后输出全为空值?

问题

问题描述

ZScoreNorm标准化后输出全为空值?

问题策略

https://bigquant.com/experimentshare/e91b4eed4f534753a3692800f33a4737

\

更新时间:2023-06-01 02:13

回归问题的标签设置

问题

回归问题的标签设置

\

更新时间:2023-06-01 02:13

请问在特征数据中如何统计一段时间内某个条件出现次数

问题

例如我要在特征中加入一个因子:统计30日内收益小于5%的天数,该怎么写

解答

{w:100}

更新时间:2023-06-01 02:13

算法那么多,如何给策略选择最佳的算法?

\

作者

徐耀杰(woshisilvio)

常见算法优劣比较

算法没有最好,只有更好。 这个问题的答案取决于许多因素,例如股票市场的条件,数据集的质量和特征工程的有效等。接下来,我们来看看这些算法的优势和劣势:

  1. 神经网络:适用于复杂的非线性问题,可以有效地捕捉市场的非线性特征和复杂关系。
  2. 决策树:适用于数据量较小、特征维度较少的情况,可以很好地解释模型的决策过程。
  3. 随机森林:适用于处理高维度、复杂数据集,具有很好的鲁棒性和准确性。
  4. 支持向量机:适用于数据量较小、特征维度较高的情况,可以有效地处理非线性和线性可分问题。

正常情况下,在处理少量的股票量

更新时间:2023-04-27 02:56

K近邻分类算法选股,提示错误

问题

{w:100} {w:100}请问这个错误是什么原因

解答

筛选过后的classes_prob_0没有数据,则索引[0]找不到相关的数据

更新时间:2022-12-20 14:20

模型

模型板块包含了AI算法模型,多因子模型等一些研究内容。

更新时间:2022-12-06 14:42

用传统框架测试机器学习-GBDT算法

策略案例

https://bigquant.com/experimentshare/44cc116a1dad4c37983b9be35da208ee

\

更新时间:2022-11-20 03:34

如何在特征里把另一个特征值连续加

问题

想实现如下功能: 特征A:判断5日均线>10日均线,记1,否则计-1 特征B:sum(‘A’,10) 记录10天内5日大于10日的天数

如果a用where(ta_sma_5_0>=ta_sma_10_0,1,-1) ,则B无法sum; sum(int(‘A’),10), invalid function: int 转换也不让用

请问该如何实现这个特征呢?

更新时间:2022-09-16 00:27

中国市场中怎样用机器学习来做股票投资

摘要

文献来源:Leippold, M., Wang, Q. & Zhou, W. (2021). Machine-Learning in the Chinese Stock Market. Journal of Financial Economics.

推荐原因:随着机器学习在金融和经济领域的应用迅速兴起,越来越多的学者利用机器学习工具研究股票的截面和时间序列预测。而中国股票市场历史较短,制度依然处于不断完善的阶段,有着自身的特殊性。本文根据中国市场的特征构建了一个全面的股票收益预测因子集,并利用几大流行的机器学习算法进行实证分析。经过CSPA条件预测能力检验,作者发现神经

更新时间:2022-08-31 08:45

机器学习流程和算法介绍及金融领域应用实例-长江证券-20180207

摘要

机器学习问题和其流程

机器学习问题本质上在于找出使得经验风险泛函(样本误差)最小的建模流程,基本的流程可以分为特征工程、模型训练和模型融合。本篇就上述三个过程,给出相关算法的介绍,并补充了之前系列报告中未详细介绍的内

机器学习三大步骤

特征工程包含特征构建、特征提取和特征选择三个过程,以选择相对最优的特征空间。特征工程往往会采用无监督和有监督的机器学习算法。机器学习模型可以分为线性模型、树模型和深度学习模型。线性模型主要体现了数据中的线性关系,如输入与输出的线性关系,点集的线性可分;树模型可以很好的捕捉输入与输出的非线性关系,和线性模型相辅相成。一些改进的随

更新时间:2022-08-31 01:53

监督学习的方法介绍及金融领域应用实例-长江证券-20170727

摘要

机器学习系列报告

本系列报告试图系统全面性的介绍各种不同的机器学习方法,并且结合具体的在投资研究领域应用实例、交易策略及code示例,说明其应用情景和实现方法。机器学习的方法可以分为以下几类:监督学习、无监督学习、深度学习及其他机器学习方法(例如强化学习),对应到具体的模型上数量则更是繁多,目前大部分机器学习模型并未广泛的应用在投研领域,因此本系列主要偏重于在投研领域有应用潜力的模型及方法。此篇将以介绍监督学习方法为主

监督学习模型之回归类模型及其应用

与普通线性回归不同,监督学习中的惩罚回归模型和非参数回归,可以分别用于处理输入变量中存在大量线性相关性关系

更新时间:2022-08-31 01:52

用python进行量化数据预处理

数据预处理是任何机器学习模型的基本要求。预处理数据意味着使用机器学习模型易于读取的数据。在本文中,我们将讨论数据预处理的基础知识以及如何使数据适合机器学习模型。

什么是数据预处理?

数据预处理是准备原始数据并使其适用于机器学习模型的过程。数据预处理包括数据清理,将数据提供给机器学习模型。数据清洗后,数据预处理需要将数据转换为机器学习模型可以理解的格式。


为什么需要数据预处理?

数据预处理主要用于以下方面:

  • 准确的数据:机器学习模型可读的准确的量化数据

更新时间:2022-07-20 11:20

LSTM大盘择时+Stockranker选股

策略案例


https://bigquant.com/experimentshare/a5ed3eddf32f4e4dad4811a1acc257f0

\

更新时间:2022-07-17 13:50

分页第1页第2页第3页