特征工程

特征工程在金融领域的应用,实质上是利用数据和统计学方法,挖掘和提炼影响金融决策的关键因素,将之转化为模型可理解的特征,进而提高金融模型的预测能力和决策效率。特征工程涉及特征构建、特征选择以及特征转换等环节,它能从复杂多变的市场环境中提取出关键信息,帮助金融机构在风险评估、投资策略、信贷审批等核心业务上做出更精准、更智能的决策。例如,在信贷风险评估中,特征工程可以通过整合借款人的历史信用记录、财务状况、社交网络行为等多维度数据,构建出全面而深入的风险评估特征,进而增强风险模型的预测精度,提升信贷决策的科学性和有效性。总的来说,特征工程对于金融机构提升数据驱动决策的能力,实现更精细化、智能化业务管理有着重要的价值和意义。

71st Meetup

选取了IC较高的因子后,如何合成一个策略,一般步骤是什么

在因子开发研究完之后,选取了|IC|较高的几个因子后,一般如何合成一个策略,即在工程方法论上的一般步骤是什么?比如应该如何选择哪些模型进行合成(树模型or深度学习模型,是否有规律),分别是否都必须在训练前进行特征工程的处理再训练(去极值、中性化去除相关性),比如是否需要探查各个因子的相关性(如果多个因子存在一定的相关性,一般相关度大于多少需要进行处理,是否需要逐对特征两两取残差)

\

“水中行舟”研报如何用dai的SQL方式来实现?

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间:2024-03-15 03:36

用自定义的数据或者因子,结合原有因子,进行机器学习策略选股遇到的问题

如何把我的因子中创建的因子,引入输入特征列表模块中

假设我们采用新的模版代替原来输入特征列表的部分?直接用“输入特征(DAI SQL)”代替,貌似报错了。或者有相关用新模版建立线性-回归算法策略的文档吗,这样就可以用自己的数据进行策略分析了。

![](/wiki/api/attac

更新时间:2024-02-04 02:45

利用 gplearn 进行特征工程

前言

featuretools有专门的 transfrom 类的特征处理方式,但是我在实际使用中没有使用,因为featuretool的思路是凡是能够进行特征变换的特征都要应用一遍,所以应用的模式基本上是生成大量的性能不强的特征,下一步必须进行严格的。

所以今天尝试用gplearn进行一下特征工程,本人能力有限,如有错误还请指正,也欢迎交流。

gplearn

gplearn是Python内最成熟的符号回归算法实现,作为一种一种监督学习方法,符号回归(symbolic regression)试图发现某种隐藏的数学公式,以此利用特征变量预测目标变量。

符号回归的具体实现方式是遗

更新时间:2024-01-14 04:45

华泰研报:XGboost实现有序回归

策略源码:

{{membership}}

https://bigquant.com/codeshare/a290e569-7680-45d7-86be-f6c81c18a1e6

\

更新时间:2023-12-11 06:46

零基础《AI挑战虚拟股票预测大赛》入门教程

https://bigquant.com/experimentshare/57c7495eba374b90b4d5747154df41b8

\

更新时间:2023-11-26 16:58

机器学习量化投资实战指南

本文14323字,阅读约28分钟

导语:本文旨在用精炼的语言阐述实操层面的机器学习量化应用方法,包括给出实践中一些常见、实际问题的处理方案,并结合了量化应用实例。读完后大家可以在本平台进行实践检验。

文章概览:

1.人工智能量化投资概述

2.人工智能技术简介

3.机器学习在量化投资中应用的具体方法解析

AI相对于传统量化投资的优势 传统的量化投资策略是通过建立各种数学模型,在各种金融数据中试图找出市场的规律并加以利用,力所能及的模式或许可以接近某一个局部的最优,而真正的全局“最优解”或许在我们的经验认知之外。如同不需要借助人类经验的Alpha Zero,不仅

更新时间:2023-11-26 16:58

监督式机器学习算法的应用:择时

导语

《Machine Learning for Stock Price Forecasting》是Ali El-Shayeb撰写的机器学习系列文章 ,本文主要介绍其第二部分内容——《监督式机器学习算法的应用》,并将其思想和代码应用在中国股票市场,开发出具有择时功能的监督式机器学习算法,最后进行策略回测。对此感兴趣的小伙伴可以直接在本文文末克隆策略源代码,进行深入和扩展研究。

《监督式机器学习算法的应用》

Ali El-Shayeb通过价格和成交量相关的9个特征训练模型,特征列表和数据来源见下图。

![](/community/uploads/default/origin

更新时间:2023-11-26 16:58

利用机器学习对冲风险

https://bigquant.com/experimentshare/d50ee96c36f84af6ad990409294db4cb

\

更新时间:2023-11-26 16:58

一文读懂遗传算法(附python)


几天前,我着手解决一个实际问题——大型超市销售问题。在使用了几个简单模型做了一些特征工程之后,我在排行榜上名列第 219 名。

{w:100%}{w:100}{w:100}{w:100}

虽然结果不错,但是我还是想做得更好。于是,我开始研究可以提高分数的优化方法。结果我果然找到了一个,它叫遗传算法。在把它应用到超市销售问题之后,最终我的分数在排行榜上一下跃居前列。

![{w:100%}{w:100}{w:100}{w:100}](/

更新时间:2023-11-26 16:58

特征是哑变量,可以加到stockranker模型中吗?

问题

逻辑上,以每一天回顾历史,比较是否是新低日,然后return一个bool变量。以这样的变量得到新的特征列,然后用自定义模块输入到模型中

更新时间:2023-10-09 07:55

Transformer模型固化后预测出错?

{w:100}

\

更新时间:2023-10-09 07:35

用财务因子怎么构建机器学习策略?

\

更新时间:2023-10-09 07:09

Tabnet如何实现分类任务

https://bigquant.com/experimentshare/75aff243f241447da1d1994ed9d29c44

如何实现分类任务啊,怎么在原有策略上修改

更新时间:2023-10-09 07:05

XGBoost分类模型如何评价

缺少pred_lable,怎么样能把这个加上??

https://bigquant.com/experimentshare/33b77199cc314cdba3fde44c917e60b3

\

更新时间:2023-10-09 07:03

三种构建大盘风控指标的方法关于策略代码能否提供?谢谢

三种构建大盘风控指标的方法关于LSTM+CNN的模型进行大盘风控的策略代码未找到,能否提供一下,谢谢。

https://bigquant.com/wiki/doc/dapan-zhibiao-fangfa-MoB3kNcAMG

更新时间:2023-10-09 06:28

stockranker是否能用01变量做特征?

比如 PE>0这种变量

更新时间:2023-10-09 03:40

请问如何构建消息类因子?

消息在股票交易中有很大的影响力,如果没有对消息的处理会导致策略经常中雷,怎么办呢?

更新时间:2023-10-09 03:28

如何获取指定天数的涨停次数?

需要在特征里表述,之前5日涨停次数我是这么写的:

ztnum=where(price_limit_status_0==3,1,0)+where(price_limit_status_1==3,1,0)+where(price_limit_status_2==3,1,0)+where(price_limit_status_3==3,1,0)+where(price_limit_status_4==3,1,0)

对于周期较长的,这种写法就不太合适了。

更新时间:2023-10-09 02:52

【参赛】Deep Alpha-CNN策略克隆&调参擂台赛

\

更新时间:2023-06-27 03:23

数据标注

导语

在AI量化策略开发第一步中,我们已经完成了训练集和预测集数据范围的设置。接下来在第二步中,我们来学习如何使用数据标注模块来设置我们的训练目标。

数据标注是有监督学习算法的关键,标注是否能够准确描述问题的目标直接影响模型的有效性。


{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

数据标注

添加模块

第一步:在模块列表的数据标注下找到自动标注(股票)模块,并拖入

更新时间:2023-06-14 07:56

【深度学习之美02】深度学习的方法论是什么?

再议“end-to-end”(端到端)

在深度学习中,经常有“end-to-end(端到端)”学习的提法,与之相对应的传统机器学习是“Divide and Conquer(分而治之)”。这些都是什么意思呢?

“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端),中间过程不可知,也难以知。比如说,基于深度学习的图像识别系统,输入端是图片的像素数据,而输出端直接就是或猫或狗的判定。这个端到端就是:像素判定。

再比如,“end-to-end”的自动驾驶系统,输入的是前置摄像头的视频信号(其实也就是像素),而输出的直接就是控制车辆行驶指令(

更新时间:2023-06-14 03:02

量化交易&机器学习干货精选

故不积跬步,无以至千里;不积小流,无以成江海。--《荀子·劝学篇》

1.机器学习用于选股,对财务数据的特征学习,居然还是小市值NB....

2.机器学习,海量数据预测股票的未来趋势,+Model的研究

3.机器学习之神经网络入门

4.[随

更新时间:2023-06-14 03:02

机器学习复习笔记之预处理过程

无论在数据分析还是机器学习中,数据预处理都是非常麻烦枯燥但又必须去做的步骤。

其实数据预处理和特征工程,两者并无明显的界限,都是为了更好的探索数据集的结构,获得更多的信息,将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理,特征工程是高级的特征处理,也可以说这里的预处理过程是广义的,包含所有的建模前的数据预处理过程。

探索数据集(探索性数据分析EDA)

1、了解数据集的背景知识

(1)领域知识

(2)训练集、验证集、测试集同分布问题

验证集和测试集要同一分布,这是一个评估指标设定问题

比如你的验证集是美国房价,测试集是

更新时间:2023-06-14 03:02

机器学习复习笔记之模型构建和优化过程

机器学习流水线

预处理过程

探索数据集、数据预处理、特征工程。

——见相关笔记

构建模型过程

包括构建模型的预处理,选择算法与模型优化,而模型优化涉及评估验证和调参。

预测过程

系统设计指导原则

快速搭建你的第一个系统,然后开始迭代。而不是妄图一口吃成个胖子,一下就能搭建出复杂而完美的系统。

不断地验证,不断地调试,不要妄图一下就写出一个完美的模型,而宁愿一开始比较粗糙,比较简单,但迅速实现,然后一步一步的误差分析和优化而使它变好。


构建模型的预处理过程

1、提取特征集和标签

label

更新时间:2023-06-14 03:02

机器学习复习笔记之无监督学习

监督和非监督最简单的区别,一个数据是带label的,一个数据是不带label的。

本身并没有标签,但却能用算法归类,赋予标签。所以说聚类等无监督学习算法除了同样有分类的功能,而且还有探索数据、分析数据的内在结构、发现数据内在的隐藏信息等重要功能。所以聚类(赋予标签值)、特征工程等非监督学习算法常用在监督学习之前的步骤,非监督算法中的A不只代表算法(algorithm),也代表数据分析中的分析(analysis)。


聚类

事先没有标签,通过观察数据、进行聚类,最终将其分类。(物以类聚)

辨别出数据集中存在的簇(clumps)或聚类(cluster),其实也就是发

更新时间:2023-06-14 03:02

分页第1页第2页第3页