特征提取

在金融领域，特征提取是一个至关重要的过程，它涉及到从海量的、多样化的金融数据中提炼出有意义且可操作的信息。这些数据可能来自于股票市场、债券市场、外汇市场、商品市场等，其形式可能是价格、成交量、财务报表、新闻报道等。特征提取的目标是利用统计学、机器学习等技术，将这些原始数据转化为能够揭示金融市场运行规律的特征。有效的特征提取不仅可以增强我们对市场行为的理解，而且可以提升预测模型的准确性和稳健性。例如，通过分析历史价格数据，我们可以提取出波动率、动量等特征，进而构建出能够预测未来价格走势的模型。又如，通过自然语言处理技术，我们可以从新闻和社交媒体数据中提取出市场情绪特征，用以解释和预测市场的短期波动。总的来说，特征提取是从金融数据中提炼有价值信息的桥梁，对于金融分析、风险管理和投资决策等领域具有深远的影响。在不断发展的金融科技领域中，特征提取的方法和技巧也在不断地进步和优化，以适应日益复杂和多变的金融市场环境。

问题

能否拿到GBDT的特征重要性

解答

和随机森林去提取特征重要性一样

更新时间：2022-12-20 14:20

策略案例

https://bigquant.com/experimentshare/6ac00fc386f74acb886b8168d7809b98

更新时间：2022-11-20 03:34

策略案例

https://bigquant.com/experimentshare/9426627188af4f488644532c01328c14

更新时间：2022-11-20 03:34

Learning a Vector Representation of Time

/wiki/static/upload/c9/c94fbe09-58ac-483f-8d29-ba184e00cfb3.pdf

更新时间：2022-08-31 09:37

QIML Insight：基于多源特征及机器学习的股票聚类模型

核心观点

本文提出了一种基于数据驱动的行业分类方法，该方法以不同的粒度级别将类似的公司聚集在一起；机器学习的技术可以从相关数据源中提取特征，并学习相关关系，从而识别出在样本外时期风险回报情况相似的公司。历史收益相关性、GICS分类、10-K报告、规模、动量、资产负债率等基本因子对企业相似性的预测贡献最大。

行业分类体系在投资组合构建中有着非常广泛的应用，一个好的行业分类体系有以下两个特点：最小化组内股票的差距和最大化的组间股票区别。构建投资组合时，投资者往往通过分散行业配置来达到组合风险分散化的效果。但这种基于公司业务的分类体系，相对比较固定，在多变的市场环境及多样的市场观念下，很多

更新时间：2022-08-31 07:21

摘要

{w:100} 公众号遴选了各大期刊前沿论文，按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章，愿与你共同进步！

本期遴选论文标题：FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational Autoencoder for Predicting Cross-sectional Stock Returns

更新时间：2022-08-31 06:22

机器学习流程和算法介绍及金融领域应用实例-长江证券-20180207

摘要

机器学习问题和其流程

机器学习问题本质上在于找出使得经验风险泛函（样本误差）最小的建模流程，基本的流程可以分为特征工程、模型训练和模型融合。本篇就上述三个过程，给出相关算法的介绍，并补充了之前系列报告中未详细介绍的内

机器学习三大步骤

特征工程包含特征构建、特征提取和特征选择三个过程，以选择相对最优的特征空间。特征工程往往会采用无监督和有监督的机器学习算法。机器学习模型可以分为线性模型、树模型和深度学习模型。线性模型主要体现了数据中的线性关系，如输入与输出的线性关系，点集的线性可分；树模型可以很好的捕捉输入与输出的非线性关系，和线性模型相辅相成。一些改进的随

更新时间：2022-08-31 01:53

华泰证券-华泰证券人工智能52：神经网络组合优化初探 202201

摘要

初步探索基于神经网络的组合优化

在基于因子的量化投资流程中，因子生成、多因子合成、组合优化是三个重要步骤。组合优化一般是指通过凸优化方法将收益预测转换为资产权重的步骤，本文将尝试把组合优化融入到神经网络中，构建端到端的量化投资框架，该框架输入资产的原始数据，通过神经网络进行特征提取和合成，再通过可传播梯度的凸优化层(如 CvxpyLayers)优化得到资产权重，目标函数可直接定义为资产组合的收益率或其他指标，并以该目标优化整个神经网络。本文以资产配置中的风险预算模型为例，测试了基于神经网络的组合优化效果。在合理限制下，模型在两组资产配置测试中均能获得更好的收益表现。

更新时间：2022-07-25 09:16

华泰人工智能系列之十五：人工智能选股之卷积神经网络-华泰证券-20190213

摘要

卷积神经网络引领深度学习的发展，能够运用于多因子选股

卷积神经网络（CNN）是目前最为成熟的深度学习模型，是近年来人工智能蓬勃发展的重要推手之一，其主要特点是通过卷积和池化操作进行自动的特征提取和特征降维。本文首先通过原理分析给出了CNN运用于多因子选股的经验方法；然后在全A股票池内对CNN的预测结果进行单因子测试，其单因子测试结果相比对比模型具有良好表现；本文还构建了行业、市值中性全A选股策略并进行回测，CNN在以中证500为基准的全A选股测试中相比对比模型表现优秀。

本文通过原理分析总结了卷积神经网络运用于多因子选股的经验方法

将卷积神经网络运用于多因子

更新时间：2021-11-26 07:30

LSTM模型构建

导语

本文将介绍LSTM模型的原理与构建其选股模型的流程

LSTM简介

循环神经网络（RNN）

传统的神经网络是基于所有时刻的输入和输出间相互独立的假设来生成已学习数据的静态模型，并根据新接受的数据进行运算。但在很多情景中，如语音识别中预测当前的单词的含义，需要知道之前的输出结合上文语境做出判断，循环神经网络（Recurrent Neural Networks，简称 RNN）可以用于解决这类问题。循环神经网络也被称为递归神经网络是受到人类对于近期事件会有所保留的背景而启发，循环神经网络会随着数据的输入生成动态模型。理论上，RNN可以支持无限长的时间序列，然

更新时间：2021-07-30 08:19

Transformer在量化选股中的应用

一、基于时间嵌入的方法

原文链接：https://towardsdatascience.com/stock-predictions-with-state-of-the-art-transformer-and-time-embeddings-3a4485237de6

当前应用于NLP领域的Transformer，结构过于庞大，并不适用于股票数据（开盘价，收盘价，最高价，最低价，等）这样的时序数据，因此，本文提出一种简化的适用于股票数据的Transformer结构，其根据时间嵌入的思想构建，能很好的应用于量化选股中。下面以一个例子来介绍用于股票数据的Transformer体系结构，以及

更新时间：2021-02-03 07:05

分页第1页第2页

特征提取

能否拿到GBDT的特征重要性

问题

解答

AI+涨停板特征提取

策略案例

分享一个可视化深度学习建模的例子

策略案例

Learning a Vector Representation of Time

QIML Insight：基于多源特征及机器学习的股票聚类模型

核心观点

FactorVAE：基于变分自编码器的动态因子模型

摘要

机器学习流程和算法介绍及金融领域应用实例-长江证券-20180207

摘要

华泰证券-华泰证券人工智能52：神经网络组合优化初探 202201

摘要

华泰人工智能系列之十五：人工智能选股之卷积神经网络-华泰证券-20190213

摘要

LSTM模型构建

导语

LSTM简介

循环神经网络（RNN）

Transformer在量化选股中的应用

一、基于时间嵌入的方法