特征工程

特征工程在金融领域的应用，实质上是利用数据和统计学方法，挖掘和提炼影响金融决策的关键因素，将之转化为模型可理解的特征，进而提高金融模型的预测能力和决策效率。特征工程涉及特征构建、特征选择以及特征转换等环节，它能从复杂多变的市场环境中提取出关键信息，帮助金融机构在风险评估、投资策略、信贷审批等核心业务上做出更精准、更智能的决策。例如，在信贷风险评估中，特征工程可以通过整合借款人的历史信用记录、财务状况、社交网络行为等多维度数据，构建出全面而深入的风险评估特征，进而增强风险模型的预测精度，提升信贷决策的科学性和有效性。总的来说，特征工程对于金融机构提升数据驱动决策的能力，实现更精细化、智能化业务管理有着重要的价值和意义。

AI赋能金融：构建基于WebSocket的实时特征工程数据流

在金融AI领域，模型的预测能力不仅取决于算法的优劣，更取决于数据“喂养”的新鲜度。作为负责策略落地的技术支持，我经常听到算法工程师抱怨：训练好的强化学习模型，在实盘对接时因为数据流的不稳定而由于表现“并不聪明”。

数据流：AI模型的血液 客户的需求是智能预警，而痛点在于传统的API接口无法提供足够细颗粒度的数据来支撑AI的实时推理。为了让模型在盘中实时生成Alpha信号，我们需要构建一条永不干涸的数据流水线。

技术架构的重构 我们放弃了低效的轮询机制，转向了WebSocket流式传输。这不仅是为了快，更是为了数据的完整性。在处理诸如EUR/USD这样流动性极高的标的时，任何

更新时间：2026-01-29 06:39

特征工程的基础：如何获取高质量的港股 Tick 流数据？

在量化策略的研发链条中，大家往往过分关注模型（Model），而忽视了数据（Data）。但在实战中，Garbage In, Garbage Out 是铁律。对于港股这种机构主导的市场，K线图已经丢失了太多的博弈细节，只有 Tick 级数据才能还原市场的微观结构。

今天分享一下，如何在本地构建一个高可用的 Tick 数据流管道。

技术架构的思考 在高频因子的计算中，延迟是不可容忍的。因此，轮询架构直接 Pass。我们需要基于 Event-Driven（事件驱动）的 WebSocket 架构。

代码落地：极简主义 我不喜欢为了炫技而引入复杂的框架。在数据接入层，越简单越

更新时间：2026-01-27 08:46

lightgbm AI量化选股策略

https://bigquant.com/codesharev3/f2067f57-5788-4bae-b0f2-acd3f613c0ff

更新时间：2026-01-05 07:34

选取了IC较高的因子后，如何合成一个策略，一般步骤是什么

在因子开发研究完之后，选取了|IC|较高的几个因子后，一般如何合成一个策略，即在工程方法论上的一般步骤是什么？比如应该如何选择哪些模型进行合成（树模型or深度学习模型，是否有规律），分别是否都必须在训练前进行特征工程的处理再训练（去极值、中性化去除相关性），比如是否需要探查各个因子的相关性（如果多个因子存在一定的相关性，一般相关度大于多少需要进行处理，是否需要逐对特征两两取残差）

“水中行舟”研报如何用dai的SQL方式来实现？

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间：2025-12-30 06:37

深度学习在期货高频上的应用

8月19日Meetup问题模板：

https://bigquant.com/experimentshare/f58dbfb388454407b8a2b99eb14cf1ea

更新时间：2025-12-30 06:37

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2025-12-30 06:37

问题

在机器学习中策略中，数据正态分布或方形分布对训练的准确性产生重要影响吗？如果有，有什么方法处理呢？

视频

https://www.bilibili.com/video/BV1jT4y1R7wc?share_source=copy_web

更新时间：2025-12-30 06:37

作者

徐耀杰（woshisilvio）

常见算法优劣比较

算法没有最好，只有更好。这个问题的答案取决于许多因素，例如股票市场的条件，数据集的质量和特征工程的有效等。接下来，我们来看看这些算法的优势和劣势：

神经网络：适用于复杂的非线性问题，可以有效地捕捉市场的非线性特征和复杂关系。
决策树：适用于数据量较小、特征维度较少的情况，可以很好地解释模型的决策过程。
随机森林：适用于处理高维度、复杂数据集，具有很好的鲁棒性和准确性。
支持向量机：适用于数据量较小、特征维度较高的情况，可以有效地处理非线性和线性可分问题。

正常情况下，在处理少量的股票量

更新时间：2025-12-30 06:37

特征取分位数据

2021年7月8日Meetup模板：

https://bigquant.com/experimentshare/4fa50659ea5340188b574e288c0f9903

更新时间：2025-12-30 06:37

【其他】特征是哑变量，可以加到stockranker模型中吗？

问题

逻辑上，以每一天回顾历史，比较是否是新低日，然后return一个bool变量。以这样的变量得到新的特征列，然后用自定义模块输入到模型中

更新时间：2025-02-16 01:11

【其他】Tabnet如何实现分类任务

https://bigquant.com/experimentshare/75aff243f241447da1d1994ed9d29c44

如何实现分类任务啊，怎么在原有策略上修改

更新时间：2025-02-15 15:36

【平台使用】XGBoost分类模型如何评价

缺少pred_lable，怎么样能把这个加上？？

https://bigquant.com/experimentshare/33b77199cc314cdba3fde44c917e60b3

更新时间：2025-02-15 15:33

【其他】三种构建大盘风控指标的方法关于策略代码能否提供？谢谢

三种构建大盘风控指标的方法关于LSTM+CNN的模型进行大盘风控的策略代码未找到，能否提供一下，谢谢。

https://bigquant.com/wiki/doc/dapan-zhibiao-fangfa-MoB3kNcAMG

更新时间：2025-02-15 15:09

【其他】请问如何构建消息类因子？

消息在股票交易中有很大的影响力，如果没有对消息的处理会导致策略经常中雷，怎么办呢？

更新时间：2025-02-15 14:25

【指标定制】如何获取指定天数的涨停次数？

需要在特征里表述，之前5日涨停次数我是这么写的：

ztnum=where(price_limit_status_0==3,1,0)+where(price_limit_status_1==3,1,0)+where(price_limit_status_2==3,1,0)+where(price_limit_status_3==3,1,0)+where(price_limit_status_4==3,1,0)

对于周期较长的，这种写法就不太合适了。

更新时间：2025-02-15 14:10

【平台使用】用自定义的数据或者因子，结合原有因子，进行机器学习策略选股遇到的问题

如何把我的因子中创建的因子，引入输入特征列表模块中

假设我们采用新的模版代替原来输入特征列表的部分？直接用“输入特征（DAI SQL）”代替，貌似报错了。或者有相关用新模版建立线性-回归算法策略的文档吗，这样就可以用自己的数据进行策略分析了。

![](/wiki/api/attac

更新时间：2025-02-15 12:00

机器学习量化投资实战指南

本文14323字，阅读约28分钟

导语：本文旨在用精炼的语言阐述实操层面的机器学习量化应用方法，包括给出实践中一些常见、实际问题的处理方案，并结合了量化应用实例。读完后大家可以在本平台进行实践检验。

文章概览：

1.人工智能量化投资概述

2.人工智能技术简介

3.机器学习在量化投资中应用的具体方法解析

AI相对于传统量化投资的优势 传统的量化投资策略是通过建立各种数学模型，在各种金融数据中试图找出市场的规律并加以利用，力所能及的模式或许可以接近某一个局部的最优，而真正的全局“最优解”或许在我们的经验认知之外。如同不需要借助人类经验的Alpha Zero，不仅

更新时间：2025-01-09 10:19

一文读懂遗传算法（附python）

几天前，我着手解决一个实际问题——大型超市销售问题。在使用了几个简单模型做了一些特征工程之后，我在排行榜上名列第 219 名。

{w:100%}{w:100}{w:100}{w:100}

虽然结果不错，但是我还是想做得更好。于是，我开始研究可以提高分数的优化方法。结果我果然找到了一个，它叫遗传算法。在把它应用到超市销售问题之后，最终我的分数在排行榜上一下跃居前列。

![{w:100%}{w:100}{w:100}{w:100}](/

更新时间：2024-12-31 08:29

引言

在量化交易与数据科学领域，特征工程是一个至关重要的步骤，直接影响到模型的预测能力与效果。OpenFE 是一个开源的特征工程框架，旨在帮助研究人员和工程师快速生成高质量的特征。然而，原始版本的 OpenFE 算子虽然功能强大，但在某些应用场景下仍存在一定的局限性。为了更好地满足我们在量化研究中的需求，我对 OpenFE 算子进行了重新构建，丰富衍生特征生成；并将其与 XGBoost 相结合，用于特征重要性评估，方便后续标的打分。

本文将详细介绍这一重构过程，并通过实际案例展示如何使用这一改进后的算子生成衍生特征，并使用 XGBoost 进行特征重要性评估，从而优化我们的量化模型。

更新时间：2024-12-24 06:43

【指标定制】线性回归预测上涨概率是否合理？

线性回归模型和上涨概率预测

代码中使用线性回归模型预测特征：

IF(m_lead(close, 5) / m_lead(open, 1) - 1 > 0, 1, 0) AS label

但是特征label只有0，1两个值和特征进行训练，使用linearRegression是不是不合理，训练集中的label也只有两个值，那预测集的label结果能用么？

[https://bigquant.com/codesharev3/12ee99fc-3c41-46bd-bdb0-7d0993d0f845](https://bigquant.com/codeshar

更新时间：2024-11-25 01:45

零基础《AI挑战虚拟股票预测大赛》入门教程

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-06-12 06:00

监督式机器学习算法的应用：择时

旧版声明

本文为旧版实现，仅供学习参考。

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

导语

《Machine Learning for Stock Price Forecasting》是Ali El-Shayeb撰写的机器学习系列文章，本文主要介绍其第二部分内容——《监督式机器学习算法的应用》，并将其思想和代码应用在中国股票市场，开发出具有择时功能的监督式机器学习算法，最后进行策略回测。对此感兴趣的小伙伴可以直接在

更新时间：2024-06-12 05:57

分页第1页第2页第3页

特征工程

AI赋能金融：构建基于WebSocket的实时特征工程数据流

特征工程的基础：如何获取高质量的港股 Tick 流数据？

lightgbm AI量化选股策略

71st Meetup

选取了IC较高的因子后，如何合成一个策略，一般步骤是什么

“水中行舟”研报如何用dai的SQL方式来实现？

深度学习在期货高频上的应用

如何构建高频的订单流与成交量分布因子

更新

数据正态分布或方形分布对训练的准确性的影响

问题

视频

算法那么多，如何给策略选择最佳的算法？

作者

常见算法优劣比较

特征取分位数据

【平台使用】用财务因子怎么构建机器学习策略？

【其他】特征是哑变量，可以加到stockranker模型中吗？

问题

【代码报错】Transformer模型固化后预测出错？

【其他】Tabnet如何实现分类任务

【平台使用】XGBoost分类模型如何评价

【其他】三种构建大盘风控指标的方法关于策略代码能否提供？谢谢

【其他】stockranker是否能用01变量做特征？

【其他】请问如何构建消息类因子？

【指标定制】如何获取指定天数的涨停次数？

【平台使用】用自定义的数据或者因子，结合原有因子，进行机器学习策略选股遇到的问题

机器学习量化投资实战指南

文章概览：

一文读懂遗传算法（附python）

基于OpenFE的期货因子挖掘

引言

【指标定制】线性回归预测上涨概率是否合理？

零基础《AI挑战虚拟股票预测大赛》入门教程

更新

监督式机器学习算法的应用：择时

旧版声明

导语