数据清洗

从金融角度看，数据清洗是一个至关重要的环节，它涉及到对原始数据进行核查、校验、修正和标准化，以确保数据的质量和准确性。在金融领域，数据的准确性和完整性对于风险管理、投资决策以及监管报告等都具有决定性意义。通过有效的数据清洗，金融机构能够提高数据分析的效率，降低因数据错误导致的决策风险，进而在竞争激烈的市场中保持领先地位。此外，随着金融科技的不断发展，自动化和智能化的数据清洗工具也在不断涌现，它们能够大幅提升数据处理的速度和准确性，为金融机构提供更加可靠的数据支撑。

量化因子的生命线：聊聊港股实时数据的清洗与接入

摘要

在AI量化（AI Quant）领域，模型的预测能力高度依赖于输入数据的质量与时效性（GIGO原则）。对于港股市场，由于其流动性分布不均，传统的Bar数据往往丢失了大量的微观结构信息。本文将探讨如何利用WebSocket技术接入原始Tick数据，并进行实时清洗与特征工程，为高频因子模型提供高质量的“燃料”。

问题的提出

在训练基于订单流（Order Flow）的深度学习模型时，我们需要精确到毫秒级的时间戳和每一笔成交的细节。市面上很多免费数据源提供的是快照（Snapshot）而非逐笔（Tick），这会导致回测过拟合。为了解决这个问题，我采用了AllTick提供的原

更新时间：2026-02-13 05:44

量化工程实战：构建高吞吐量的港股Tick数据清洗管道

在AI量化模型（如LSTM或Transformer）的训练中，数据工程（Data Engineering）往往占据了80%的时间。最近我们在构建港股的高频因子库，面临的一个巨大挑战是如何获取并清洗原始的Tick流数据。

数据工程师的噩梦 与A股不同，港股的交易指令更加复杂，且由于机构主导，盘口变化极快。如果我们使用传统的爬虫去抓取网页数据，面临的不仅是反爬验证码，还有非结构化的HTML解析带来的巨大延迟。对于特征工程来说，我们需要的是标准化的、字段清晰的JSON数据。

Pipeline设计思路 为了保证入库数据的质量，我们设计了一套基于Python的数据接入管道。在数据源

更新时间：2026-02-10 03:35

因子挖掘的基础设施：如何构建高保真的外汇 Tick 数据流？

在 AI 量化领域，模型的预测能力上限取决于数据质量（Garbage In, Garbage Out）。对于外汇这种高信噪比的市场，Tick 级别的数据清洗和录入是构建任何高频因子的前置条件。

很多宽客（Quant）在做特征工程时，习惯使用 1 分钟 K 线（OHLC）。但在外汇市场，大量的信息（如买卖盘口的微观失衡）是隐藏在 Tick 数据流中的。普通的 REST API 往往会有数据采样偏差，无法还原真实的市场微观结构。

为了获取未经采样的原始报价，我们需要构建一套流式数据管道。我个人倾向于使用 Python 的 WebSocket 协议直接对接行情源。以我最近接入的 [AllTick

更新时间：2026-01-28 08:00

1月8日：如何在sql中使用python函数

当SQL遇见Python：解锁量化数据处理新姿势！\n——udf注册使用方法\n❓ 复杂因子计算，SQL写到手软？\n❓ 另类数据清洗，代码臃肿难维护？\n

https://bigquant.com/bigapis/college/v1/files/d646bcac-7958-441d-aebd-34ce60c48397

更新时间：2026-01-08 08:44

62nd Meetup

数据因子：

如何用可视化的方式提取自己构造入库的因子，提取后需要特征抽取吗？
如何在可视化模块中读取csv数据表中的数据？
什么时候需要用到基础/衍生特征抽取？
如何在双均线策略上增加收入增长，上市时间大于1年，小于5年的筛选因子？
如何确保数据准确性和完整性，如何清洗数据？

策略优化：

量化策略真的有效吗？
如何获取有效的策略？
验证策略需要自己搭建平台还是使用开源的？
是否需要自己部署程序，还是可以在平台建立量化策略，哪种方式比较好？
如何找到价格在年均线底部的股票？
如何筛选月内涨幅大于10%，小于30%的股票？

更新时间：2025-12-30 06:37

因子构建

9月24日Meetup 模板案例：

策略案例

https://bigquant.com/experimentshare/51adf36b114f4563b853329db07b3595

更新时间：2025-12-30 06:37

构建日历周线级别因子

https://bigquant.com/experimentshare/f5061810f6e34b71ad59641c2f54e290

更新时间：2025-12-30 06:37

初赛入围答疑帖

组委会已完成数据清洗工作，现根据私榜排名公布入围总决赛的团队名单（详见附图）。

未进入决赛的同学若对成绩存有疑问，请尽快通过以下方式联系我们：

在本帖留言
直接与组委会沟通

组委会将及时回应并解答相关疑问。

由于 BigQuant 平台周末维护，我们将2025年11月24日至2025年11月25日为问题反馈阶段，请参赛者于25日24:00前与组委会进行沟通。

疑问提交格式

更新时间：2025-11-24 06:30

谢谢

更新时间：2025-02-15 14:46

更新时间：2025-02-15 14:10

【平台使用】日历效应实现——回测模块

https://bigquant.com/codeshare/108f8f5f-14e7-4a73-ba80-d9daa1f4f87d

更新时间：2025-02-15 13:56

AI可视化的数据清洗

AI可视化的因子特征数据清洗

清洗流程

大部分的金工报告中第一步都是提取因子数据，随后就是对这些因子特征数据的清洗。以华泰证券的金工报告为例，数据清洗的标准流程大概包括：

缺失值处理（删除或者用行业均值填充）
因子异常值处理（固定比例法、均值标准差法、MAD法）
行业市值中性化处理（将因子暴露以行业哑变量和市值为变量做线性回归，抽取截距项）
PCA分析

清洗的目的是使得因子数据摆脱异常值、行业、市值和多重共线性的影响。

特征因子数据清洗模块

def bigquant_run(input_1, input_2, input_3):

更新时间：2024-06-11 03:29

【历史文档】大家帮我看看是咋回事，回测数据交易有问题

本帖内容对应旧版平台与旧版资源，其内容不再适合最新版平台

https://bigquant.com/experimentshare/fd3f21c915964e5b8800b41fe1314ec9

更新时间：2024-05-20 08:29

策略案例

AIStudio3.0.0分钟数据获取请转移至:

https://bigquant.com/wiki/doc/5yig6zkf5pww5o2u6i635yw-6fK4a8ZOZx

[https://bigquant.com/experimentshare/893162aea1dc4c4f953f670293646709](https://bigquant.com/experimentshare/893162aea1dc4c4f953f6

更新时间：2024-05-17 01:13

【历史文档】高阶技巧-计算个股连板数量

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-16 03:40

【历史文档】算子样例-策略绩效评价

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-15 07:51

【历史文档】因子构建与标注样例-构建大盘收益率因子

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平

更新时间：2024-05-15 06:34

分钟数据周期转换与分时策略构建

导语

很多朋友都在尝试使用平台的分钟数据，下面介绍一下分钟数据的读取与分时策略的构建。

分钟数据的读取

股票分钟数据，以000001.SZA为例：

df1 = DataSource('bar1m_000001.SZA').\
            read(start_date='2015-01-01',end_date='2015-05-01').set_index('date')

更新时间：2024-05-15 02:10

分页第1页第2页

数据清洗

量化因子的生命线：聊聊港股实时数据的清洗与接入

量化工程实战：构建高吞吐量的港股Tick数据清洗管道

因子挖掘的基础设施：如何构建高保真的外汇 Tick 数据流？

1月8日：如何在sql中使用python函数

62nd Meetup

因子构建

策略案例

构建日历周线级别因子

初赛入围答疑帖

疑问提交格式

【其他】请问交易软件上看到的行业K线数据如何获取

【代码报错】训练过程中报错，请问该怎么解决

【其他】如何把次日开盘数据加入策略？

【其他】如何优化策略？

【代码报错】排序出错——csv

【其他】请问如何构建消息类因子？

【平台使用】平台给的模版高频因子抽取报错

【平台使用】日历效应实现——回测模块

AI可视化的数据清洗

清洗流程

特征因子数据清洗模块

【历史文档】大家帮我看看是咋回事，回测数据交易有问题

Pandas使用小技巧

使用sklearn进行数据预处理

分钟数据获取

策略案例

【历史文档】高阶技巧-计算个股连板数量

更新

【历史文档】算子样例-策略绩效评价

更新

【历史文档】因子构建与标注样例-构建大盘收益率因子

更新

分钟数据周期转换与分时策略构建

导语

分钟数据的读取