BigAlpha - AI 因子挖掘
比赛时间: -
深挖高质量因子,传统与 AI 双轨并行
主办方:BigAlpha
比赛介绍
## 赛事介绍
在现代量化投资领域,阿尔法因子(Alpha Factor)是获取超额收益的核心。一个有效的因子,能够从海量、嘈杂的市场数据中精准地预测未来股价的动向。对于 BigQuant 而言,持续不断地挖掘、迭代高质量的因子,是推动量化投资行业创新发展的关键。
BigQuant(宽邦科技)是国内领先的 AI 人工智能量化投资平台,使命是"Democratize AI to empower investors"——让 AI 普惠每一位投资者。作为行业内首个将人工智能技术系统性应用于投资领域的平台级产品,BigQuant 聚焦于把机器学习、深度学习等前沿 AI 技术与量化投资深度融合,为个人 Quant、研究机构、券商及资管机构提供从数据、研究、回测到实盘的一站式解决方案。
平台的核心能力涵盖四个层面:
* **数据底座**:PB 级标准金融数据 + 新型投资另类数据,覆盖行情、财务、舆情、产业链等多维度,并提供 PIT 处理、跨频率对齐等基础设施。
* **因子与算法**:内置 2000+ 基础因子库,支持表达式引擎、UDF、AI 自动化因子挖掘等多种构建方式;并集成 AutoML、超参寻优、滚动训练、组合优化、归因分析等量化研发组件。
* **研发环境**:DAI 数据引擎提供高性能因子计算(速度更快、内存占用更低);模块化可视化开发与 Python / Notebook 无缝集成,兼顾低门槛与灵活性。
* **生态与落地**:策略源码库、券商研报、量化学院培训体系、模拟与实盘对接,构建从学习到落地的完整闭环。国内多家头部金融机构已采用 BigQuant 作为量化研究与投资决策的基础平台。
本次大赛即基于 BigQuant 平台的真实数据与研发环境举办,参赛者将直接使用与机构客户一致的工具链完成因子挖掘与提交。
我们相信,最卓越的投资思想往往源于开放的探索与协作。因此,我们选择通过本次挑战赛,开放真实的、高颗粒度的市场数据,邀请全球顶尖高校的人才与我们共同迎接这一挑战。
在本次比赛中,您将有机会接触到稀缺、高质量的 A 股市场分钟级行情数据。您的任务是利用这些数据,构建一个能够预测未来股票收益的创新因子。您的因子模型将在两个阶段进行评估:首先是在历史数据上进行回测的"公榜"得分,然后是在全新的、动态更新的市场数据上进行模拟的"私榜"得分,以确保您的策略在真实世界中的稳健性。
通过本次竞赛,您将获得处理大规模金融时序数据的宝贵实战经验,深入理解市场微观结构,并直面量化领域在日常研究中遇到的真实挑战,尤其是如何适配不同技术路径(传统方法 / AI 技术)驱动因子挖掘、适配高中低频多策略场景的核心命题。我们期待看到参赛者们应用创新的方法,解决这个充满挑战且激动人心的量化投资难题。
## 赛道设置
本次竞赛设置双赛道并行模式,参赛者可根据自身研究方向选择单一赛道参赛,也可同时参与两个赛道(需分别提交对应赛道的因子方案):
### 传统量化赛道
* **核心**:强调投资逻辑、统计显著性与经济解释性。
* **方法**:包括但不限于多因子模型、基本面分析、经典技术指标组合、物理模型模拟等。
* **评审导向**:重点评估因子背后的经济学逻辑合理性、统计检验的显著性、不同市场环境下的稳健性,以及因子可解释性。
### AI 智能赛道
* **核心**:利用大语言模型(LLM)、强化学习、遗传算法等技术进行因子自动生成或优化。
* **方法**:利用 AI 进行自动化特征工程、通过 Prompt Engineering 生成因子公式、使用神经元网络挖掘非线性因子等。
* **评审导向**:除因子有效性外,额外重点评估 AI 技术的应用深度与创新性,以及 AI 参与度(详见决赛评估章节)。
## 数据
本次竞赛提供高质量的 A 股市场数据:
* **股票池**:中证 1000 指数在历史相应时间点上的成分股。
* **时间范围**:2019-01-01 至 2024-12-31。
* **数据内容**:
* **K 线及盘口快照**:覆盖 2018 年至今,提供 1 分钟、10 分钟、30 分钟多频率数据。
* **财务数据**:覆盖 2010 年至今,已做 PIT(Point-in-Time)处理。
* **另类数据**:新闻、股吧等。
## 模版代码
本次竞赛采用"**因子挖掘**"的方式,平台提供包含高频数据在内的各类特色数据,参赛者需按所属赛道构建日频因子并提交。主办方将提供如下多个模版代码供参赛者参考:
* 用 SQL 计算因子,参考 `demo_sql.ipynb`。【注:DAI 数据引擎直接计算因子,速度更快,内存占比更低】
* 用 Python 计算因子,参考 `demo_py.ipynb`。【注:传统 Python 计算,请注意内存使用情况】
* AI 赛道专属模版:参考 `demo_ai.ipynb`(包含 LLM 因子生成、强化学习因子优化等基础示例)。
## 数据校验与预处理
提交的因子数据必须通过以下所有校验,否则视为无效提交。
* **数据列检查**:提交文件必须且仅包含三列 —— `date`(交易日)、`instrument`(股票代码)、`factor`(因子值)。
* 平台不限制因子方向,默认 **因子值越大越好**,参赛者需自行确保因子方向的逻辑正确性。
* **交易日完整性**:因子数据不得缺失评估时间范围内的任何一个交易日。
* **因子覆盖度**:在每个交易日,因子值缺失率不得高于 **40%**。
* **预处理**:对原始因子做 **去极值** 与 **标准化** 处理。
* **风格剔除**:将原始因子与 BARRA 风险因子进行回归,取残差作为新的因子,以评估该因子的增量贡献。
## 因子池与评估
### 提交规则
每支团队最多提交 **50 个因子**,并从中选择 **n 个**($1 \le n \le 50$)进入本队的因子池参与评估。
> 提交上限的设计意图:鼓励参赛者精选因子,而非批量堆砌;同时为平台评估保留合理的计算资源。
### 单因子得分(A 项)
对每个入池因子独立计算单因子得分:
$$
\text{FACTOR} \;=\; 0.25 \times \text{Rank}_{IC_{mean}} \;+\; 0.25 \times \text{Rank}_{IC_{IR}} \;+\; 0.25 \times \text{Rank}_{SR} \;+\; 0.25 \times \text{Rank}_{\text{Stress}}
$$
* $\text{Rank}_{IC_{mean}}$:IC 均值排名。
* $\text{Rank}_{IC_{IR}}$:IC_IR 排名。
* $\text{Rank}_{SR}$:多空组合夏普比率排名。
* $\text{Rank}_{\text{Stress}}$:特殊行情下的IC_IR得分。
**团队 A 项得分**:取该团队所有入池因子中单因子得分最高者:
$$
\text{Score}_A^{(\text{team})} = \max_{i \in \text{team}} \text{FACTOR}_i
$$
### Elastic Net 回归得分(B 项)
将所有参赛团队入池因子汇总为全局候选因子集,以截面 z-score 标准化后的下期收益率为目标,进行 Elastic Net 回归:
$$
y_{i,t} = \frac{r_{i,t+1} - \mu_t}{\sigma_t}, \quad r = Fw + \epsilon
$$
$$
\mathcal{L} = \|y - Fw\|^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|^2
$$
采用**滚动窗口**训练(窗口长度 60 个交易日,步长 20 个交易日),对每个因子取跨窗口的权重稳定性得分:
$$
\text{ModelScore}_i = \frac{\text{mean}(|w_i|)}{\text{std}(|w_i|) + \epsilon}
$$
> 该指标同时衡量因子在组合中的平均贡献大小与跨期稳定性,类比单因子评估中的 IC_IR。Elastic Net 的 L1 项会将无增量贡献的因子权重压至 0,L2 项则使相关因子组内的权重平滑分配,避免随机选一。
**团队 B 项得分**:取该团队所有被 Elastic Net 选中(权重非零)的因子的 ModelScore 均值:
$$
\text{Score}_B^{(\text{team})} = \text{mean}_{i \in \mathcal{S}_{\text{team}}} \widetilde{\text{ModelScore}}_i, \quad \mathcal{S}_{\text{team}} = \{i \in \text{team} \mid w_i > 0\}
$$
其中 $\widetilde{\text{ModelScore}}_i$ 为百分位归一化后的 ModelScore,$\mathcal{S}_{\text{team}}$ 为该团队权重非零的因子集合。若团队无任何因子被选中,则 $\text{Score}_B = 0$。
> 因子是否被选中完全由 Elastic Net 的 L1 项决定,无需额外引入人工参数。均值奖励的是"平均质量"——多提交无增量贡献的因子会拉低得分,天然防止以量取胜。
### 本地调试支持
为方便参赛者在提交前自行评估因子质量,平台提供**本地回归工具**:
* 参赛者可将自己的因子库作为输入,在本地运行与官方一致的 Elastic Net 回归流程。
* 工具输出每个因子的 ModelScore 估算值、滚动权重曲线、与其他因子的相关性热力图。
* 本地工具使用**公开的历史因子集**(主办方提供的基础因子库)作为对照组,模拟全局竞争环境。
> 本地结果仅供参考,最终得分以官方全局回归为准(因全局因子集随赛程变化)。
## 评估周期与排名
本次竞赛分为**公榜阶段**和**私榜阶段**,两个阶段使用不同的数据区间,最终排名以私榜为准。
### 数据划分
| 阶段 | 训练集 | 验证集 | 说明 |
|---|---|---|---|
| 公榜 | 2019-01-01 ~ 2024-12-31 | 2025 全年 | 参赛者可见验证集得分,用于调试迭代 |
| 私榜 | 不公开 | 不公开 | 包含 2026 年样本外数据,具体区间不对外披露 |
> 公榜验证集(2025 年)与私榜评估区间不重叠,防止参赛者通过反复提交间接拟合私榜数据。
### 评估周期
公榜阶段,每次有新因子提交即加入待评估队列。但 Elastic Net 的计算量随全局因子数 N 增长,为避免资源浪费,平台采用**自适应间隔**:
$$
t_{\text{next}} = \max\bigl(k \cdot t_{\text{last\_run}},\; t_{\text{min}}\bigr)
$$
* $t_{\text{last\_run}}$:上一轮实际评估耗时。
* $k$:安全系数,取 1.5,为下一轮因子增量留出余量。
* $t_{\text{min}}$:最小间隔,固定为 **1 小时**,避免频繁触发。
比赛初期因子少、计算快,间隔自然短;后期因子池扩大,间隔自动拉长,无需人工干预。
每轮评估完成后,平台同步更新公榜排名、公布本轮评估结果。
**私榜阶段**:公榜截止后,参赛者因子冻结,不得新增或修改。平台使用私榜数据对所有冻结因子进行一次性评估,结果即为最终排名。
### 团队最终得分
公榜得分仅供参考,不计入最终排名。私榜阶段结束后,按以下公式计算最终得分:
$$
\text{Score}_{\text{final}} = 0.3 \times \text{Score}_A^{(\text{team})} + 0.7 \times \text{Score}_B^{(\text{team})}
$$
按 $\text{Score}_{\text{final}}$ 降序排列,得到团队最终排名。两个赛道分别独立计算排名。
## 每轮公示内容
在每日固定时点,根据最新一次评估结果,主办方公布以下信息,帮助参赛者明确优化方向:
**(1)当前因子组合特征(前 10 因子画像)**
对当前 ModelScore 排名前 10 的因子,公布以下特征:
| 特征 | 说明 |
|---|---|
| BARRA 风格暴露 | 该因子在市值、Beta、动量、波动率等风格上的暴露分布,帮助参赛者判断哪些风格维度尚未被充分挖掘 |
| 行业分布 | 因子在各行业的平均 IC,揭示因子的行业偏好 |
> 公布的是**聚合特征**,不涉及具体因子构造逻辑,不影响知识产权保护。
**(2)团队细节得分**
每轮评估后,向各团队公开以下竞争信息:
* 当前权重前 20 的因子中,本团队占据几个(不披露其他团队的因子内容)。
* 本团队各因子的 ModelScore 百分位排名及变化趋势。
* 本团队 A 项、B 项得分及全场排名分位。
> 公开竞争信息可提升比赛紧张感,同时让参赛者清楚知道自己与头部团队的差距在哪里。
### 指数增强策略跟踪
基于每轮回归得到的因子权重,平台同步构建一个**中证 1000 指数增强策略**:
* 以 Elastic Net 回归的合成因子值为信号,在成分股内超配高分股、低配低分股,跟踪误差约束在 5% 以内。
* 每轮评估后更新策略持仓,并展示以下指标:
| 指标 | 说明 |
|---|---|
| 累计超额收益 | 相对中证 1000 的累计 alpha |
| 年化超额收益 / 跟踪误差 | 信息比率(IR) |
| 最大回撤 | 超额收益的最大回撤 |
| 本轮因子更新后的增量贡献 | 新一轮因子加入后策略 IR 的变化 |
> 指增策略的持续改善是比赛质量的直观体现——每轮新增的优质因子应能推动策略 IR 上升。若某轮新增因子未能提升策略表现,也会在公示中如实呈现,形成对参赛者的正向反馈。
## 赛程安排
### 阶段一:宣传报名
* **时间周期**:2026-05-15 至 2026-06-24 属于宣传报名期,其中 5 月 25 日 - 6 月 24 日为正式报名期,报名截止时间为 **2026-06-24**。
* **报名组队**:通过活动主页进行报名。可单人或多人组队(单一队伍最多不超过 5 人)。报名完成后可加入官方社群(微信 / QQ 群)寻找队友。
* **内测服务**:2026-06-08 至 2026-06-18 属于系统内测阶段,参赛者可以提交代码,用于测试系统稳定性及熟悉比赛系统,最终成绩不计入初赛,内测阶段结束后会重置排分榜单。
### 阶段二:初赛
* **时间周期**:2026-06-25 至 2026-08-05
* **运行机制**:
* 以 **2026-07-26 23:59:59** 作为**截止日期**。
* 在截止日期前,利用平台提供的数据开发因子并按照规范提交代码,平台会使用验证集数据构建对应的因子数据并打分实时更新排名,以队伍最好的一次得分展示在"公榜(Public Leaderboard)"上;同时,参赛队伍可以选择和替换总计不超过 2 个因子作为截止日后的候选因子。
* 在截止日期后,参赛者将不允许修改候选因子的构建代码;平台在私榜区间内的每个交易日盘后,会根据参赛者提供的代码增量构建因子数据,每日计算得分排名,并以队伍最好的一次得分展示在"私榜(Private Leaderboard)"上。
* **线上技术工作坊**:由合作平台方工程师主讲,分赛道介绍平台功能、API 使用、数据结构及因子分析框架(传统赛道聚焦统计验证方法,AI 赛道聚焦 AI 工具链使用)。
* **账号与数据发放**:向所有成功报名的队伍发放比赛专用账号,开放数据访问权限。
### 阶段三:决赛
* **时间**:2026-08-10 至 2026-08-25
* **决赛名单公布**:组委会根据公榜成绩和私榜成绩进行评估,同时参考提交代码质量,最终公布 10 支入围决赛的队伍名单。
* **决赛辅导(按需)**:入围决赛的队伍如有深化研究报告的需求,可提交希望沟通的问题清单,组委会将于 **8 月 12 日** 至 **8 月 14 日** 安排线上会议进行答疑辅导。如无特别需求,可直接准备提交材料。
* **提交材料**:参赛队伍需提供以下材料:
* 因子研究报告(.pdf,10–15 页):一份结构完整、论证严谨的深度报告,不同赛道需针对性补充内容:
* 摘要
* 赛道:明确在"传统"或"AI"两个赛道中选择一个作为本次比赛的参赛标签。
* 引言:因子研究背景与文献综述
* 因子构建:详细阐述数据预处理、因子计算公式与逻辑(AI 赛道需额外说明 AI 技术应用环节)
* 实证分析:全面的因子分析回测结果展示、绩效归因分析、稳健性检验(如不同市场周期、不同行业下的表现)
* 创新性与局限性讨论:AI 赛道需说明 AI 应用的创新点
* 结论
### 阶段四:答辩颁奖
* **时间**:2026 年 8 月 25 日
* **决赛答辩会**:采用"10 分钟展示 + 5 分钟评委问答"的形式,线下举行并同步线上直播。
* **颁奖典礼**:答辩结束后,公布最终名次,并举行颁奖典礼,邀请所有嘉宾、评委与选手共同参与。
## 决赛评估
入围决赛的队伍将由评审委员会进行综合评估,评分标准如下:
* **因子质量与逻辑性**:
* 投资逻辑与经济解释性:因子背后的经济学逻辑、市场微观结构解释是否清晰、合理。
* 有效性与稳健性:因子在不同市场周期、不同行业下的表现是否稳定,统计显著性是否达标。
* **研究深度与规范性**:
* 报告质量:报告结构是否严谨、分析是否深入、论证是否充分。
* 代码质量:代码是否规范、可读性强、易于复现。
* **现场表现**:
* 陈述表达:对研究工作的理解是否深刻,表达是否清晰、有条理。
* 问答互动:回答评委提问是否精准、有逻辑,能否清晰阐述因子的经济意义。
* **AI 创新性**(适用 AI 赛道):
* AI 应用逻辑与创新性:AI 技术选型与因子挖掘场景的适配性、AI 应用环节的原创性。
* 有效性与 AI 参与度:因子有效性、稳健性,以及 AI 参与度的实际落地效果。
## 提交文件
在本次比赛中,您只需要按照**模版代码**里的例子,将因子构建代码写在 **main** 函数中并提交,平台会自动运行生成因子数据,计算得分并实时公布。需注意:
1. 传统赛道代码需标注核心统计方法、经济逻辑对应的实现环节;
2. AI 赛道代码需标注 AI 技术应用的关键环节(如 LLM 调用、模型训练、自动化特征工程等);
3. 若有任何文本类的信息,请以 markdown 格式放在 notebook 中,如使用 AI 时涉及的提示词等;
4. main 函数的返回数据格式需遵循以下规范:
| date | instrument | factor |
|------------|------------|-------|
| 2023-01-03 09:45:00 | 000001.SZ | 0.05 |
| 2023-01-03 09:45:00 | 000002.SZ | -0.12 |
| ... | ... | ... |
## 赛事奖励
总计奖金池:500,000 元
奖励细节待定
## 代码要求
本次竞赛为代码竞赛,所有提交必须通过合作的线上量化平台完成。为保证竞赛公平性,您的代码需满足以下条件:
* **平台提交**:所有因子生成代码必须在指定的线上平台 Notebook 环境中运行并提交(AI 赛道需使用平台指定的 AI 工具链 / 算力环境)。
* **运行时长限制**:CPU Notebook ≤ 3 小时;AI 赛道 GPU Notebook ≤ 6 小时。
* **禁止访问外部网络**:为防止信息泄露和使用未来数据,Notebook 的互联网访问权限将被禁用。
* **最终提交**:您提交的必须是可以自动运行并生成因子文件的代码,而非因子数据文件本身;AI 赛道需额外提交 AI 技术应用说明文档(说明 AI 参与度对应的代码环节)。
## 竞赛规则与免责声明
### 基本规则
* **团队规模**:每支队伍人数为 1-3 人,每位选手只能加入一支队伍。
* **知识产权**:参赛作品(代码、报告等)的知识产权归参赛队伍所有。主办方对所有作品拥有非商业性的评审、展示和宣传权利。对于获奖的优秀因子,主办方在同等条件下拥有优先的商业合作洽谈权。
* **诚信竞赛**:严禁任何形式的抄袭、作弊或共享代码行为。一经发现,将立即取消该队伍的参赛资格。
* **赛道合规**:传统赛道不得使用 AI 赛道限定的自动化因子生成技术;AI 赛道需保证核心因子构建逻辑由 AI 主导,严禁伪 AI 应用。
### 规则版本与变更
* **规则版本说明**:当前比赛规则为**初拟版本**,可能在内测阶段遇到不可抗的工程或评估问题(如数据接口变更、评估算法瓶颈、第三方服务异常等)。**最终以"内测结束、正式比赛开始前"发布的规则版本为准**,请参赛者持续关注官方公告与社群通知。
* **比赛期间的规则调整权**:在过往赛事中,我们经常发现部分参赛者会利用赛制漏洞(如刻意构造规避覆盖度校验的稀疏因子、利用未来数据、绕过相关性约束等)。为保障最终结果的公平性,**主办方保留在比赛进行期间修订规则、调整评估口径、增补反作弊机制的权利**;同时,规则调整将兼顾已提交作品的处理方式(如重新评分、保留历史得分作为参考、给予合理的代码调整窗口等),尽量降低对正常参赛队伍的影响。
* **变更通知机制**:任何规则修订均会通过以下渠道同步——官网公告、官方社群(微信 / QQ 群)置顶、平台站内信。重大变更(如评分公式、提交规范)会提前不少于 **48 小时**通知,紧急修订(如反作弊补丁、严重 Bug 修复)以即时通知为准。
* **历史版本留档**:所有规则版本将在官网保留可追溯的历史记录,便于参赛者核对自己提交时所依据的规则。
### 数据与平台免责
* **数据使用范围**:比赛数据仅供参赛使用,严禁外传、商用或用于本赛事以外的任何场景。一经发现,主办方将依法追究责任。
* **数据准确性**:主办方已对数据做必要的清洗与校验,但不对数据的绝对准确性、完整性作出保证;因数据问题导致的因子表现波动,不作为评估申诉的依据,但严重数据错误(如批量缺失、字段错位)经核实后会触发统一重算。
* **平台稳定性**:BigQuant 平台已做高可用部署,但仍可能因不可抗力(机房故障、网络中断、第三方依赖异常等)出现短时不可用。因平台故障导致的提交延误,主办方将根据故障时长合理顺延截止时间或取消该时段的评估结果,**不对参赛者的算力消耗、时间投入作经济补偿**。
* **结果不构成投资建议**:本赛事所有因子、模型、回测结果及衍生分析仅供学术研究与赛事评估使用,**不构成任何形式的投资建议**。任何人据此进行实盘投资所产生的盈亏,主办方、平台方及合作方均不承担责任。
### 参赛者责任
* **代码合规与安全**:参赛者需对自己提交的代码负责,不得包含恶意代码、后门、未授权访问平台资源的逻辑;一经发现,立即取消资格并保留追究法律责任的权利。
* **第三方依赖**:若参赛者使用了开源库、预训练模型、外部 API(在赛道允许范围内)等第三方资源,需自行确认其许可协议允许竞赛及商业评审场景使用,由此引发的版权 / 许可争议由参赛者自行承担。
* **个人信息**:参赛者报名时提供的个人信息仅用于赛事相关用途,主办方将依法保护,但参赛者需保证所提供信息真实有效。
### 最终解释权
本赛事所有规则的最终解释权归 BigQuant 大赛组委会所有。如对规则存有异议,可通过官方渠道提交申诉,组委会将在 **5 个工作日内**给予答复。
奖金&奖项
¥500000

