BigAlpha - 端到端大模型
比赛时间: -
告别特征工程,让模型直面数据,端到端重塑预测范式
主办方:BigAlpha
比赛介绍
## 赛事介绍
在量化投资的演变进程中,传统的“因子挖掘 + 组合优化”两步走范式正面临信息损耗与人工偏见带来的双重挑战。传统方法过度依赖人工经验构建特征,往往难以捕捉市场中瞬息万变的非线性、高阶交互关系。因此,**端到端(End-to-End)量化建模**应运而生。其核心理念在于通过深度神经网络,跳过繁琐的显式特征工程,直接从原始市场序列数据中学习投资逻辑,实现从“原始数据”到“投资决策”的一站式映射。
BigQuant(宽邦科技)是国内领先的 AI 人工智能量化投资平台,使命是"Democratize AI to empower investors"——让 AI 普惠每一位投资者。作为行业内首个将人工智能技术系统性应用于投资领域的平台级产品,BigQuant 聚焦于把机器学习、深度学习等前沿 AI 技术与量化投资深度融合,为个人 Quant、研究机构、券商及资管机构提供从数据、研究、回测到实盘的一站式解决方案。
在本届赛事中,我们重点聚焦于**端到端模型生成**。参赛者将不再被要求挖掘孤立的因子,而是需要构建一个能够处理复杂时空关系的大模型。以主办方提供的多频率分钟级行情数据为输入,训练目标是股票的残差收益率。我们鼓励参赛者采用无特征或弱特征的研发模式,尽可能使用原始量价序列(如 OHLCV、分时快照)作为输入,利用模型内部机制自发捕捉市场微观结构的深层规律。
## **数据说明**
本次竞赛提供高质量的A股市场数据,具体如下:
* **股票池**: 中证1000指数在历史相应时间点上的成分股。
* **时间范围**: 2019-01-01至2023-12-31。
* **数据内容**: 1分钟/5分钟/15分钟/30分钟级别K线及盘口快照数据。
## **模版代码**
参赛者需按规范构建端到端模型并提交训练/推理代码。主办方提供以下示例:
* **Transformer 基础模型**: 参考 `demo_transformer.ipynb`(展示如何将分钟级序列转化为 Token 进行训练)。
* **轻量化序列模型**: 参考 `demo_lightweight.ipynb`(适用于算力限制下的端到端建模)。
* **分布式数据加载**: 参考 `demo_data_loader.ipynb`(演示如何高效处理 TB 级高频数据)。
## **赛程安排**
### **阶段一:宣传报名**
* **时间周期**:2026-05-15 至 2026-06-24 属于宣传报名期,其中 5月25日-6月24日为正式报名期,报名截止时间为**2026-06-24**。
* **报名组队**:通过活动主页进行报名。可单人或多人组队(单一队伍最多不超过5人)。报名完成后可加入官方社群(微信/QQ群)寻找队友。
* **内测服务**:2026-06-08 至 2026-06-18 属于系统内测阶段,参赛者可以提交代码,用于测试系统稳定性及熟悉比赛系统,最终成绩不计入初赛,内测阶段结束后会重置排分榜单。
### **阶段二:初赛**
* **时间周期**:2026-06-25 至 2026-08-05
* **运行机制**:
* 以**2026-07-26 23:59:59**作为**截止日期**。
* 在截止日期前,利用平台提供的数据开发模型并按照规范提交模型相关文件,平台会使用验证集数据对模型的输出预测分钟进行评判并打分实时更新排名,以队伍最好的一次得分展示在”公榜(Public Leaderboard)”上;同时,参赛队伍可以选择和替换总计不超过1个模型作为截止日后的候选模型。
* 在截止日期后,参赛者将不允许修改候选模型的构建代码;平台在2026年2月24日至2026年2月27日期间,根据参赛者提交的模型文件,利用新的训练集进行训练,并利用新的验证集进行预测,并对预测得分进行评判,将得分展示在”私榜(Private Leaderboard)”上。
* **账号与数据发放**:向所有成功报名的队伍发放比赛专用账号,开放数据访问权限。
### **阶段三:决赛**
* **时间**:2026-08-10 至 2026-08-25
* **决赛名单公布**:组委会根据公榜成绩和私榜成绩进行评估,同时参考提交代码质量,最终公布10支入围决赛的队伍名单。
* **决赛辅导(按需)**:入围决赛的队伍如有深化研究报告的需求,可提交希望沟通的问题清单,组委会将于**8月12日**至**8月14日**安排线上会议进行答疑辅导(分传统/AI赛道专场)。如无特别需求,可直接准备提交材料。
* **提交材料**:参赛队伍需提供以下材料:
* 模型研究报告(.pdf,10–15页):一份结构完整、论证严谨的深度报告,不同赛道需针对性补充内容:
* 摘要(Abstract)
* 引言(Introduction):模型研究背景与文献综述
* 模型构建(Factor Construction):详细阐述模型搭建的细节
* 创新性与局限性讨论(Innovation and Limitations)
* 结论(Conclusion)
### **阶段四:答辩颁奖**
* **时间**:2026年8月25日
* **决赛答辩会**:采用"10分钟展示 + 5分钟评委问答"的形式,线下举行并同步线上直播。
* **颁奖典礼**:答辩结束后,公布最终名次,并举行颁奖典礼,邀请所有嘉宾、评委与选手共同参与。
## 模型规范
### 输入与特征约束
1. **特征上限**:模型输入字段不超过 **100 个原始字段**。时序窗口的同一字段在不同时间步上仍计为 1 个字段(即时序长度不计入字段数)。
2. **数据来源**:所有输入字段必须直接来源于主办方提供的数据。**禁止任何衍生或人工特征工程**,包括跨字段算子、滚动统计、因子合成、降维、第三方数据等。
3. **允许的预处理**:缺失值填充、按字段统一的归一化(MinMax / StandardScaler)、按字段统一的对数或符号变换。预处理参数仅基于训练集统计得到。
4. **时序窗口上限**:单次推理回看窗口 $\le$ **240 个交易日**。
### 模型架构约束
1. **可训练参数量**:$\ge$ 100,000(10 万),$\le$ 100,000,000(1 亿)。
2. **外部预训练权重**:禁止使用任何外部预训练权重。所有参数由参赛者基于本竞赛数据从零训练。
3. **架构形态**:未做硬性指定,但参数量下限与禁特征工程的组合,意味着浅层模型(XGBoost、线性模型)难以达到有竞争力的成绩。
### 模型输出格式
每次提交模型推理产出一个分数文件,必须且仅包含三列(默认分数越大越好,参赛者需自行确保符号正确):
| date | instrument | score |
| --- | --- | --- |
| 2023-01-03 09:45:00 | 000001.SZ | 0.05 |
| 2023-01-03 09:45:00 | 000002.SZ | -0.12 |
---
## 评估体系
所产出的分数经风格剔除后等价于一个每日更新的单因子,因此直接以单因子得分作为团队得分。
### 数据校验
提交的分数文件必须通过以下校验,否则视为无效提交:
* **数据列检查**:列名严格匹配 `date / instrument / score`,无多余列。
* **交易日完整性**:评估区间内不得缺失任何一个交易日。
* **截面覆盖度**:每个交易日,分数缺失率不得高于 **40%**。
### 平台预处理流程
平台收到提交的分数后,会依次执行以下操作:
1. **去极值**:截面 1% / 99% 分位 winsorize。
2. **标准化**:截面 z-score。
3. **风格剔除**:将标准化后的分数与 BARRA 风险因子(市值、Beta、动量、波动率、流动性、估值、盈利、成长、杠杆、非线性市值)做截面回归,**取残差作为最终评估对象**。
### 最终得分公式
$$
\text{Score}_{\text{final}} \;=\; 0.25 \times \text{Rank}_{IC_{mean}} \;+\; 0.25 \times \text{Rank}_{IC_{IR}} \;+\; 0.25 \times \text{Rank}_{SR} \;+\; 0.25 \times \text{Rank}_{\text{Stress}}
$$
* $\text{Rank}_{IC_{mean}}$:评估区间内截面 IC 均值的全场排名。
* $\text{Rank}_{IC_{IR}}$:IC 序列的 IR(IC 均值 / IC 标准差)排名。
* $\text{Rank}_{SR}$:以模型分数构建的多空 10 分组组合的年化夏普比率排名。
* $\text{Rank}_{\text{Stress}}$:分 regime 评估的稳健性排名。
> 四项均做百分位归一化后等权相加,按 $\text{Score}_{\text{final}}$ 降序排列即得团队最终排名。
### 评估数据划分
| 阶段 | 训练集 | 验证集 | 说明 |
|---|---|---|---|
| 公榜 | 2019-01-01 ~ 2023-12-31 | 2024-01-01 ~ 2024-12-31 | 参赛者可见验证得分,用于调试迭代 |
| 私榜 | 不公开 | 不公开 | 含样本外数据,用于最终排名 |
### 提交规范与频次
公榜阶段:
* **每次提交必须是完整模型包**,包含训练脚本、推理脚本、依赖声明、超参配置、随机种子,以及在公榜训练集上得到的**已训练权重**。平台公榜阶段**仅基于提交的权重做推理**,不重新训练,借此让参赛者免去因平台重训导致的重复训练成本。
* 每队每日最多提交 **3 次**(含失败提交)。
* 提交之间**互不覆盖**:每次提交以独立记录入库,分别在公榜区间上推理打分并展示其得分。参赛者可同时持有并迭代多个候选模型,无需在迭代过程中提前选定某一份权重。
* 公榜截止前,每队必须从历史提交记录中**指定唯一一个端到端模型**作为私榜参赛模型;逾期未指定者,平台默认取该队公榜得分最高的一次提交。指定一旦确认即冻结,参赛者不得新增或修改其代码、配置与依赖。
进入私榜阶段后:
1. **平台重训**:平台在隔离环境中,使用特定训练集按参赛者提交的训练脚本与配置**从零重训**该唯一模型,参赛者提交的公榜权重不参与私榜评测。
2. **私榜推理**:用重训得到的权重在私榜验证区间上推理打分。
---
## 每轮反馈机制
公榜阶段每日固定时点,根据最新一次评估结果,平台公布以下信息,帮助参赛者明确优化方向:
### 模型画像(前 10 名公开聚合特征)
对当前公榜总得分排名前 10 的**提交**(按团队去重,每队仅取其当前最高分提交),公布以下**聚合**特征(不涉及具体网络结构):
| 特征 | 说明 |
|---|---|
| BARRA 风格暴露 | 风格剔除前模型分数在市值、Beta、动量、波动率等风格上的暴露分布 |
| 行业 IC 分布 | 模型在各申万一级行业的平均 IC,揭示行业偏好 |
| 截面分散度 | 分数截面 std 的时序均值,衡量预测是否过度集中 |
> 公布的是聚合特征,不涉及具体模型结构,不影响知识产权保护。
### 团队细节得分
每轮评估后,向各团队私下推送:
* 本队**每一次有效提交**的总得分、四个分项的全场分位(IC mean / IC_IR / SR / Stress),以及该队当前最高分提交。
* 当前最高分提交与第 1 名、第 10 名的分项差距分解,定位最弱的一项。
* 近 30 个评估日的得分轨迹(按提交聚合,可切换查看本队不同提交的轨迹)。
### 指数增强策略跟踪
平台基于每队**当前公榜最高分提交**的分数,同步构建一个**中证 1000 指数增强策略**:
* 以模型分数为信号,在成分股内超配高分股、低配低分股,跟踪误差约束 5% 以内。
* 每轮评估后更新持仓,并展示:
| 指标 | 说明 |
|---|---|
| 累计超额收益 | 相对中证 1000 的累计 alpha |
| 年化超额 / 跟踪误差 | 信息比率(IR) |
| 最大回撤 | 超额收益的最大回撤 |
| 模型迭代后的增量贡献 | 新一轮提交后策略 IR 的变化 |
> 端到端模型若真从原始数据中提取到增量信息,应能持续推动指增策略 IR 上升;若某轮迭代未能改善策略表现,也会如实呈现,作为对参赛者的反馈。
---
## 赛事奖励
* **总奖金池**:500,000 元(奖励细节待定)
---
## 代码要求与平台约束
* **环境约束**:所有因子生成代码必须在指定的线上 BigQuant Notebook 环境中运行。所有提交必须是通过推理脚本自动运行并生成因子文件的完整代码包。
* **网络限制**:为防止信息泄露和使用未来数据,Notebook 的互联网访问权限将被完全禁用。
* **运行时长限制**:AI 赛道 GPU 推理/重训限制:GPU Notebook $\le$ 6 小时(公榜单次推理上限 12 小时)。
---
## 竞赛规则与免责声明
### 基本规则
* **知识产权**:参赛作品(代码、报告等)的知识产权归参赛队伍所有。主办方拥有非商业性的评审、展示和宣传权利。对于获奖的优秀模型,主办方在同等条件下拥有优先的商业合作洽谈权。
* **诚信竞赛**:严禁任何形式的抄袭、作弊或共享代码行为。一经发现,将立即取消该队伍的参赛资格。
### 规则变更与最终解释
* **主办方修订权**:为防范赛制漏洞,**主办方保留在比赛进行期间修订规则、调整评估口径、增补反作弊机制的权利**。
* **变更通知**:重大变更将提前 **12 小时**通过官网公告、官方社群(微信/QQ群)置顶或站内信通知。所有历史版本规则均在官网留档供追溯。
* **免责声明**:因数据集庞大,主办方不对数据的绝对准确性作出保证;平台发生故障时将合理顺延截止时间,但不作算力与时间投入的经济补偿。本赛事所有产出成果均**不构成任何形式的投资建议**。
* **最终解释权**:归 BigQuant 大赛组委会所有。申诉将在 **5 个工作日内**给予答复。
奖金&奖项
¥500000

