华泰杯2025年因子比赛
比赛时间: -
数据驱动未来,代码挖掘阿尔法(Data Drives the Future. Code Mines the Alpha)
主办方:华泰期货
比赛介绍
## **赛事介绍**
在现代量化投资领域,阿尔法因子 (Alpha Factor) 是获取超额收益的核心。一个有效的因子,能够从海量、嘈杂的市场数据中精准地预测未来股价的动向。对于像华泰期货这样的金融机构而言,持续不断地挖掘、迭代高质量的因子,是保持投资策略领先地位的关键。
华泰期货有限公司成立于1994年,是中国最早成立的期货公司之一,注册资本29.39亿元,净资产超过90亿元,是国内资本实力最雄厚的期货公司之一。公司总部位于广州,在全国设有40多家分支机构,并拥有华泰证券(股票代码:601688)作为控股股东。华泰期货业务范围覆盖商品期货经纪、金融期货经纪、期货投资咨询、资产管理等多个领域,并已连续多年获得行业AA类评级。公司秉承“以客户为中心,以市场为导向”的经营理念,高度重视量化投资与金融科技的发展,致力于通过先进的技术手段提升投资研究能力和风险管理水平。目前,华泰期货已构建了完善的量化投研体系,覆盖量化策略开发、因子挖掘、风险模型、算法交易等多个环节。
我们相信,最卓越的投资思想往往源于开放的探索与协作。因此,我们选择通过本次“华泰期货杯·2025年因子比赛”,开放真实的、高颗粒度的市场数据,邀请全球顶尖高校的人才与我们共同迎接这一挑战。
在本次比赛中,您将有机会接触到稀缺、高质量的A股市场分钟级行情数据。您的任务是利用这些数据,构建一个能够预测未来股票收益的创新因子。您的因子模型将在两个阶段进行评估:首先是在历史数据上进行回测的“公榜”得分,然后是在全新的、动态更新的市场数据上进行模拟的“私榜”得分,以确保您的策略在真实世界中的稳健性。
通过本次竞赛,您将获得处理大规模金融时序数据的宝贵实战经验,深入理解市场微观结构,并直面顶级量化机构在日常研究中遇到的真实挑战。我们期待看到参赛者们应用创新的方法,解决这个充满挑战且激动人心的量化投资难题。
**入门指南**
为了帮助参赛者更好地准备,我们与合作的线上量化平台共同准备了一系列入门资源:
* **技术工作坊**:由平台方工程师主讲,详细介绍平台功能、API使用、数据结构及因子分析框架。
* **模版代码**:我们将提供一个包含数据读取、因子构建范例和评估流程的核心代码 Notebook,帮助您快速上手。
* **线上答疑会**:我们将在赛程中安排资深投研专家进行线上讲座与答疑,分享行业前沿动态。
---
## **数据说明**
本次竞赛提供高质量的A股市场历史行情数据,具体如下:
* **股票池**: 中证500指数在历史相应时间点上的成分股。
* **时间范围**: 2023年1月1日至2024年12月31日。
* **数据频率**: 1分钟级别K线及盘口快照数据。
* **数据内容**: 包含开、高、收、低、成交量、成交额以及买卖盘口等字段。
---
## **模版代码**
本次竞赛采用”**高频因子低频化**”的方式,平台提供高频数据,参赛者构建日频因子并提交。主办方将提供如下多个模版代码供参赛者参考:
* 用SQL计算日间波动率,参考 demo_sql.ipynb。
* 用python计算盘口流动性因子,参考 demo_spread.ipynb。
* 利用特征工程和机器学习算法构建AI因子,参考 demo_ai.ipynb
---
## **赛程安排**
### **阶段一:宣传**
* **时间**:2025年9月15日
* **宣讲会**:邀请专家老师进行宣讲,分享量化实战经验、解读赛题、介绍实习文化。
* **校园合作推广**:联动其他高校就业办、相关院系及学生社团等,深度覆盖潜在参赛人群。联系院系包括但不限于数学系,物理系,计算机系,金融系等。活动开始前提前与学院负责老师沟通,得到学院支持(有往来沟通记录)。
* **报名和组队**:提前建立联系群问答,宣讲当日上线官网开放报名渠道,并通过官方社群(微信/QQ群)帮助选手寻找队友;报名截止日为“**2025-10-14 21:00:00**”。
### **阶段二:比赛阶段**
* **时间周期**:2025年9月15日 - 2025年11月15日。
* **运行机制**:
* 以**2025年10月15日 00:00:00**作为**截止日期**。
* **在截止日期前**,参赛队伍可利用平台提供的数据开发因子并按照规范提交代码,平台会使用**验证集数据**构建对应的因子数据并打分实时更新排名,以队伍最好的一次得分进行展示在”**公榜(Public Leaderboard)**”上;同时,参赛队伍可以选择和替换总计不超过3个因子作为截止日后的候选因子。
* **在截止日期后**,参赛者将**不允许修改候选因子的构建代码**;平台在**2025年10月15日至2025年11月15日期间**的每个交易日盘后,会根据参赛者提供的代码增量构建因子数据,每日计算得分排名,并以队伍最好的一次得分进行展示在”**私榜(Private Leaderboard)**”上。
* **线上技术工作坊**:由合作平台方工程师主讲,详细介绍平台功能、API使用、数据结构及因子分析框架。
* **账号与数据发放**:向所有成功报名的队伍发放比赛专用账号,开放数据访问权限。
* **验证集数据**:选择**2025年1月1日至2025年8月30日中部分交易日的1分钟数据**作为验证集数据。
* **中期答疑会**:赛程中段安排一次线上Q&A,解答选手在研究中遇到的共性问题。
### **阶段三:颁奖**
* **时间**:2025年11月20日
* **颁奖典礼**: 线下举行隆重的颁奖典礼,邀请所有嘉宾、评委与选手共同参与。
---
## **评估**
### **公榜与私榜评估指标**
本竞赛公榜(Public Leaderboard)与私榜(Private Leaderboard)阶段的排名将完全基于量化评估。评估分为两个步骤:数据检测和得分计算。
1. **数据检测**:您提交的因子必须首先通过以下所有检测,否则将被视为无效提交。
* **数据列检查**:因子数据文件必须且仅包含三列:`date` (交易日), `instrument` (股票代码), `factor` (因子值)。
* **交易日完整性检查**:因子数据不能缺失所要求时间范围内的任何一个交易日。
* **因子覆盖度检查**:在每个交易日,因子值缺失率不得高于 **40%**。
2. **数据处理**:通过数据检测后,系统会将您的因子数据与 BARRA 风险因子进行回归取残差作为新的因子,剔除风格因子的影响。
3. **最终得分**:最终,系统将基于您的因子值计算**IC均值、ICIR、夏普比率、换手率**等指标,并按照以下公式计算最终得分:
$$
Score = 0.3 \times f(RankIC_{mean}) + 0.3 \times f(RankIC_{IR}) + 0.2 \times f(SR) + 0.2 \times f(Turnover)
$$
各指标定义及量纲统一方式如下:
* **$RankIC_{mean}$**:Rank IC均值。该指标通过计算每日因子值与未来收益率的斯皮尔曼秩相关系数,并在时间序列上取均值而来,用于衡量因子的预测能力。为防止过度优化,采用以下函数将其映射至 [0, 100] 区间,IC = 0.012 时得分约为60。
$$
f(x)= 100\sqrt[9]{|x|}
$$
* **$RankIC_{IR}$**:Rank IC的均值与标准差之比,用于评估因子预测能力的稳定性。使用Sigmoid函数将其约束至 [0, 100] 区间,IR = 1 时得分约为60。
$$
f(x)=\frac{100}{1+e^{-0.4|x|}}
$$
* **$SR$**:夏普比率(多空组合),衡量风险调整后的收益。同样通过Sigmoid函数映射至 [0, 100] 区间,SR = 0.1 时得分约为60。
$$
f(x)=\frac{100}{1+e^{-4x}}
$$
* **$Turnover$**:换手率,值越低代表交易成本越低,得分越高。该指标本身介于 [0, 1] 之间,通过线性变换进行归一化。
$$
f(x)=100(1-x)
$$
### **提交文件**
在本次比赛中,您只需要按照**模版代码**里的例子,将因子构建代码写在**factor_generate**函数中并提交,平台会自动运行生成因子数据,计算得分并实时公布。但需要注意,要保证**factor_generate**函数的返回数据格式应遵循特定格式,比如:
| date | instrument | factor |
| :--- | :--- | :--- |
| 2023-01-03 | 000001.SZ | 0.05 |
| 2023-01-03 | 000002.SZ | -0.12 |
| ... | ... | ... |
---
## **赛事奖励**
* **TODO: 奖金确认?**
* **TODO: 实习OFFER确认?**
---
## **代码要求**
本次竞赛为代码竞赛,所有提交必须通过合作的线上量化平台完成。为保证竞赛公平性,您的代码需满足以下条件:
* **平台提交**: 所有因子生成代码必须在指定的线上平台Notebook环境中运行并提交。
* **运行时长限制**: CPU Notebook <= 9 小时。
* **禁止访问外部网络**: 为防止信息泄露和使用未来数据,Notebook的互联网访问权限将被禁用。
* **外部数据**: 禁止使用未经官方许可的任何外部数据。
* **最终提交**: 您提交的必须是可以自动运行并生成因子文件的代码,而非因子数据文件本身。
---
## **竞赛规则**
* **团队规模**: 每支队伍人数为1-3人,每位选手只能加入一支队伍。
* **知识产权**: 参赛作品(代码、报告等)的知识产权归参赛队伍所有。主办方对所有作品拥有非商业性的评审、展示和宣传权利。对于获奖的优秀因子,主办方在同等条件下拥有优先的商业合作洽谈权。
* **诚信竞赛**: 严禁任何形式的抄袭、作弊或共享代码行为。一经发现,将立即取消该队伍的参赛资格。
* **最终解释权**: 本赛事所有规则的最终解释权归黑翼资产大赛组委会所有。
---
## **竞赛支持**
* **官方交流社群**:建立赛事官方微信/QQ群,用于日常通知发布、技术问题解答和选手间交流。
* **FAQ文档**:在官网建立持续更新的“常见问题解答”页面。
* **学术资源**:提供经典的因子研究论文列表,供选手参考。