XGBoost 多因子量化选股

由bq5973r5创建，最终由bq5973r5更新于2026-03-04 09:34 被浏览 253 用户

很多人听到“机器学习量化”，第一反应是：黑箱、难解释、只在回测里好看。\n这篇文章我们用尽量直观的方式解释：我们如何用 XGBoost做一套可解释、可落地的选股策略——从数据、因子、标签，到训练、打分、选股、调仓，走完完整闭环。

1. 我们先解决一个现实问题：股票“能不能交易”

任何策略落地前，都要先过滤掉不可交易噪声。\n因此我们采用相对成熟、流动性较好的股票池：沪深300 + 中证500，并剔除：

这样做的目的很简单：让模型训练与组合执行更贴近真实市场，减少回测与实盘偏差。

我们每日为每只股票计算 21 个特征（因子），覆盖五类市场驱动：

举个简单例子：同一天两只股票 A 和 B，如果 A 的趋势更强、成交更活跃、且相对行业更强，那么它更可能属于“强势组”。\n机器学习的价值就是：它能学习不同因子在不同市场环境下的组合权重，而不是只依赖某一个信号。

动量这类指标本身很直观，例如：

但我们并不依赖单因子，而是用多因子共同刻画股票状态。

很多策略喜欢用“未来 5 天收益是否为正”当标签。但这个标签有个明显问题：它会被大盘带偏。\n牛市里大家都涨，熊市里大家都跌，模型容易学成“择时”而不是“选股”。

因此我们采用更贴近“选股超额”的标签方式：\n同一天内，把所有股票的未来 5 天收益做排名，排名靠前（比如 Top30%）的标记为正样本，其余为负样本。

这样模型学到的核心能力是：\n在同一市场环境下，哪些股票更可能跑赢其它股票。

你可以把 XGBoost 理解成一个“多轮纠错”的评分系统：

为什么这比单因子更稳？\n因为市场信号经常是“条件成立才有效”。比如：

树模型很擅长表达这种“条件组合”，而 boosting 会让它一轮轮修正偏差。

训练完成后，模型会对每只股票每天输出一个分数（xgb_score）。\n你可以把它理解成：这只股票更像“强势组”的概率/置信度。\n它不是“保证盈利”，而是用来做排序：分数越高，越值得排在组合候选的前面。

市场环境会变化。为了降低“训练期有效、未来失效”的概率，我们采用滚动训练方式：

你可以把它理解为模型定期“复训升级”，而不是用一套旧规则一直跑到最后。

当每天的评分出来之后，交易执行非常清晰、也更可解释：

为什么用等权？\n因为我们更想依赖“排序能力”，而不是过度相信分数的绝对刻度。同时等权也更稳定、更容易解释。

为什么不是每天换？\n每天换会带来更高的交易成本和滑点，很多时候会吃掉超额收益。\n因此我们用“固定调仓频率”在信号响应速度与交易成本之间做折中。

回测结果