使用 Bandit Learning 算法的多因子模型——多因子模型研究系列之
创建于 更新于
摘要
本报告介绍了基于Bandit Learning算法的多因子选股模型,将其应用于沪深300成分股的投资组合构建。模型结合传统多因子收益预测和Barra风险估计,通过在线学习的多臂赌博机理论实时调整组合权重,目标最大化长期收益。回测显示,Bandit Learning模型整体表现稳健,在市场震荡或下跌年份收益较传统多因子更为稳定,年化收益最高达20.48%。模型在因子暴露上呈现与传统多因子不同的风格,偏好高波动、高流动性和高估值股票,同时选股风格跳跃,适应不同市场环境表现出一定优势,具有替代传统多因子模型的潜力,但风险和不确定性依然存在 [page::0][page::3][page::7][page::9][page::11][page::13].
速读内容
1. Bandit Learning算法及多因子模型框架介绍 [page::0][page::3][page::4][page::5][page::6]
- 采用多臂赌博机(Multi-Armed Bandit)理论与UCB策略,动态选择最优特征向量组合权重。
- 结合传统多因子收益预测与Barra风险协方差矩阵,使用夏普比率作为奖赏函数。
- 通过数学主成分分解协方差矩阵,区分系统性与非系统性因子,实现风险收益平衡优化。
2. 模型构建与因子选择 [page::7][page::8]
| 因子大类 | 代表因子 |
| --- | --- |
| 估值因子 | BP、扣非EP_ttm |
| 盈利因子 | 单季度ROE |
| 成长因子 | 单季度营收增长率、归母净利润增长率 |
| 动量因子 | 指数加权一年收益率、上月收益率 |
| 反转因子 | 上月收益率 |
| 波动率因子 | 月度、季度、年度波动率 |
| 流动性因子 | 月度、季度、年度换手率 |
| 市值因子 | 流通市值对数 |
- 投资组合基于沪深300成分股,月度调仓,2009-2018年因子数据,2013-2018年组合回测。
- 对照组包括沪深300指数、等权组合及传统多因子模型(MFM)。
3. 回测业绩对比及年度表现 [page::9][page::10][page::11]
| 模型 | 累计收益 | 年化收益 | 波动率 | 最大回撤 | 夏普比率 | 胜率 |
| ----------- | --------- | -------- | ------ | -------- | -------- | ------ |
| Bandit Learning l=3 | 143.73% | 17.82% | 30.69% | 57.03% | 0.578 | 53.03% |
| Bandit Learning l=4 | 175.09% | 20.48% | 30.23% | 57.03% | 0.6742 | 52.81% |
| Bandit Learning l=5 | 95.01% | 13.08% | 30.07% | 57.03% | 0.4331 | 52.67% |
| 传统多因子模型 | 180.34% | 20.89% | 25.71% | 35.59% | 0.8088 | 53.76% |
| 等权组合 | 78.57% | 11.26% | 24.51% | 43.83% | 0.4574 | 52.37% |
| 沪深300指数 | 20.66% | 3.52% | 24.02% | 46.70% | 0.1459 | 0.00% |
- 虽总体收益略低于传统多因子,但Bandit Learning在市场震荡及下跌年份收益较为稳健。
- 不同参数l值下表现相近,l=4时效果最佳。

4. 选股风格与因子暴露差异 [page::11][page::12][page::13]
| 因子 | Bandit Learning因子均值 | 传统多因子均值 | 解释 |
|------|------------------------|---------------|-------|
| 盈利 | -0.05 | 0.22 | BL模型盈利因子暴露较低 |
| 动量 | -0.004 | 0.14 | BL模型动量因子暴露低 |
| 成长 | 0.23 | 0.70 | BL模型成长因子暴露较小 |
| 波动率 | 0.17 | -0.13 | BL模型偏好高波动股票 |
| 流动性 | 0.04 | -0.22 | BL偏好高换手率股票 |
| 估值 | -0.14 | 0.25 | BL模型估值取向较传统不同 |
- Bandit Learning 模型选股风格跳跃,表现出与传统多因子模型截然不同的因子偏好。
- 在趋势性市场中,传统多因子表现优异;而在震荡市,Bandit Learning更具优势。
- 因子暴露时间序列显示BL模型风格变化剧烈,MFM风格趋于连续稳定。
5. 总结与风险提示 [page::13]
- Bandit Learning算法作为新兴在线学习选股模型,能适应复杂多变市场环境。
- 在部分年份市场下跌时仍展现较好稳定性,具有替代传统多因子模型的潜力。
- 模型受市场环境影响较大,存在回撤及运行机制透明度不足的风险,需进一步研究优化。
- 风险提示:模型可能因环境变化失效,投资者需谨慎使用。
深度阅读
使用 Bandit Learning 算法的多因子模型研究报告详尽分析
---
1. 元数据与报告概览
报告标题:使用 Bandit Learning 算法的多因子模型——多因子模型研究系列之
分析师:宋旸
发布机构:渤海证券股份有限公司研究所
发布日期:2018年9月26日
研究主题:将在线学习中Bandit Learning算法应用于A股沪深300成分股的多因子模型选股策略。
核心信息及评级:
本报告旨在引入Bandit Learning(多臂赌博机)算法,用于优化多因子选股模型,通过动态实时反馈机制提升投资组合收益表现。研究表明,Bandit Learning模型相比传统多因子模型,在A股市场中尤其是市场震荡或指数下跌年份中表现更稳健,但整体年化收益略逊于传统多因子模型。报告提醒,由于Bandit Learning模型尚属较新模型,存在收益来源和延续能力不确定性的风险。并未给出明确的投资评级,但在风险提示中强调模型潜在失效风险。 [page::0,3,13]
---
2. 逐节深度解读
2.1 报告概述(第3页)
报告首先回顾了传统多因子模型建立在Markowitz风险收益框架下,对单期横截面数据进行优化的特点。近年来(特别是2017年后)传统因子出现失效,导致传统模型回撤风险加大。为解决此问题,报告借鉴了Li和Hoi的研究提出的“在线学习”理念,通过多臂赌博机算法实现动态学习和逐期反馈优化,从而最大化长期的几何平均收益。
该方法旨在跳出传统依赖单次预测准确度的框架,强调“守成(exploitation)”与“探索(exploration)”的平衡,适应市场动态变化,特别适合高变动性的中国市场。参考了Shen等人在美股市场的尝试,报告创新性地将Bandit Learning算法植入沪深300成分股投资组合优化策略中,力图提升模型在市场变化中的适应性。 [page::3]
2.2 理论简介与算法推导(第3-7页)
2.2.1 多臂赌博机问题(第3-4页)
以经典赌场多臂老虎机为比喻,说明在线学习算法决策本质:有限次数下在当前已知最优选择和未知待探索机会间权衡,追求长期整体收益最大化。投资领域中,“臂”对应不同资产,动态调整权重组合,非逐期最高收益,而是长期收益最优。
2.2.2 数学推导核心(第4-7页)
- 采集资产历史收益率序列,估计当前期资产收益期望和协方差矩阵。该协方差矩阵$\Sigmak$为正定矩阵,利用特征分解得到特征值($\lambda{k,1} > \lambda{k,2} > ... >0$)和特征向量($Hk$)组成正交矩阵。
- 进一步归一化特征向量使其权重和为1,形成一组线性无关的投资组合。
- 按Bai和Ng的因子数判定方法,将特征值分割:前$l$个代表系统性风险因子,后$n-l$个代表非系统性风险因子以捕获主动收益。$l$一般取3至5。
- 利用UCB(Upper Confidence Bound)算法在前$l$个系统性因子与后$n-l$个主动因子中动态选择“最优臂”,奖赏函数采纳夏普比率形式,体现收益与波动的平衡。
- 通过微积分优化方式确定特征向量组合权重$\thetak^*$,以最小化组合波动率,结果权重允许为负(美股允许空头,A股则需二次规划转化为非负权重且满足权重和为1的约束)。
- 最终迭代得到的权重即为每期投资组合权重,动态调整,达到平衡与探索的最优长期组合策略。
整体算法严格结合传统多因子模型估计收益和风险,并通过Bandit Learning的在线学习机制实现适应市场最新信息的实时反馈优化。具体流程在第6页详细列出(步骤包含数据输入、主成分分析、标准化、奖赏计算、UCB臂选择、权重计算、二次规划及输出)。 [page::4,5,6,7]
2.3 模型建立与回测(第7-11页)
- 数据范围及频率:沪深300成分股,因子数据为2009年至2018年8月,调仓频率为月度调仓,实际回测期为2013年-2018年8月。
- 因子选择与处理:共有估值(BP、扣非EPttm)、盈利(单季度ROE)、成长(季度营收和净利润增长率)、动量(指数加权一年/上月收益率)、反转(上月收益率)、波动率(月度到年度波动率)、流动性(月度到年度换手率)、市值(流通市值对数)八大类因子共计若干具体因子,经缺失值处理、去极值、标准化、中性化等预处理形成最终模型因子。
- 风险收益模型:采用Barra模型估计协方差矩阵,结合收益预测模型,构建二次规划投资组合优化问题,风险厌恶系数取1,单股权重限额10%。该方法与Bandit Learning算法使用相同收益和协方差估计方法,仅在组合权重优化环节采用不同算法。
- 对照组:同期沪深300指数、等权组合及传统多因子模型(MFM)作为基准。
- 回测结果(表2):
| 模型 | 累计收益 | 年化收益 | 波动率 | 最大回撤 | 夏普比率 | 胜率 |
|---------------------|----------|----------|--------|----------|----------|---------|
| Bandit Learning (l=3) | 143.73% | 17.82% | 30.69% | 57.03% | 0.578 | 53.03% |
| Bandit Learning (l=4) | 175.09% | 20.48% | 30.23% | 57.03% | 0.674 | 52.81% |
| Bandit Learning (l=5) | 95.01% | 13.08% | 30.07% | 57.03% | 0.433 | 52.67% |
| 传统多因子模型 | 180.34% | 20.89% | 25.71% | 35.59% | 0.81 | 53.76% |
| 等权组合 | 78.57% | 11.26% | 24.51% | 43.83% | 0.457 | 52.37% |
| 沪深300指数 | 20.66% | 3.52% | 24.02% | 46.70% | 0.146 | 0% |
- 年度收益比较(表3):
Bandit Learning模型相较传统多因子在不同年份表现迥异,2013年、2016年、2018年沪深300下跌年份,传统多因子模型收益为负且下跌幅度更大,而Bandit Learning模型保持小幅正收益或损失较小,显示更强稳健性。相反在牛市(2014-2015年)和趋势市中,传统多因子表现明显优于Bandit Learning。
- 回测曲线(图1)显示各模型累计收益走势,Bandit Learning曲线平滑无激烈波动,传统多因子收益更高但波动率较高,指数表现最差。
这种稳健性可能源于在线学习目标聚焦长期几何平均收益而非单期收益,对单期波动和回撤容忍度更大。[page::8,9,10,11]
2.4 业绩归因与选股风格分析(第11-13页)
- 因子暴露及收益统计(表4)显示,Bandit Learning(BL)与传统多因子模型(MFM)在因子偏好上存在显著差异:
| 因子类别 | BL因子均值 | MFM因子均值 | BL因子收益 | MFM因子收益 |
|----------|------------|-------------|-------------|-------------|
| 市值 | -0.197 | -0.174 | 0.007 | 0.227 |
| 盈利 | -0.050 | 0.221 | -0.005 | 0.124 |
| 反转 | -0.002 | 0.002 | -0.027 | 0.071 |
| 动量 | -0.004 | 0.141 | 0.019 | 0.105 |
| 成长 | 0.226 | 0.700 | 0.063 | 0.184 |
| 流动性 | 0.043 | -0.218 | -0.018 | 0.170 |
| 波动率 | 0.167 | -0.131 | -0.069 | 0.112 |
| 估值 | -0.138 | 0.245 | -0.094 | 0.222 |
- BL模型避开盈利和动量因子的暴露,偏好高成长、高波动、高流动性及相对高估值股票;而传统多因子模型更重视盈利、动量、成长因子,偏好低波动、低流动性及低估值股票。
- 因子收益上,MFM模型各因子平均贡献均为正且较高,BL模型主要因子收益趋于较小或负值,说明BL模型可能依赖组合动态调整来实现收益,而非单因子优势。
- 因子暴露时间序列表现(图2-9):传统多因子模型风格表现出明显的趋势性,因子暴露较为平滑且相对稳定。反观Bandit Learning模型因子暴露波动较大,风格跳跃性强,体现其算法对市场信息的快速适应和多臂赌博机策略中的探索机制。
这种风格差异也解释了为何BL模型在震荡市更优,传统多因子在趋势市场占优。 [page::11,12,13]
---
3. 图表深度解读
图1(第11页):各模型回测累计收益曲线
- 多条曲线反映Bandit Learning(l=3,4,5)、传统多因子模型、等权组合和沪深300指数2013年2月至2018年7月底的收益轨迹。
- 传统多因子模型收益最高,收益曲线陡峭且波动大,2015年达到峰值后大幅回调。
- Bandit Learning曲线走高且平滑,尤其l=4参数下表现最佳,稳健于传统多因子。
- 指数表现最弱,8字形波动明显。
该图有效说明了Bandit Learning对震荡和回调期的风险控制能力,支持文本结论。
表2(第9页):历史回测整体结果对比
- Bandit Learning回测表现随参数$l$变化显著,其中l=4时表现最佳。
- 传统多因子虽然收益率、夏普均优于Bandit Learning,但波动率更低,最大回撤远低于BL(35.59% vs 57.03%),体现更好的风险控制。
- 相较基准指数和等权组合均有明显超越。
这表明Bandit Learning迎合不同投资者对收益与风险偏好的多样需求,尤其对容忍较高波动的投资者较为适合。
表3(第10页):各年度收益
- 2013、2016、2018三年指数下跌年,Bandit Learning均实现正或浅亏回报,相较传统多因子及基准表现稳健。
- 在牛市(2014,2015)及2017年行情,传统多因子收益显著领先。
股票市场多变,模型的这种换挡适应能力特色凸显了Bandit Learning的应用潜力。
表4(第11页):因子暴露与收益对比
- 反映两模型组合对八大类因子的偏好及对应因子贡献差异。
- 数值显示传统多因子明显偏重价值及盈利相关因子,BL则表现出截然相反的倾向。
该表在定量层面支持了中性化及选股风格差异分析。
图2-9(第12-13页):因子历史暴露时间序列
- 图形直观呈现BL模型因子暴露的较强变动和跳跃,与传统多因子模型的趋势性暴露形成对比。
- 多因子模型中同一因子暴露度较为集中,BL则表现频繁波动。
此事实进一步证明BL模型动态适应市场变化、本质上的探索性更强。
---
4. 估值分析
报告未提供典型公司估值或个股目标价,因其核心关注点为多因子投资模型的构建及回测表现,而非针对单一资产的估值。但明确通用估值相关含义如下:
- 多因子模型风险矩阵采用Barra模型,计算误差方差与因子协方差。
- 组合权重优化通过凸优化(quadratic programming)框架完成,最大化预期收益减去风险惩罚项,体现均值-方差优化思想。
- Bandit Learning使用UCB算法辅助动态权重调整,本质上是将风险控制嵌入动态权重选择过程,优化夏普比率指标。
以上方法结合提供一个面向风险-收益平衡的投资策略,凸显估值风险的控制。
---
5. 风险因素评估
报告明确指出风险提示:
- Bandit Learning模型作为新兴模型,其运行机制和收益来源尚无充分市场验证,收益持续性存在不确定性。
- 市场环境极端变化可能导致模型失效。
- 回测显示该模型在市场大幅下行时仍存在较大回撤风险。
- 投资者需警惕因模型算法自身假设与市场复杂性的差异造成潜在亏损。
- 文中强调今后研究需深化算法理解及其适应市场的边界,缓解风险。
未见有具体的风险缓释策略,但提出持续研究的方向以完善模型稳定性。 [page::0,13]
---
6. 批判性视角与细微差别
- 报告客观呈现Bandit Learning的优劣,但由于与传统多因子模型对比中,Bandit Learning整体收益略低,且波动和最大回撤偏高,表明该模型存在较高风险,实际应用中需结合投资者风险偏好。
- 业绩归因中BL模型因子收益表现偏弱,暗示其收益更依赖组合动态权重调整而非某单一因子优势,可能导致模型在特定市场因子失效时表现不稳定。
- 选股风格跳跃带来的高频波动,在交易成本较高的市场环境中可能缩减实际净收益,报告未提及交易成本,这一点需注意。
- 文中数据样本覆盖2009年至2018年,考虑A股市场特性及监管变化,模型表现的代表性和鲁棒性仍待长期跟踪验证。
- 报告建议$l$赋值3-5,无显著敏感性,但实际场景下特征值解析及因子选择尚带一定主观确定性。
- A股允许做空限制,模型处理负权重需将其调整为非负权重,这对模型性能可能有一定限制,但报告中对此调整过程描述相对简单,深入细节不多。
---
7. 结论性综合
本报告系统介绍了基于Bandit Learning算法的多因子模型构建流程、理论基础及实证回测结果。Bandit Learning模型通过在线学习中的多臂赌博机思想,引入动态反馈机制与探索-利用平衡,创新地优化了沪深300股票多因子选股权重的动态调整。
在模型建立中结合了传统多因子模型的收益和Barra风险模型,利用特征分解和UCB算法完成权重选取,最终应用二次规划保证权重可交易性。回测结果显示,在整体年化收益和夏普比率方面,Bandit Learning模型略低于传统多因子模型,但其在市场震荡或下跌年份表现更为稳健,能保持较少幅度的回撤,体现更好的适应性和容错能力。
业绩归因分析揭示两类模型选股风格差异显著,Bandit Learning更偏好高波动、高换手和高估值股票,且因子暴露更为跳跃,这种动态风格使其在非趋势市场表现相对突出。图表和统计数据完整支持上述发现。
报告同时提醒,作为新兴模型,Bandit Learning存在收益延续性和风险控制尚未完全明确的风险,投资者需谨慎使用。同时未来的研究方向将围绕算法改进和市场环境适应性深入开展,作为传统多因子模型的重要补充。
综上,Bandit Learning多因子模型为适应复杂且动态市场环境提供了有效的思路和实践路径,其稳健性和潜在优势值得进一步关注和研究,但目前尚不宜完全替代传统多因子策略,建议投资者结合自身风险偏好和投资周期综合考量应用。[page::0,3-7,8-13]
---
主要图表展示
图1:选股模型回测收益曲线

图2:沪深300选股模型市值因子历史暴露

图3:沪深300选股模型成长因子历史暴露

图4:沪深300选股模型盈利因子历史暴露

图5:沪深300选股模型估值因子历史暴露

图6:沪深300选股模型动量因子历史暴露

图7:沪深300选股模型反转因子历史暴露

图8:沪深300选股模型波动率因子历史暴露

图9:沪深300选股模型流动性因子历史暴露

---
总结
本报告深入介绍并验证了Bandit Learning算法在A股多因子选股中的应用潜力和局限。结合丰富的理论推导和实证分析,展现了该模型在复杂多变市场环境中的独特优势和挑战,为多因子模型的发展提供了重要思路补充及研究方向。投资者和研究人员应在充分理解风险并结合自身需求的基础上,审慎评估并尝试将此类新兴算法作为多因子选股策略的重要参考与实践工具。[page::0-13]