使用 Thompson Sampling 算法的策略混合模型——多因子模型研究系列之六
创建于 更新于
摘要
本报告介绍了在线学习算法中Thompson Sampling方法,结合估值、盈利、成长等八大类因子,构建多因子混合模型,适应2017年市值因子风格反转。针对沪深300、中证500及股债混合标的进行回测,结果表明该模型表现出较强适应性和领先收益,尤其在资产周期轮动中优势明显,长期优于传统多因子策略及其他在线学习算法 [page::0][page::3][page::4][page::9][page::14].
速读内容
研究背景与理论基础 [page::0][page::3]
- 市值因子在2017年年末失效,导致传统多因子模型大幅回撤。
- 引入在线学习算法Thompson Sampling,基于多臂老虎机理论,动态调整组合权重,平衡探索与利用。
- 该方法在历史数据中未受风格反转冲击,展现持续盈利能力,适合周期性市场环境。
多因子模型构建及分层抽样方法 [page::4][page::5]
- 选取估值(BP、扣非EPttm)、盈利(单季度ROE)、成长、动量、反转、波动率、流动性和市值八大类型因子。
- 以沪深300和中证500成分股为研究标的,构建行业中性分层抽样指数增强策略,通过市值因子分离大市值组与小市值组。
- 行业权重保持与基准一致,剔除行业影响,分析市值因子的历史表现。
市值因子风格变化分析 [page::6]

- 沪深300小市值组合长期领先,2017年风格反转后表现大幅下滑。

- 中证500表现类似,小市值优势先行显现,随后出现风格切换。
在线学习算法对照组及详细说明 [page::6][page::7]
- 对照组包括买入持有(BAH)、定期调整组合(CRP)、贪心算法、Epsilon-Greedy算法和Thompson Sampling。
- 贪心和Epsilon-Greedy算法分别侧重当前最大收益和带有探索的固定概率策略。
- Thompson Sampling实现通过贝叶斯Beta分布动态调整权重,更及时自适应市场环境变化。
Beta分布与Thompson Sampling算法原理 [page::8][page::9]

- Beta分布拟合每个臂的成功概率,参数表示成功与失败次数。
- 算法根据历史表现调整参数值,权重按概率分布随机采样,实现动态平衡探索和利用。
沪深300回测结果及分析 [page::9][page::10][page::11]
| 指标 | LCap | SCap | BAH | CRP | Greedy | E-Greedy | Thompson | HS300 |
|----------|--------|--------|--------|--------|--------|----------|----------|-------|
| 累计收益 | 49.79% |105.63% |76.54% |73.09% |30.02% |65.55% |81.10% |18.15% |
| 年化收益 | 4.73% |8.59% |6.71% |6.47% |3.05% |5.93% |7.02% |1.92% |
| 波动率 |24.78% |25.43% |24.82% |24.78% |25.18% |24.73% |24.72% |24.16% |
| 最大回撤 |36.33% |30.43% |33.34% |34.14% |36.33% |34.49% |32.04% |39.62% |
| 夏普比率 |0.19 |0.34 |0.27 |0.26 |0.12 |0.24 |0.28 |0.08 |
| 信息比率 |0.70 |1.10 |1.37 |1.39 |0.25 |1.25 |1.41 | |
| 胜率 |58.10% |63.81% |60.00% |60.95% |55.24% |61.90% |66.67% | |

- Thompson Sampling取得年化7.02%、信息比率1.41,月度胜率最高。
- 2017年市值风格转变期,Thompson Sampling表现稳定未受影响,实现持续盈利。

中证500回测结果及分析 [page::11][page::12][page::13]
| 指标 | LCap | S_Cap | BAH | CRP | Greedy | E-Greedy | Thompson | HS300 |
|----------|---------|---------|---------|---------|---------|----------|----------|--------|
| 累计收益 | 145.81% | 184.00% | 165.77% | 163.53% | 143.71% | 113.26% | 178.80% | 4.34% |
| 年化收益 | 10.83% | 12.67% | 11.82% | 11.71% | 10.72% | 9.04% | 12.43% | 0.49% |
| 波动率 | 27.10% | 27.89% | 27.25% | 27.18% | 27.33% | 27.58% | 27.16% | 27.49% |
| 最大回撤 | 38.88% | 32.60% | 34.77% | 35.42% | 35.28% | 36.06% | 36.16% | 55.55% |
| 夏普比率 | 0.40 | 0.45 | 0.43 | 0.43 | 0.39 | 0.33 | 0.46 | 0.02 |
| 信息比率 | 1.65 | 1.94 | 2.23 | 2.19 | 2.00 | 1.45 | 2.24 | |
| 胜率 | 70.48% | 69.52% | 79.05% | 74.29% | 73.33% | 66.67% | 75.24% | |

- Thompson Sampling表现抢眼,整体领先多数策略。
- 该方法在风格轮动期展现出稳健持续盈利能力。

股债混合模型回测及周期轮动适应性 [page::14][page::15]
| 指标 | Thompson | E-greedy | Greedy | CRP | HS300 | 中证国债 | 等权组合 |
|----------|-----------|----------|---------|---------|---------|-----------|-----------|
| 累计收益 | 437.30% | 154.59% | 301.70% | 90.54% | 59.77% | 57.62% | 79.01% |
| 年化收益 | 15.73% | 8.46% | 12.84% | 5.76% | 4.16% | 4.03% | 5.19% |
| 波动率 | 15.09% | 14.69% | 18.84% | 7.92% | 28.68% | 2.16% | 14.35% |
| 最大回撤 | 32.13% | 37.19% | 35.90% | 17.67% | 72.30% | 5.87% | 42.49% |
| 夏普比率 | 1.0381 | 0.5734 | 0.6785 | 0.7249 | 0.1443 | 1.8575 | 0.3602 |
| 信息比率 | 3.0044 | 0.5649 | 0.5289 | 0.0825 | -0.0714 | -0.0799 | - |
| 胜率 | 53.24% | 51.90% | 51.90% | 47.41% | 52.59% | 47.41% | - |

- 股债资产出现明显周期轮动,Thompson Sampling能快速顺应周期变化,实现回撤控制及超额收益。

总结与未来展望 [page::15][page::16]
- Thompson Sampling算法在多因子模型改进中表现优异,适应市场风格转换能力突出,尤其适合周期性资产投资。
- 可结合市场判断,震荡行情倾向该方法,趋势行情可搭配动量策略。
- 计划继续探索更多在线学习模型,扩展应用至行业轮动及资产配置领域。
- 提醒模型存在市场环境变化导致失效的风险。
深度阅读
使用 Thompson Sampling 算法的策略混合模型——多因子模型研究系列之六详尽分析报告
---
一、元数据与概览
- 报告标题:使用 Thompson Sampling 算法的策略混合模型——多因子模型研究系列之六
- 分析师:宋旸
- 发布日期:2018年12月28日
- 所属机构:渤海证券股份有限公司研究所
- 核心主题:将在线学习算法中的Thompson Sampling应用于改进多因子模型,提升模型对市场风格转变的适应性,尤其是针对2017年市值因子失效的挑战。
- 核心观点:
- 传统多因子模型回撤严重源于2017年末市值因子失效。
- Thompson Sampling作为一种在线学习算法,体现探索(exploration)与利用(exploitation)的平衡,可以自适应市场风格变化。
- 该算法在沪深300、中证500及股债混合模型中均表现优越,尤其在市场周期轮动及风格切换时优势明显。
- 后续研究将探索更多在线学习算法及在行业轮动、资产配置领域的应用。
- 报告主旨:介绍并实证Thompson Sampling算法在多因子策略中的优势,尤其针对风格转变时期的有效适应性与持续盈利能力,提供一种超越传统预测依赖模型的新思路[page::0, 3, 15, 16]。
---
二、逐节深度解读
1. 概述
- 传统多因子模型基于Markowitz风险收益框架,核心是利用历史因子预测组合收益和风险,旨在获得最优风险收益比。
- 传统模型挑战在于历史数据不能完全预测未来,2017年小市值因子风格反转导致模型回撤惨重。
- 因子择时策略虽尝试应对风格转变,但本质上仍依赖未来预测,有较大不确定性。
- 彻底放弃市值因子则可能导致长周期的alpha收益损失。
- 引入《Online Portfolio Selection: A Survey》中提出的在线学习算法以解决此问题,强调模型基于概率分布和实时反馈,不直接预测未来,而是最大化长期和几何平均收益。
- 本报告借鉴Shen等人《Portfolio Blending via Thompson Sampling》方法,将Thompson Sampling引入A股因子择时,验证其周期性资产投资中的适用性和强适应性。
解读:此部分明确点出传统模型的痛点及改进必要性,强调在线学习算法与传统多因子模型在预测逻辑上的根本不同,是报告理论创新的起点[page::3]。
---
2. 理论简介
- 通过多臂老虎机问题解释在线学习的核心挑战:在有限试验中如何平衡“守成”(exploitation)与“探索”(exploration)以最大化总体奖励。
- 具体到量化投资中,各“臂”对应不同资产或资产组合,回报率随时间变化,依赖历史表现。
- 在线学习算法能根据实时数据自我调节策略,关注长期收益最大化而非眼前最优。
解读:用多臂老虎机问题构建了一个简明的解释框架,凸显Thompson Sampling算法平衡探索与利用的本质。该理论基础为后续具体算法应用与构建奠定根基[page::3,4]。
---
3. 模型建立
3.1 分层抽样多因子模型建立
- 针对沪深300、中证500成分股,月度调仓,2010年至2018年11月数据。
- 选取八大类因子:估值(BP、扣非EPttm)、盈利(单季ROE)、成长(营业收入与归母净利润增长率)、动量(指数加权一年及上月收益率)、反转(上月收益率)、波动率(各期限)、流动性(换手率)、市值(流通市值对数)。
- 数据处理步骤包括缺失值处理、去极值、标准化、中性化,采用半衰期加权移动平均方法构建预测模型。
- 采用31个行业分类(原29个一级行业加细分非银行金融行业)做行业中性处理。
- 每个行业中市值因子将股票分为小市值组与大市值组,各组择优选2只标的,赋予行业权重。
- 形成约62只股票的大小市值样本组合,保障行业权重与基准指数一致,以剔除行业因素干扰,专注市值因子表现。
关键数据:
- 表1详列因子类别及具体因子。
- 回测发现:从2010年至2017年前,小市值组合表现稳定领先,2017年市值风格发生反转,需模型灵活应对。
解读:通过分层抽样、行业中性与市值分组构造大小市值组合,确保变量独立性及因子纯净,既支撑了市值因子在不同阶段表现的客观分析,也为在线学习算法的适用性测试提供了可靠成长土壤[page::4,5]。
3.2 对照组构建
- 引入两套对照组以客观评价模型表现,分别是:
- 买入持有组(BAH):初始等权买入大小市值组合,之后持有不动。
- 定期调整资产比例组(CRP):初始等权买入,后每期调整使两者价值相等,降低波动性。
解读:对照组设计考虑了简单静态策略与动态调仓策略,为测试算法的动态适应性和实际投资意义提供了多维参考[page::6,7]。
3.3 算法介绍
- 贪婪算法(Greedy):
- 使用最近24期数据计算两臂收益,下期投入过去表现最优臂。
- 缺点是不探索,可能陷入局部最优。
- Epsilon-Greedy:
- 每期以0.3概率随机选择臂,0.7概率选择历史表现最优臂,保证一定探索。
- 扩展到连续权重空间时,赋予主臂0.7权重,副臂0.3权重。
- 限制在于探索比例固定,无法动态调整,掉概率低的臂权重过高。
- Thompson Sampling:
- 每个臂的奖励概率用Beta分布表示,$Beta(\alpha, \beta)$,其中$\alpha$为成功次数,$\beta$为失败次数。
- 随着试验次数增加,分布收敛确定性增强。
- 在离散空间,每期根据Beta分布抽样确定下一次选择。
- 扩展至连续空间时,根据过去M期收益调整$\alpha$与$\beta$,动态计算权重,实现确定性动态权重分配。
- 优势在于及时自我调整,平衡了探索利用,表现优于前两种算法。
关键图表:
- 图3展示不同$\alpha,\beta$参数下Beta分布形态,理解分布收敛及均值含义。
解读:通过引入统计学上的Beta分布作为奖励概率的贝叶斯先验,Thompson Sampling能动态估计臂的成功概率,结合历史表现灵活调整投资权重,打破固定探索比例的限制,实现更优的风险收益权衡[page::7,8,9]。
---
4. 回测结果
4.1 沪深300回测
- Thompson Sampling年化收益7.02%,信息比率1.41,月度相对胜率66.67%,在所有策略中表现最佳。
- 表2显示:
- 大市值组(LCap)累计收益49.79%,年化4.73%;小市值组(S_Cap)累计105.63%,年化8.59%。
- 传统对照组BAH、CRP表现介于二者之间,Greedy及Epsilon-Greedy表现较差。
- Thompson Sampling实现收益与风险的最佳平衡(波动率24.72%,最大回撤32.04%),夏普比率、信息比率均领先。
- 图4显示各策略择时后的相对沪深300超额收益曲线,2017年市值风格逆转后小市值组合回撤明显,呈现出传统方法的适应性不足,Thompson Sampling平滑了这一冲击,实现持续盈利。
- 图5净值曲线与表3年度收益显示,Thompson Sampling在大小市值风格分化明显年、风格转换年表现尤为抢眼。
总结:Thompson Sampling以其动态自适应能力,克服了2017年市值风格反转带来的冲击,实现了稳定积极的超额收益[page::9,10,11]。
4.2 中证500回测
- 结构类似,Thompson Sampling年化收益12.43%,信息比率2.24,月度胜率75.24%,同样表现最好。
- 表4数据显示,买入持有策略胜率高但可能因小市值组合大幅占比引发潜在风险。
- 图6与图7显示期间风格切换频繁,Thompson Sampling算法能灵敏反应调整组合权重,获得持续超额回报。
- 表5年度收益中,风格明晰年份如2010、2016、2017,Thompson Sampling优势明显,波动阶段稍微落后买入持有。
总结:同沪深300,Thompson Sampling在中证500市场中展现了更强的环境适应力及盈利能力[page::11,12,13]。
4.3 股债混合模型回测
- 使用沪深300指数与中证国债指数,日度收益,60日移动窗口构建模型。
- 表6数据显示,
- Thompson Sampling累计收益437.3%,年化15.73%,远超其它算法及基准。
- 波动率15.09%,较股市显著降低,最大回撤32.13%,明显优于股市组合。
- 夏普比率1.0381、信息比率3.0044均领先。
- 图8、9展示了股债轮动对应超额收益和净值曲线,Thompson Sampling在周期轮动发生时效率显著提升,展示出较强的周期性适应能力。
总结:在线学习算法在周期轮动型资产组合中具有重大优势,Thompson Sampling能快速捕捉不同资产的周期表现规律,实现组合增益[page::13,14,15]。
---
5. 总结与未来研究方向展望
- 报告强调Thompson Sampling模型的自适应特性,尤其适合周期性资产与风格轮动市场。
- 算法通过贝叶斯更新方式动态确定资产权重,与其他算法相比,在风格转换和震荡行情中风险控制和收益均优异。
- 建议结合市场判断,震荡行情时用此算法平滑风险,趋势行情可采用偏动量策略提升短期收益,长期来看Thompson Sampling更优。
- 未来计划继续研究多种在线学习算法,拓展应用范围至行业轮动、资产配置等,进一步探索运行机制与收益驱动因素。
- 明确风险提示:模型仍可能因市场环境变化失效[page::15,16]。
---
三、图表深度解读
- 图1、图2(沪深300、中证500市值因子回测收益曲线):
展示小市值组合较大市值组合的累积相对收益走势,反映市值风格在2017年的显著反转,小市值优势显著减弱甚至转负。
- 图3(Beta分布概率密度曲线):
通过不同形状参数($\alpha$, $\beta$)展示Beta分布的特点,说明参数数量和比例如何影响概率预测的确定性和期望值,是理解算法贝叶斯更新的关键。
- 图4、图6(选股模型相对沪深300/中证500超额收益曲线):
清晰展现不同策略下收益的动态变化,Thompson Sampling曲线更平滑,上行阶段表现优于其他算法,体现了良好的适应风格转换能力。
- 图5、图7(选股模型净值曲线):
显示不同策略累积净值变化,Thompson Sampling长期保持较高增长,尤其在周期及风格轮动明晰年份优势显著。
- 图8(股债混合模型超额收益曲线):
多策略超额收益对比,Thompson Sampling超额收益稳步提升,轮动节点收益跃升,体现周期性资产间动态调仓的敏锐度。
- 图9(股债混合模型净值曲线):
各策略累计净值走势,Thompson Sampling明显领先,凸显其在跨资产配置中的优越性。
- 表1(入选因子汇总)明确了因子构建标准和方向,为多因子模型基础数据提供保障。
- 表2至表6(各回测结果详细数据):
详尽数据支撑文本结论,包含收益、波动率、最大回撤、夏普比率、信息比率及胜率,形成全面绩效评价体系。
图表与数据强有力地支持了Thompson Sampling算法的理论优势和实证效果,尤其在适应市场周期转变、提高长期稳定收益方面展现明显优势[page::6-15]。
---
四、估值分析
此次报告主要聚焦于策略构建与绩效回测分析,无直接估值模型(如DCF、市盈率倍数法)部分,但使用了多层次的绩效指标(累计收益、年化收益、夏普比率、信息比率等)来比较各策略收益质量。
在线学习算法的核心优势在于动态权重调整,而非固定估值参数模型,因此回测绩效参数可以看作估值优化的替代指标。
---
五、风险因素评估
- 报告明确提示:随着市场环境变化,包括宏观经济、政策调整、市场结构变化等,模型存在失效风险。
- 该风险主要体现在模型对历史数据的依赖及风格转变复杂多变的不可预测性。
- Thompson Sampling虽然具备动态调整能力,但也可能因非历史数据反映的突发市场事件影响效果。
- 暂无系统缓解策略,对风险的估计更偏向提醒使用者关注市场环境动态并结合人工判断。
---
六、批判性视角与细微差别
- 优势:
- 提出了融合贝叶斯学习思想的动态资产配置策略,创新性强。
- 多市场、周期、资产类别的回测增加结果的稳健性和说服力。
- 潜在局限:
- 算法基于历史收益的自我反馈,深度依赖历史的代表性,面对极端或全新市场环境适应性未知。
- Epsilon-Greedy参数如$\varepsilon=0.3$设定较为随意,未提供参数敏感性分析。
- 虽引入对照组,仍缺乏与更多先进机器学习或深度学习模型的横向比较。
- 回测期间样本是否存在幸存者偏差、交易成本、滑点等现实交易摩擦未详细说明,可能影响实操成功率。
- 报告在算法数学阐述中曾出现排版乱码,影响理论理解的连贯性。
- 细微差异:
- Thompson Sampling在强势风格持续年份可能略微落后买入持有,体现了该算法的风险规避倾向,但这可能对长期稳健收益更为有利。
- 不同市场中胜率和收益收益不总是一致,暗示算法适用性在不同市场环境下需细化调整。
总体来看,报告对Thompson Sampling算法持正面态度,但也合理提出算法需结合市场判断,警示模型失效风险,体现谨慎与客观[page::7,9,11,15,16]。
---
七、结论性综合
本报告系统介绍并实证了将Thompson Sampling算法应用于多因子模型中,构建策略混合动态组合,尤其在风格周期变换明显、周期资产轮动的市场环境中表现卓越。主要结论包括:
- 理论层面:在线学习框架赋予模型探索与利用的动态平衡能力,Beta分布的贝叶斯更新成为动态权重调整的重要机制。
- 实证层面:
- 在沪深300及中证500市场回测中,Thompson Sampling算法实现了最高的年化收益、信息比率和月度胜率,成绩优于传统策略和其他在线学习策略(Greedy、Epsilon-Greedy)。
- 2017年市值风格反转时,传统模型多遭遇大规模回撤,而Thompson Sampling表现出强大的适应性和风险平滑能力。
- 股债混合模型中,该算法同样体现出在周期轮动场景的快速适应和显著超额收益,累计收益远超基准和比较算法。
- 风险与未来:
- 模型仍受市场极端变化影响,存在失效风险。
- 报告建议结合市场判断动态应用该算法,并计划未来研究更多在线学习模型以拓展领域应用。
此外,文中图表清晰展示了各阶段的资产表现和算法优劣,数据与图形共同证实了Thompson Sampling在多因子模型策略中的创新价值和应用潜力。
总体评价:该报告为多因子量化投资研究提供了一种结合机器学习贝叶斯思想的有效动态资产配置框架,大幅提升了模型应对风格反转和周期轮动的能力,具备较强的实务应用价值与学术创新意义。[page::0-16]
---
关键词
Thompson Sampling、在线学习、多臂老虎机、多因子模型、风格转变、市值因子、贝叶斯更新、周期性资产轮动、沪深300、中证500、股债混合模型
---
备注
此分析严格按照每页报告内容及图表,深入解读其论点、数据和方法,保持专业客观,准确溯源。