Developing An Attention-Based Ensemble Learning Framework for Financial Portfolio Optimisation
创建于 更新于
摘要
本报告提出了一种基于多智能体和自适应机制的注意力集成学习框架MASAAT,以多尺度方向性变化特征和时序注意力模块,提升资产间空间和时间相关性的捕捉能力,有效过滤金融市场噪声,平衡投资组合收益与风险。实证在DJIA、S&P500和CSI300三大指标上验证了模型的优越性,显著优于传统和深度学习基线方法,展现出多智能体集成策略在复杂市场环境下的稳健性与适应性 [page::0][page::1][page::2][page::4][page::5][page::6].
速读内容
- 框架概述与核心创新 [page::0][page::2]:
- MASAAT通过多智能体观察资产价格的不同方向性变化(Directional Change, DC)特征,采用多尺度DC滤波器增强信噪比,模拟不同波动粒度的市场态势。
- 利用注意力机制自注意力编码器并行提取资产间(Cross-sectional Analysis, CSA)和时间点间(Temporal Analysis, TA)的依赖关系,分别生成资产和时间序列的嵌入表示。

- 通过空间-时间融合模块将CSA和TA模块输出结合,形成每个智能体的投资组合建议,最后集成所有智能体的建议形成加权集成组合以降低偏差。
- 使用强化学习中的策略梯度方法对整个框架策略进行端到端训练,优化长期收益与风险。
- 方向性变化(DC)与注意力机制的应用 [page::1]:
- DC机制识别显著价格转折点,实现基于事件驱动的时间序列抽样,相较固定时间间隔数据更有效。
- 自注意力机制有效捕捉资产间全局相关性和时间序列依赖,通过特征重构生成适合Transformer的令牌序列。
- 实验设计与性能评估 [page::4][page::5][page::6]:
- 数据集覆盖DJIA、S&P500及CSI300指数,训练周期为2008-2017年,验证期2018-2020年,测试期2021-2023年,涵盖牛熊市及重大全球事件。
- 8个对比基准方法包含经典策略(CRP、EG、PAMR)及主流深度与强化学习方法(DPM、PPN、DeepTrader、RAT、TD3)。
- 评价指标包括年化收益率(AR)、最大回撤(MDD)和夏普比率(SR)。
| Markets | Models | AR(%) ↑ | MDD(%) ↓ | SR ↑ |
|-----------|----------|---------|----------|--------|
| DJIA | MASAAT | 14.28 | 16.24 | 0.81 |
| | Best BL | ~13.15 | ~17.16 | ~0.74 |
| S&P 500 | MASAAT | 21.57 | 19.84 | 1.03 |
| | Best BL | ~19.20 | ~21.42 | ~0.96 |
| CSI 300 | MASAAT | 5.13 | 21.16 | 0.11 |
| | Best BL | ~4.41 | ~24.14 | ~0.10 |
BL: Best baseline method.



- 量化因子构建与策略设计 [page::2][page::3][page::4][page::5]:
- 多智能体分别基于不同DC阈值提取多视角事件序列,实现多尺度行情变化监测。
- CSA模块中,资产作为令牌序列,通过共享MLP进行嵌入后,输入自注意力编码器学习资产间相关性。
- TA模块中,时间点作为令牌序列,引入时间掩码和高阶DC信号突出重要时间节点,学习时间依赖关系。
- 空间-时间融合通过加权软最大化函数融合CSA和TA嵌入,产出每个智能体的资产权重建议。
- 集成多个智能体建议,减少单一视角偏差,提升组合稳健性。
- 策略基于部分可观测马尔科夫决策过程(POMDP),采用策略梯度法训练,优化累计对数收益。模型训练逻辑详见伪代码和算法流程。
- 消融实验与参数灵敏度分析 [page::6]:
- 去除时间序列模块(MASAAT-w/o TS)或方向性变化模块(MASAAT-w/o DC)均导致年化收益下降,最大回撤增加,证明两者结合有助于提升表现。
- 不同数量的DC智能体对性能影响显著,3个智能体组合效果最佳,5个智能体因过高阈值导致信号过稀疏反而表现下降。
| 模型 | AR(%) ↑ | MDD(%) ↓ | SR ↑ |
|----------------|---------|----------|------|
| MASAAT-w/o TS | 13.04 | 17.84 | 0.74 |
| MASAAT-w/o DC | 13.09 | 18.30 | 0.74 |
| MASAAT-1 | 13.11 | 18.31 | 0.74 |
| MASAAT-3 | 14.28 | 16.24 | 0.81 |
| MASAAT-5 | 13.56 | 18.13 | 0.76 |
- 未来展望 [page::7]
- 可考虑为不同智能体历史表现动态赋权,提升集成决策准确度。
- 融入多模态市场信息(如情绪数据)建构新智能体,完善市场感知能力。
- 迁移至高频加密货币、外汇及期权等多样化金融市场应用场景。
深度阅读
金融研究报告详尽分析报告
报告名称与元信息
- 标题:《Developing An Attention-Based Ensemble Learning Framework for Financial Portfolio Optimisation》
- 作者:Zhenglong Li, Vincent Tam
- 单位:香港大学电子电气工程系
- 时间:2024年(未具体提及)
- 研究主题:基于注意力机制的多代理集成学习框架在金融投资组合优化中的应用
这篇报告旨在提出并验证一种结合多代理、多尺度方向性变化特征(Directional Change, DC)、时间序列及注意力机制的投资组合优化新框架——MASAAT,重点解决传统基于价格序列的投资策略因噪声过多而导致的偏差信号问题,从而实现收益与风险的更好平衡。
---
一、引言与报告概览
报告开宗明义指出,金融投资组合管理的核心目标是“高收益”与“低风险”的权衡,但市场的高波动性和复杂性使得传统基于固定时间间隔价格数据的模型容易产生误判,难以适应多变的市场环境。
传统方法如“追涨杀跌”(follow-the-winner/loser)和“模式匹配”虽然在单一市场环境中有效,但面对复杂多变的金融动态时表现不佳。近年来,深度学习(DL)和强化学习(RL)引入市场分析,虽然取得进步,但仍难以充分识别隐藏在噪声中的趋势信息,尤其是难以同时捕捉资产间的空间相关性和时间依赖性。
因此,作者提出的MASAAT框架:
- 通过多代理同时分析基于不同方向变化阈值的DC特征,提高信噪比,识别多尺度变动。
- 利用注意力机制对资产序列和时间点序列分开建模,分别捕获资产间的空间相关性(Cross-Sectional Analysis, CSA)和时间序列间的时间相关性(Temporal Analysis, TA)。
- 将各代理的投资建议通过集成模块融合,抵消单一代理可能产生的偏差,实现风险与收益的均衡。
实验在三大指数(DJIA,S&P 500,CSI 300)上验证,结果显示MASAAT优于多种现有投资组合优化方法,具有广泛的应用潜力[page::0,1,2]。
---
二、逐节深度解读
2.1 相关工作综述
- 方向变化(Directional Change, DC):DC基于事件而非固定时间采样,关注价格显著转折点与趋势的划分(上升DC、下跌DC及其过冲OS阶段),适合捕捉市场状态转变。以往基于DC的研究(如遗传算法)未充分利用资产间相关性和时间点依赖,调整投资组合的时效性不足。
- 注意力机制:介绍了近年来广泛应用的注意力及自注意力机制在NLP、视觉、语音领域的成功案例,突出了自注意力机制通过Query-Key-Value机制学习序列内元素关系的优势。MASAAT借此机制在金融序列中重构特征表示,实现空间和时间依赖的高效捕捉。
- 投资组合优化:回顾传统的动量追踪方法以及深度学习和强化学习应用,涵盖Transformer、图神经网络、卷积网络等架构的综合利用案例,同时强调仅靠时间价格序列的噪音干扰限制了其性能。引入了基本金融指标:年化收益率(AR)、最大回撤(MDD)、夏普率(SR),并限定投资组合为“全多头”和“资本预算合计为1”的约束[page::1,2]。
2.2 框架设计与方法论
2.2.1 MASAAT系统架构概述(图1)
- 采用多个DC滤波器,对价格数据进行多尺度的方向性事件检测,形成不同粒度的DC特征图。
- CSA模块从资产角度处理DC特征,生成资产维度的token;TA模块从时间点角度处理DC特征,生成时间维度的token。
- 各模块均基于带自注意力机制的Transformer编码器,捕获资产间和时间点间的全局关系。
- 空间-时间融合模块将CSA与TA输出嵌入融合,生成每个代理的交易建议。
- 所有代理的建议经集成器汇总为最终投资组合权重,适应实时市场变化,加强对偏頗建议的纠正能力。
- 训练过程中,整体模型被视为部分可观测马尔可夫决策过程(POMDP),采用策略梯度强化学习优化长期回报与风险权衡。
2.2.2 Cross-sectional Analysis(CSA)
- 通过转换方向变化特征张量,将资产作为token输入,利用多层感知机(MLP)产生初始嵌入,再经过多层注意力编码,学习资产之间的相关性注意力分数。
- 两个资产的相似注意力向量代表其市场行为相似性,有助于风险分散和组合构建。
2.2.3 Temporal Analysis(TA)
- 与CSA不同,TA模块将时间点作为token,输入相应转换的特征序列,通过MLP嵌入后用自注意力编码捕捉时间依赖。
- 在TA中引入时间序列掩码及正弦(sin)函数动态权重,反映近期时间影响更大,减少远期的干扰。
- 高阶DC信号突出时间序列中关键价格转折点,配合掩码提高捕获趋势变化的敏感度。
2.2.4 集成投资组合生成器
- 针对每个代理,CSA与TA输出矩阵通过矩阵乘法和softmax缩放生成资产对时间点的注意力分布,结合多层感知机输出最终资产权重向量。
- 多代理建议合并,降低单一视角带来的操作风险,提升整体投资组合的适应性与稳健性。
2.2.5 强化学习优化
- 利用策略梯度法直接最大化资产组合累计收益的对数,强化学习在与环境的迭代交互中调整策略,更新CSA、TA及融合模块的参数,动态适配市场。
整体方法学清晰体现了如何基于深度学习的注意力机制和多视角代理设计,结合方向变化金融特征和时间序列信息,构建新型多智能体投资组合优化系统[page::2,3,4]。
---
三、图表与数据深度解析
3.1 图1系统架构图解读(page::3)
该图详细展示了从传统时间价格序列导出多尺度DC特征的流程,多代理分别通过CSA模块(黄色区域)处理资产维度,TA模块(橙色区域)处理时间维度,嵌入后在紫色“空间-时间融合”模块融合。各代理输出的投资组合权重经过汇聚(红色“Sum”框)形成最终投资组合。视觉表达清楚呈现了各组件逻辑及相互关系,有助读者理解复杂系统数据流。
3.2 图2 CSA与TA嵌入模块、融合模块示意(page::3)
- (a) CSA嵌入模块:资产为token,输入为(N资产数×M特征维×Tw观察时间)维度,经展平生成(N×MTw),通过共享MLP映射到(N×D)嵌入。
- (b) TA嵌入模块:时间点为token,输入为(Tw×N×M),展平为(Tw×NM),MLP映射为(Tw×D)嵌入。
- (c) 空间-时间融合模块:通过矩阵乘法计算CSA与TA嵌入注意力分数,softmax归一化后再乘权重向量并加偏置得到最终输出资产权重。
此图形象展现了序列构造及跨模态信息融合关键步骤,体现了注意力机制在空间-时间尺度上的有效应用。
3.3 表1 不同模型在三大指数上的表现对比(page::6)
| 市场 | 模型 | 年化收益率AR(%)↑ | 最大回撤MDD(%)↓ | 夏普率SR↑ |
|-------|------------|------------------|-----------------|-----------|
| DJIA | MASAAT | 14.28 | 16.24 | 0.81 |
| | DPM | 13.15 | 17.16 | 0.74 |
| | PAMR | 8.82 | 12.54 | 0.50 |
| | RAT | 12.69 | 17.72 | 0.74 |
| S&P500| MASAAT | 21.57 | 19.84 | 1.03 |
| | RAT | 19.06 | 21.42 | 0.96 |
| | PAMR | 12.26 | 14.86 | 0.72 |
| CSI300 | MASAAT | 5.13 | 21.16 | 0.11 |
| | PAMR | 4.41 | 24.38 | 0.10 |
| | DPM | 3.75 | 22.99 | 0.03 |
- MASAAT均实现最大收益同时兼顾较低风险,尤其在DJIA和S&P500表现出色;
- PAMR虽最大回撤低但年化收益较差,体现策略保守;
- 在波动较大的CSI300市场,多数基线策略收益甚至低于无风险资产收益,MASAAT仍然展现相对优势。
3.4 图3-5 投资组合价值曲线(2021.1–2023.12,page::6)
- DJIA/S&P500/CSI300市场不同策略曲线展示,MASAAT(红线)普遍跑赢其他模型,且在2022年市场大跌时的抗跌能力尤为突出。
- 这直观反映了多代理从多个维度捕捉信息提升策略鲁棒性的优势。
3.5 表2 Ablation Study与关键参数分析(page::6)
- 移除时间序列模块(MASAAT-w/o TS)及DC特征(MASAAT-w/o DC)均导致AR下降及MDD上升,验证时间序列与方向性事件共同作用的重要性。
- 随代理数量从1个增至3个,AR由13.11%提升至14.28%,显示多尺度DC信号复合效用;代理继续增至5个后表现下降,可能因高阈值DC信号稀疏,造成信息不足。
---
四、估值分析与数学模型解读
报告核心为提出一种用于资产投资组合权重分配的深度强化学习模型框架:
- 将价格数据与方向变化数据同时视作状态观察。
- 使用Transformer中自注意力机制,通过资产间与时间间的机制提高信息提取的效率与准确性。
- 将多个代理生成的投资建议加权融合,产出最终权重向量。
- 强化学习策略优化目标为最大化累计投资收益的对数,即公式:
\[
J(\theta) = \frac{1}{T} \log C0 \prod{t=1}^T rt,
\]
其中,\(C0\)为初始资金,\(r_t\)为第t日的收益率,优化由策略梯度法实现,无需额外的值函数评估。
此设计实现多粒度、多视角、动态响应的投资组合调整,体现出了先进机器学习在财务领域的深度融入[page::4,5]。
---
五、风险因素评估
报告中未专门章节列明风险因素,但隐含关键风险可总结为:
- 模型依赖数据质量和特征选择:虽然采用DC过滤提高信噪比,但若输入数据存在异常或市场异常波动,代理模型可能仍产生偏差。
- 高频变动风险:高阈值DC特征信号稀疏,可能导致代理对市场反应滞后。
- 市场极端事件不可预测性:模型训练基于过去数据,无法保证在突发事件(如黑天鹅、政策突变)中表现稳定。
- 强化学习训练稳定性:策略梯度方法虽简化训练,但仍可能收敛到局部最优或过拟合历史数据。
缓解策略包括多代理集成以减少单点失误,异构数据源结合,及不断在线学习更新策略[page::5,6]。
---
六、批判性视角与细微差别
- 创新角度:MASAAT框架有效整合了方向变化特征、多粒度注意力机制、多代理集成等多项先进技术,显著提升了对复杂金融数据的识别能力。
- 局限性:
- 多代理设计使得模型结构复杂,训练与推理成本较高,实际部署可能受限于硬件条件。
- DC阈值设定敏感且需要经验,过大或过小均影响模型性能,自动阈值调整未提及。
- 报告缺少对模型在极端市场事件下的鲁棒性测试,如2020年疫情等。
- 虽报告多次提及“注意力更易解释”,但未提供相关可视化或案例支持解释性观点。
- 细节矛盾:代理数量增加到五个时性能下降,暗示部分代理信息冗余或劣质,如何选择和权重调整未细述。
这些问题均为未来改进空间[page::6,7]。
---
七、综合结论
本报告通过详尽的理论建构、设计框架描述与丰富的实证验证,展示了基于多代理、多尺度方向性变化过滤、空间-时间注意力机制的集成学习框架MASAAT在金融投资组合优化上的显著优势。
- 核心发现:
- DC事件数据显著提升了信号的有效性,降低市场噪声干扰风险。
- 利用注意力机制的CSA与TA模块分别捕捉资产间与时间点间的重要关联信息。
- 多代理集成方法减少单一策略的偏差,增强市场适应性。
- 强化学习策略梯度法在动态环境下训练效率高,策略效果显著。
- 实验数据充分证明MASAAT在三大主流指数上均优于包括传统策略、深度学习模型及强化学习基准的综合表现,尤其是在收益与风险平衡能力上有明显提升。
- 图表支持:
- 系统架构图清晰阐明模型设计理念。
- 表1及曲线图3-5直观展示性能优势与市场适应能力。
- 表2消融实验验证方法论的每个核心组成部分对最终表现的贡献。
报告同时提出未来方向,如根据各代理历史表现加权融合、多模态信息(新闻情绪等)融入以及拓展至其他金融市场应用,体现强大实用前景。
---
总结
报告《Developing An Attention-Based Ensemble Learning Framework for Financial Portfolio Optimisation》系统提出并验证了MASAAT框架,结合方向变化事件、多代理和基于注意力机制的空间-时间分析,实现了投资组合优化中的收益与风险权衡。通过详尽的模型设计与多市场实证,MASAAT展示了优异的性能与良好的推广潜力,是投资组合优化领域的重要新进展。[page::0,1,2,3,4,5,6,7]