基于改进的 CTGAN-Plus-Features 的资产配置优化方法
创建于 更新于
摘要
本报告提出基于改进条件表格生成对抗网络(CTGAN-Plus-Features)的资产配置优化方法,通过结合CTGAN生成感知市场环境的合成数据与收益风险的CVaR约束,实现投资组合的有效性提升。实证案例显示,添加国债收益率期限结构特征能显著改善资产配置的样本外表现,且该方法在收益、风险控制及分散度方面均优于传统基于历史数据的优化模型,交易成本对收益影响有限,为中长期资产配置提供新思路。[page::0][page::3][page::8][page::9][page::11][page::16][page::20]
速读内容
研究背景与核心问题概述 [page::3][page::4]
- 传统均值-方差投资组合优化面临收益率相关系数估计困难及风险度量不足问题。
- 条件风险价值(CVaR)作为风险度量指标,更能反映极端风险和投资者的风险偏好。
- 资产配置问题被建模为带CVaR约束的非线性优化问题,后转换为线性规划方便求解。
改进CTGAN-plus-Features模型流程 [page::8][page::9]


- 利用PCA对数据正交化,减少资产间相关性影响。
- 采用t-SNE降维并通过HDBSCAN聚类生成离散状态标签,作为CTGAN的条件变量。
- CTGAN模型训练以生成状态感知的合成数据,生成后反向投影至原始数据空间。
- 该过程提升了合成数据反映多市场环境的能力,丰富样本,辅助优化。
合成数据质量验证 [page::11][page::12][page::13][page::14]




- 通过收益和特征的单变量及联合分布比较,CTGAN合成数据高度拟合历史数据分布。
- Kolmogorov-Smirnov 检验平均得分0.87,表明两个样本分布高度相似。
- 合成数据与原始数据相关矩阵相似度最低达0.83,市场环境聚类结构亦高度一致。
资产配置策略测试设计与绩效指标 [page::15][page::16]


- 采用五年滚动窗口回测,每年再平衡一次,样本外测试期从2009年1月至2022年7月。
- 对比5种策略:含特征与不含特征的CTGAN生成数据策略(GwF与Gw/oF)、历史数据策略(HwF、Hw/oF)及等权策略。
- 绩效评估包括年化收益、CVaR事后风险、投资组合分散度(HH指数)、交易轮动率。
回测结果与比较分析 [page::17][page::18][page::19]
| CVaR限制 | Gw/oF年化收益 | GwF年化收益 | Hw/oF年化收益 | HwF年化收益 | EW年化收益 |
|----------|---------------|-------------|---------------|-------------|------------|
| 0.075 | 12.54% | 13.50% | 12.90% | 12.74% | 7.89% |
| 0.15 | 13.84% | 15.43% | 13.20% | 14.03% | 7.89% |
| 0.3 | 13.87% | 17.77% | 14.90% | 16.64% | 7.89% |
- 含特征策略(GwF和HwF)均显著优于无特征策略。
- GwF策略收益最高,且CVaR风险控制良好,始终满足风险约束。
- 等权策略表现最弱,但仍具备基准参考价值。
- 投资组合分散度无显著差异,交易费用与轮换水平对收益影响有限。
- 基于CTGAN的策略计算成本较高,回测平均运行时间为203.5秒/次。
结论及未来展望 [page::20]
- 改进CTGAN-plus-features模型能生成高质量合成数据并有效提升资产配置样本外表现。
- 融合经济环境特征(收益率曲线)显著改善投资组合绩效和风险控制。
- 模型无需超参数调优,具备较好稳定性与泛化能力。
- 后续研究可扩展更多宏观特征及应用于其他金融资产风险度量领域。
深度阅读
金融研究报告深度解析:基于改进的CTGAN-Plus-Features的资产配置优化方法
---
1. 元数据与概览
- 报告标题:基于改进的 CTGAN-Plus-Features 的资产配置优化方法
- 作者与分析师:卢昱杉(执业证书号 S0010522110001),严佳炜(执业证书号 S001520070001)
- 发布机构:华安证券研究所
- 发布日期:2024年2月以后
- 主题:资产配置优化与合成数据生成技术,结合机器学习改进的CTGAN模型生成合成数据,利用CVaR风险约束进行资产配置
核心论点:
本报告提出了一种资产配置的新方法,结合了条件风险价值(CVaR)约束、特征信息增强(如收益率期限结构特征)、以及改进的条件表格生成对抗网络(CTGAN)技术生成的合成数据。此方法在处理投资组合优化问题时,不仅强化了风险管理,更通过生成合成样本有效捕捉市场环境多样性,提升了投资组合在样本外的表现。报告通过案例验证,CTGAN生成的数据能够逼真地模拟历史数据特征,结合基于CVaR的优化框架能显著提升投资回报与风险控制。
---
2. 逐节深度解读
2.1 引言
- 关键论点:
马科维茨均值-方差(MV)投资组合理论的局限性:需要大量历史数据准确估计协方差矩阵,且标准差风险度量不能有效反映尾部风险。被动投资理念更强调资产配置多样化。
CVaR逐渐成为更合理的风险衡量指标,能捕捉尾部风险且可线性化处理。
合成数据生成(尤其是基于GAN)对缓解历史数据单路径限制和应对金融市场非平稳性尤为关键。
特征信息的引入(如收益率期限结构)显著提升优化问题的样本外表现。
- 支撑依据:
引用了DeMiguel等(2009)、Rockafellar和Uryasev(2000)的文献以强调MV的估计难题和CVaR的优势。并结合现有机器学习(GAN)文献说明合成数据生成的必要性和可能。
- 研究目标定义:
在假设中长期投资且基于指数基金的小规模资产配置框架下,提出基于改进CTGAN合成数据生成与CVaR约束的投资组合优化方法,希望其能保证更优样本外表现[page::3,4,5]。
2.2 问题描述
- 模型设定:
资产权重向量 $x$ 与收益率随机向量 $r$ ,目标最大化期望收益的同时,将投资组合的CVaR限制在风险容忍度 $\Lambda$ 以内
- 关键金融数学公式与概念:
CVaR定义为VaR之上的条件期望,具有凸性且一致性,适合非线性优化。
- 离散化及线性化:
通过引入辅助变量$\zeta$和分段线性变量$z_j$,将CVaR约束转化为线性规划便于求解,且能结合抽样收益数据和离散概率密度。
- 特征加权:
利用特征$F$(例如收益率期限结构)定义距离函数,调整离散权重$\pi$,使优化更加动态适应经济环境[page::5,6,7]。
2.3 合成数据生成
- 挑战:金融历史数据为单路径,且市场环境非平稳,传统方法难捕捉数据真实分布。
- 采用CTGAN技术:
- CTGAN引入条件生成器,解决类别不均衡问题;
- 利用模式特定归一化,基于高斯混合模型分解连续变量,提高训练效果;
- 在表格型数据中生成感知市场环境的合成样本。
- 改进点(CTGAN-Plus-Features方法):
采用PCA降维去除资产相关性噪声,通过t-SNE和HDBSCAN聚类生成状态变量作为CTGAN的条件输入,增强合成数据对于市场环境的识别和模拟能力。
- 完整生成流程:
1. 原始数据及特征;2. PCA正交化;3. 聚类标识离散市场状态;4. 训练CTGAN(连续+离散变量);5. 生成合成样本;6. 反向PCA还原合成数据到原空间[page::7,8,9].
2.4 应用案例
- 资产类别与数据:
选取十类资产指数覆盖股票、债券和商品,数据期2003年1月至2022年6月,年初调仓,每次回溯5年历史数据。
- 特征选取:
选用美国国债收益率曲线8个不同期限的收益率作为上下文特征,理由包括其动态反映经济状况、数据客观且含有预示经济方向的信息,符合资产配置背景下的环境判别需求。该选择得到广泛学术与实证支持[page::9,10].
2.5 合成数据生成验证
- 直观对比(图表6与7):合成数据和原始数据的收益与特征分布直观重合良好。
- 定量检验:
采用Kolmogorov-Smirnov检验(KS检验)比较边际分布,平均得分0.87,统计意义上无法拒绝两者来自同一分布;
比较相关矩阵,最小相似度仍达0.83,表明合成数据高度保留变量间的相关关系;
- 按类别聚类检验:
生成的合成数据按原类别划分在同类别中KS得分最高,表明聚类信息有效保留。整体合成数据数量分布与原始数据高度相关(相关系数97.2%),说明模型对不同市场环境模拟有效[page::11,12,13,14].
2.6 策略测试与性能评估
- 测试策略:共5种
1. GwF:基于改进CTGAN且含特征
2. Gw/oF:基于改进CTGAN不含特征
3. HwF:基于历史数据且含特征
4. Hw/oF:基于历史数据不含特征
5. EW:等权策略(1/N)
- 回测设计:
每年一次从2009年1月至2022年7月,共15次样本外测试;
优化基于5年历史窗口,500合成样本或历史样本;
多个CVaR风险容忍度设置(7.5%-30%);
GwF和Gw/oF因训练CTGAN计算量大,运行时间较长(203秒/次),其他策略极快(0.001秒/次)[page::14,15,16].
- 性能指标:
- 年化收益;
- 事后CVaR;
- 投资组合轮换率(交易活跃度指标);
- Herfindahl-Hirschman指数(HH指数,投资组合多元化程度)
- 结果:
- 含特征策略(GwF、HwF)显著优于无特征策略,提升收益并降低风险;
- GwF整体表现优于HwF,表明利用合成数据增强模型的优势;
- EW策略表现最差,难以超越基于数据驱动和风险控制的方法;
- CVaR约束有效管理后验风险,且较宽松约束下各策略收益提升明显;
- 投资组合多元化水平接近,分散化合理,不因风险宽松而分散度大幅下降;
- GwF交易频率较高但交易费用经估算对收益影响有限,依然保持优越性[page::17,18,19].
2.7 结果讨论与偏差控制
- 模型选择偏差:
排除NORTA及CopulaGAN两种方案的使用理由(计算效率和文献不充分)支持CTGAN方案合理性;
- 过拟合控制:
未进行超参数微调,沿用原文默认参数,仅调整学习率和增加迭代次数以保证训练稳定;
聚类及降维方法为现成未调优实现,减少人为过度拟合可能;
- 回溯期与再平衡周期的合理性:回溯期5年符合经验法则,不作其他时长尝试;再平衡一年频率符合被动投资理念[page::19,20].
2.8 总结
- 提出基于改进CTGAN方法并结合特征增强的资产配置方法,能够有效捕获市场环境多样性,生成逼真的合成数据;
- 结合CVaR线性优化框架时,获得的投资组合在样本外性能(收益与风险控制)显著优于基于历史数据的同类方法;
- 特征信息(如收益率期限结构)对于改善样本外表现不可或缺;
- 该方法在减缓金融市场风险及应对非平稳性数据方面展现潜力;
- 未来研究方向包括引入更多的宏观经济指标特征和拓展至其他金融变量(如违约率、汇率)[page::20].
---
3. 图表深度解读
3.1 图表1 文章框架(page 3)
- 内容清晰展现研究动机、方法论、案例分析及结论结构。
- 支持文章对MV方法局限的说明、CVaR方法优势与合成数据生成技术的介绍,是初步理解全局逻辑的关键图形。
3.2 图表2 合成数据生成模式(page 8)
- 显示历史数据集$\mathcal{D}^h$包含收益率$R^h$和特征$F^h$,经过训练数据生成器(SDG)后生成合成数据$\mathcal{D}^s$。
- 直观演示了合成数据生成的输入输出流程,突出SDG作用于同时处理资产收益及特征。
3.3 图表3 改进的 CTGAN-Plus-Features 的数据生成过程(page 9)
- 详细流程图展示从历史数据集通过PCA降维和聚类生成离散状态,训练CTGAN模型生成合成数据,再通过PCA逆转得到最终合成数据。
- 重点体现将市场环境状态引入CTGAN训练,增强合成样本的环境感知能力。
3.4 图表6和7 合成数据与原始数据的成对比较(收益和特征)(page 11-12)
- 采用散点图和密度曲线对比合成数据与原始数据。
- 图中橙色线条代表原始样本,灰色区域代表合成样本,两者高度重合,视觉验证合成数据成功复制了真实分布特征。
- 特别是收益与利率特征的联合分布展示,反映变量间相关结构仍被保留。
3.5 图表8 Kolmogorov-Smirnov检验比较(page 12)
- 表格展示多种变量的KS检验得分,分数均高于76%,平均87%,意味着无法拒绝合成与真实数据总体来自相同分布的假设。
- 对合成数据质量的量化支撑。
3.6 图表9 原始数据与合成数据相关矩阵相似性(page 13)
- 热力图显示不同资产和特征两两相关系数的相似程度,最低也达83%,多数超过90%,说明合成数据不仅保留了单变量分布,还维持了复杂的跨变量相关结构。
3.7 图表10 按类别划分的合成数据与原始数据KS检验(page 14)
- 以热力图形式展示基于聚类类别的KS检验均值。
- 对角线上对应类别KS值较高,颜色较深,验证合成数据能清晰再现不同市场环境下的特征分布。
3.8 图表11-12 回测窗口和方法示意(page15-16)
- 图11描述采用重叠滑动窗口的5年数据进行样本外测试逻辑,符合时间序列投资组合策略的实证惯例。
- 图12流程图展示回测策略的核心步骤,包括特征距离计算加权、四大策略迭代求解。
3.9 图表13-16 各策略性能指标(page17-20)
- 图表13列举各策略于多个CVaR限制下的年化收益、事后CVaR、分散度(HH指数)和组合轮换率。
- GwF在收益和风险控制上均优于其他模型,特别相较于无特征版本,展现特征显著提升效果。
- 交易频率较高的GwF策略对应的轮换率高,但结合图表14(交易成本明细)与图表15(年化交易费用),其交易费用虽高,调整后收益(图16)依然领先。
- 等权策略永远保持HH指数最高但收益欠佳,说明简单分散不等于有效风险管理。
---
4. 估值分析
本报告核心不涉及股票估值或企业估值,侧重资产配置方法学的构建与应用,因此无传统DCF、PE、EV/EBITDA等估值模型论述,但其“估值”框架体现为投资组合优化问题所求解的CVaR风险约束线性规划,融合合成样本及经济特征权重,以隐式方式对投资组合权重赋值,实现风险适度、收益最大化。
---
5. 风险因素评估
- 历史数据与合成数据限制:合成数据依赖历史数据,若历史本身不足或非代表性,合成数据的预测与风险估计同样也会受限。
- 模型敏感性:CTGAN模型的训练稳定性、超参数设置,聚类算法的分类效果均对最终生成数据分布产生影响,可能带来偏差。
- 市场环境特征选择风险:选取的特征(如收益率期限结构)如不足以全面反映多元市场动态,可能导致权重估计误差。
- 计算资源限制:CTGAN训练对计算资源要求高,实际应用中可能面临速度瓶颈与硬件限制影响。
- 过拟合和统计偏差:尽管报告做了防范说明,神经网络框架天然存在过拟合风险,样本外验证仍需多角度展开。
- 政策与市场极端事件风险:历史事件可能未涵盖极端但潜在的金融冲击,模型表现或受限于历史数据外的异常。
- 交易成本影响:尽管报告估算交易成本不显著影响收益,现实中高频调整可能导致更大成本和滑点风险。
---
6. 批判性视角与细微差别
- 报告严格依托已有文献和实证验证,但对模型参数选取与聚类类别数未作充分敏感性分析,存在一定的假设依赖风险。
- 高计算成本可能限制模型的实时应用和频繁再平衡。
- 特征选取虽合理但相对单一,未涵盖所有宏观变量和市场情绪指标,可能限制模型的泛化能力。
- 对于CopulaGAN未深入测试,可能遗漏其他潜在竞争方法的表现优劣。
- 未针对短于一年再平衡的情形进行分析,若投资者偏好更高频调整,模型适用性需进一步检验。
- 交易费用估算基于ETF买卖价差,实际散户或机构交易成本因市场影响及滑点等更复杂,风险估计有待完善。
---
7. 结论性综合
本报告提出的基于改进CTGAN-Plus-Features的资产配置优化方法,系统整合生成式机器学习合成数据技术与以CVaR为核心的风险约束优化框架。通过PCA、t-SNE、HDBSCAN聚类引入市场环境条件,CTGAN模型生成适应多市场状况的合成样本,准确捕捉了资产收益的边际和联合特征分布。实证案例显示,结合了国债收益率曲线等特征的信息权重优化方案(GwF)显著优于无特征版本和仅基于历史样本的方案,在多个风险容忍度下均取得更高年化收益、更低风险及合理多样化。策略的交易活跃度较高带来一定成本,但调整后仍维持优势表现。整体而言,报告体现了机器学习合成数据有效补充有限历史数据、改善样本外表现的潜力,并证明基于特征的动态权重调整是提升资产配置优化质量的关键。该方法面向中长期、再平衡频率较低的指数基金组合,适合被动投资者。未来研究可扩展特征选择范围、应用于其他金融变量以及进一步测试不同再平衡周期。风险提示包括历史局限性、模型选择偏差及计算资源需求。
本研究体现了金融投资组合管理领域与现代机器学习技术深度融合的典范,兼顾理论严谨与应用可行性,提供了一条在复杂非平稳金融市场环境下提升资产配置优化样本外表现的新路径,有助于实践中更灵活科学地管理风险与收益。
---
参考溯源
除页首元数据外,所有分析均基于报告正文内容,引用页码详见文中
[page::页码]
标注。---
附录:重要图表示意(部分)
- 图表3:改进CTGAN-Plus-Features数据生成流程

- 图表6:合成数据与原始数据收益比较

- 图表9:相关矩阵相似度热力图

- 图表13:各策略年化收益及风险对比
(详见文本定量数值)
---