招商定量·琢璞系列 | 基于遗传算法的股票分类和组合优化
创建于 更新于
摘要
本报告基于遗传算法,结合符号聚合近似(SAX)及扩展符号聚合近似(ESAX)方法,提出一种基于股票价格序列的分组股票投资组合(GSP)优化方法。通过设计适应度函数,利用现金股利率增加初始总体质量,实现组内价格序列相似性和投资组合收益率的平衡。实验基于台湾证券市场数据,结果显示该方法在投资回报率和组合相似性方面均优于传统方法,尤其SAX方法在回报率上表现较优,而ESAX则提升了组合的价格相似度。该策略为投资者提供可替代且更具操作性的股票组合选择方案,提升投资决策的科学性和实用性[page::0][page::8][page::9][page::14][page::15][page::16]
速读内容
- 研究背景与意义[page::0][page::1]:
- 现有投资组合优化方法通常无法保证分组中股票价格序列的相似性,且用户可能因价格等原因无法购买推荐股票。
- 本文采用分组遗传算法(GGA)进行股票组合优化,目标是生成组内价格相似的股票组合,提升替代股票选择的可操作性。
- 方法论与技术细节[page::2][page::3][page::4][page::6][page::7]:
- 引入符号聚合近似(SAX)和扩展符号聚合近似(ESAX)进行高维股票价格序列的降维和符号转换,提高组合中股票价格序列的相似性。
- 使用遗传算法编码股票分组和组合投资信息,染色体由分组部分、股票部分和股票投资组合部分组成。
- 设计了基于现金股利收益率的初始总体生成策略,通过kNN及k-means聚类对股票进行预分组,提升优化起点质量。
- 适应度函数包括投资组合满意度、组平衡度,新增单位平衡度和价格平衡度两个因子,兼顾收益和组合相似性。
- 遗传操作包含交叉、突变和倒位,支持组间切换和股票重新分配,确保搜索多样性和算法收敛。

- 实验设计与数据集[page::8][page::9]:
- 使用台湾证券交易所2012年1月1日至2014年12月31日数据,包含31只股票(A股),股价序列约742个交易日数据点。
- 实验测试了SAX和ESAX两类方法和两种适应度函数f1(基础)及f2(含单位与价格平衡度),对比了本文方法与过去方法的表现。

- 关键结果[page::9][page::10][page::11][page::12][page::13][page::14][page::15]:
- 得到的分组股票组合(GSP)在适应度、投资组合满意度和股票价格相似性方面优于初始组合,体现为较低的SAX和ESAX距离。
- 图示比较显示,Proposed Approach(f2,加入额外平衡度)在股票价格序列相似性上优于f1,且均优于过去方法。
- 投资回报率(ROI)结果表明,虽然传统方法在训练期表现较高,但在测试期收益率为负,本文方法测试期表现稳定且优于基准。
图6 过去方法的股票价格序列示例:

图7 Proposed Approach (f1)股票价格序列:

图8 Proposed Approach (f2)股票价格序列:

- 量化策略与绩效对比[page::14][page::15]:
| 方法 | SAX 距离 | ESAX 距离 | 训练期平均ROI | 测试期平均ROI |
|-------------------------|----------|-----------|--------------|--------------|
| 过去方法 | 14 | 47 | 1.639 | -0.027 |
| Proposed Approach (f1) | 10 | 42 | 0.765 (两年) | 0.169 |
| Proposed Approach (f2) | 9 | 40 | 0.899 (两年) | 0.179 |
| 基准 | - | - | 0.317 | 0.108 |
- 结果显示提出的方法,在两年训练期及一年的测试期ROI表现稳健,测试期优于过去方法和基准,且提高了组合内股票价格序列相似性,为功能性组合投资提供了实用方案。
- 讨论与总结[page::16]:
- 研究强调了将时间序列降维及符号表示引入投资组合优化的创新优势,结合遗传算法有效解决股票分组及组合构建问题。
- 提出方法兼顾收益与投资组合替代性,提升实用性,模型适用于不同市场环境时需注意风险。
- 提出未来研究方向包括引入模糊时间序列以增强模型的表达和预测能力。
深度阅读
招商定量·琢璞系列 | 基于遗传算法的股票分类和组合优化—详尽分析报告
---
一、元数据与概览
- 报告标题:《基于遗传算法的股票分类和组合优化》
- 作者及团队:招商定量任瞳团队
- 发布时间:2021年2月26日
- 主题:基于遗传算法和时间序列分析方法,股票的分类以及投资组合优化
- 研究来源:本文基于Chen, Chun-Hao与Chih-Hung Yu(2017年)发表的研究成果,结合国内证券实际数据,采用创新的分组遗传算法(GGA)及符号聚合近似方法(SAX和ESAX)对股票进行分组,并优化组合投资方案。
核心论点与主旨
报告旨在展示如何利用遗传算法结合时间序列的符号近似技术,实现股票组合的分组分类,进而形成替代性强、收益稳定且价格序列相似度高的股票投资组合(GSP)。该方法通过引入投资组合满意度、组内平衡度以及基于现金股利的稳定因子,设计出新的适应度函数以优化股票组合结构。同时,实验对比结果显示基于符号聚合近似(SAX)的组合收益率优于扩展符号聚合近似(ESAX),但ESAX则在组内序列相似性上表现更佳,反映了性能与相似性的权衡。报告为国内证券投资组合优化提供了理论借鉴和实际方法论。
---
二、逐节深度解读
1. 引言与研究背景
引言部分明确了资产和基金分类在市场上的研究重要性,指出基于资产相关性找到替代资产的需求。报告引用Chen et al.(2017)的论文,强调以股票价格序列为基础,利用分组遗传算法(GGA)构造股票组合的方法,能够使同组股票相似,有利于投资者在无法购买特定股票时选择合适的替代股票。该方法不仅考虑组合收益也强调组内价格序列的相似性,以弥补传统投资组合优化方法忽视组内价格走势相似性的缺陷。
逻辑依据:利用投资风险价值(VaR)和投资回报率(ROI)作为投资组合质量的双重度量,结合均值-方差(M-V)模型的基础框架,报告指出需要更复杂的方法来兼顾多个维度的优化。
2. 相关工作综述
报告系统梳理了当前基于遗传算法(GA)和多目标优化的投资组合优化方法:
- 包括基于半方差、均绝对偏差、多目标遗传算法(如PONSGA)等多风险度量的研究。
- 引入模糊逻辑、粒子群优化算法(PSO)、混合模型等复杂方法。
- 特别阐释了Chen基于分组遗传算法(GGA)优化股票组合的前沿研究,强调染色体编码中“组平衡度”和“投资满意度”指标的重要性。
结论:现有方法均未充分确保股票组内价格走势相似,而GGA的引入解决了该问题。
3. 关键技术:SAX与ESAX
3.1 符号聚合近似(SAX)
- 目的与方法:减少时间序列的维度,将连续的股价数据标准化后,采用PAA(Piecewise Aggregate Approximation)降维,并将结果映射成离散符号。
- 步骤详解:从时间序列数据标准化开始,经PAA降维,最后根据字母大小映射符号序列。例如示例中将价格转换为“B D B D”等符号序列。
- 优势:有效降低计算复杂度,同时保留股价走势的关键特征,便于基于序列的比较与分组。
3.2 扩展符号聚合近似(ESAX)
- 创新点:针对SAX仅用一符号表示分段平均值信息有限的不足,ESAX引入了每段的最大值、最小值和均值三个符号,从三重维度描述时间序列。
- 具体实现:先对时间序列做标准化后,分段中对应最大、均、最小值转换符号,再根据时间顺序排列。示例股票股价序列被转为如"D D D B B B B B C D D B B"的符号序列。
- 优缺点:信息表达更全面,有助提高组内股价序列相似性,但计算复杂度和数据维度相对更高。
4. 遗传算法设计
4.1 染色体编码(图3)
- 染色体由三部分组成:
1. 分组部分(长度K):指示股票被分组情况。
2. 股票部分(长度n):股票个体的基因标识。
3. 股票组合部分(长度2K):用于指明每组股票的购买数量(bi)及单元数(ui)。
- 购买单元为1000股,bi≥0.5时视为选入组合。
4.2 初始总体生成策略
- 采用现金股息收益率作为划分初始组合质量衡量标准。
- 对于案例,台积电脑(QCI)和台湾大哥大(TWM)的现金股息收益率分别计算并对比,显示现金股息稳定且较大的股票更适合作为起始组合。
- 利用KNN、K-means分组,每组股票的平均现金股利比例决定股票入组合概率,优化初始种群质量。
4.3 适应度函数设计
- 适应度函数结合两个指标:
- 投资组合满意度PS(Cq):综合收益和满足用户需求的匹配程度。
- 组平衡度GB(Cq):组内股票数量的均衡性。
- 设计的两个新适应度函数f1和f2分别包括原指标及新增的单位平衡度和价格平衡度,兼顾收益和价格序列相似性。
4.4 遗传操作
- 交叉:基于分组将组从插入染色体引入基因染色体中,调整组结构。
- 变异:包括组间股票调换和投资组合部分基因值区间切换(购买单位数及数量变更)。
- 倒位操作:改变染色体中组顺序,引入多样性,促进算法全局搜索能力。
4.5 算法流程伪码(图4)
- 输入:股票集合及其价格序列与现金股利等。
- 参数包括最大购买单位、投资限额、组数等。
- 过程:初始化总体 → 股票价格序列转符号序列(SAX/ESAX) → 根据适应度函数评估 → 遗传操作产生新种群 → 循环迭代直至终止 → 输出最优染色体对应的GSP。
5. 实验设计与结果分析
5.1 数据集与参数设置
- 数据来自台湾证券交易所2012-2014年,涵盖31只股票、15个类别,约742个日收盘价数据点。
- 参数如总体规模50,最大购买单位40,分组数量K=6,交叉率0.8,变异率0.03等(表4)。
5.2 股票投资组合分析(表5-8)
- 采用两年数据集训练,基于fitness函数f1/f2,分别在SAX和ESAX下得到的初始组合和最终最佳组合比较。
- 结果显示:
- 乐成组股价序列的投资组合满意度显著提升(如从14.48升至41.04),组内序列距离降低,股票价格走势更为相似。
- 使用ESAX得到的GSP在序列相似性上优于SAX(序列距离明显降低),但价格平衡度差异相较SAX稍大。
- 适应度函数f2(包含单位和平衡度因子)在序列相似性和价格均衡性上表现优于f1,体现了算法对多维目标的兼顾。
5.3 股票价格序列可视化对比(图6-8)
- 三种方法(过去方法,Proposed Approach f1和f2)对应的组合股价序列在各组内的表现有所不同:
- 过去方法组内表现较分散,部分组价格曲线走势相差较大。
- Proposed Approach,特别是f2方法,组内股票价格走势更趋于一致,展现出更优的序列相似性。
- 图示有效验证了方法对组内类似价格走势股票聚合的能力,体现了算法设计的目标实现。
6. 投资回报率(ROI)对比分析(表9-11)
- SAX/ESAX距离比较(表9):
- 先前方法SAX距离为14,ESAX为47,均较Proposed Approach的结果(SAX约9~10,ESAX约40~42)差距明显,说明本文方法极大地提升了组内股价序列相似性。
- 回报率数据(表10和表11):
- 训练集上,先前方法平均ROI优势明显,但测试集表现不佳,甚至出现负收益,存在过拟合风险。
- 本文方法在测试集ROI保持正收益且优于基准,表现较为稳健。
- SAX算法下,ROI一般高于ESAX,反映收益与序列相似性之间的权衡。
- 训练期延长(两年vs一年)使得本文方法的表现更佳,验证了扩充训练数据对模型的正面影响。
---
三、图表深度解读
图1 & 图2:SAX与ESAX流程图
- 图1(SAX流程图)展示了股票价格序列标准化、PAA降维及符号映射步骤,橙色箭头示范具体数据向符号序列BDBD的转换过程,强调数据维度压缩同时保持关键信息。
- 图2(ESAX流程图)基于SAX进一步引入分段最大、均、最小值三个维度的符号映射,流程中标注的符号序列更长(如D D D B B B等),体现了信息的丰富度。
这两图直观展示了符号聚合技术的具体实现,是实现价格序列相似性评价的基础。
图3:染色体结构示意图
- 解释了遗传算法中染色体的三部分构成,清晰阐释如何编码股票所属分组及其组合构成。
- 长度比例与标识便于理解算法的运行和遗传操作的具体目标。
此图为算法实现和遗传操作理解的视觉支撑。
表1-3:现金股利相关数据表
- 表1对比两支股票的现金股利及股价,体现现金股利收益率的稳定性,以及用该指标构建初始优质股票组合的理由。
- 表2、表3展示了更大范围股票的现金股利率及在分组中的平均现金股利占比,体现现金股利作为初始种群优化权重的合理性。
图5:31只股票价格序列
- 以时间为横轴,价格为纵轴呈现股票价格走势差异,充分体现样本的多样性和高维时间序列特征。
- 视觉上,价格集中在0-100区间,有部分表现波动剧烈高达数百,为算法设计的挑战和应用背景铺垫。
表5-8:不同方法的GSP分组与适应度指标对比
- 详细列出了初始与优化后的组内股票及对应投资组合满意度、组平衡度、序列距离及单位和平衡度参数。
- 明显显示优化后GSP的适应度指标提升,序列距离降低,股票序列相似度提升。
- 通过SAX和ESAX不同方法对比,反映了不同符号降维手段在相似性与收益之间的替代关系。
图6-8:不同方法的组内股票价格序列动态表现
- 图6为传统方法,序列走势多样,价格相差明显,组内不够集中。
- 图7(f1)和图8(f2)则显示价格走势更为紧密,特别是f2方法下每组价格更加均衡接近,符合设计目标。
- 视觉证实了基于新适应度函数设计的GGA在股票价格序列相似度指标上的显著提升。
表9-11:距离指标与ROI表现对比
- SX/ESAX距离明显下降,表明组内时间序列的相似性获得显著提升。
- ROI在训练集表现差异较大,先前方法回报率最高,但测试集表现欠佳,存在过拟合风险。
- 本文提出的方法测试集ROI表现稳定,且优于基准,显示出更强的稳健性。
---
四、估值分析
报告本身更侧重算法优化和分类,不涉及传统的企业估值方法(如DCF、市盈率等),但基于投资组合的收益率(ROI)为核心表现指标,使用适应度函数综合评估投资组合的收益与稳健性,体现了投资组合优化本质。ROI既是评价结果也是策略目标。
---
五、风险因素评估
报告明确提示:
- 模型基于美国市场环境的理论研究,若应用于国内或不同市场环境存在模型失效风险。
- 由于市场状态和数据属性可能变化,模型的适应性和稳健性需结合具体实际不断调试。
- 现金股利的历史稳定性假设可能受宏观经济影响产生偏差。
整体对风险认识充分,未明确提出缓解策略,但对外部风险给予合理提示。
---
六、批判性视角与细微差别
- 报告对SAX与ESAX的优劣权衡表示清晰,反映了对模型和方法限制的客观分析。
- 文章未深入探讨多目标适应度函数设计中的权重选择敏感性,可能影响最终组合表现的鲁棒性。
- 适用范围提示较为强调美国市场,但未显示本地市场实证检验的深度,后续验证必要。
- 实验数据集较小(31只股票),限制了算法在更大市场环境的推广性。
---
七、结论性综合
本报告通过系统化梳理基于遗传算法的股票分类与组合优化技术,提出了基于股票价格时间序列的符号聚合降维(SAX和ESAX)方法,并结合现金股利设计了投资组合满意度和组平衡度等多维评价指标。遗传算法编码精细化,结合交叉、变异及倒位遗传操作,实现了组内股票价格走势的高度相似性和合理的价格及数量均衡。大量实证测试(基于台湾股票市场数据)验证该方法相较传统方法,获得了更优的序列相似度和组合稳健性。虽然训练集上的收益率略低于传统方法,但测试集表现更为稳健且优于市场基准,验证了良好的泛化能力。SAX降维方法在提升收益率方面表现更佳,ESAX则显著提升了组合内的价格序列相似性,展示了二者的适用权衡。
整份研究为投资组合管理提供了一种创新的基于时间序列的组内相似性度量与遗传算法求解方案,具备实际应用价值,尤其适合面临组合替代策略需求的投资者。报告结构严谨,数据详实,图表清晰,系统阐明算法设计、实现及实证结果,并附风险提示,符合专业金融研究报告标准。
---
主要图表示例 markdown 引用
- SAX流程图:

- ESAX流程图:

- 染色体示意图:

- 算法伪代码:

- 数据集的股价序列:

- 过去方法的组内股价序列:

- Proposed Approach(f1)组股价序列:

- Proposed Approach(f2)组股价序列:

---
参考溯源
所有分析结论基于内容页码标识,相关内容引用如下:
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17]
---
综上所述,报告在股票组合优化领域结合前沿算法和降维思想提出了全面且有效的解决方案,兼顾了收益和风险,更重视序列相似性的提升,为市场实践提供了可操作路径及理论支持。