基于遗传算法的股票分类和组合优化
创建于 更新于
摘要
本报告基于Chen等2017年提出的分组遗传算法,结合符号聚合近似(SAX)和扩展符号聚合近似(ESAX)对高维股票价格序列降维,优化股票组合的分类与构建。通过设计新的适应度函数引入稳定性因子、组平衡度、单位平衡度和价格平衡度,有效提高组合内股票价格序列的相似性与投资回报率。实证结果显示,所提方法在提升组合相似性和收益率方面优于传统方法,特别是在SAX和ESAX两种序列距离指标上均有明显改进,回测显示收益率稳定且优于基准[page::0][page::18][page::20][page::25]
速读内容
- 研究背景和问题提出 [page::0][page::2]
- 传统投资组合优化无法保证股票归类组合内价格序列的相似度,导致实际投资操作中替代资产选择困难。
- 本文借助分组遗传算法(GGA)结合股票价格序列信息,提出了基于价格序列的股票分组组合策略(GSP)优化方法。
- 算法核心方法 [page::3][page::4][page::5][page::6]
- 使用符号聚合近似(SAX)及其扩展版ESAX对高维时间序列进行降维,通过转换为符号序列简化距离计算。


- 染色体编码结构包含分组信息、股票信息及投资组合的购买单位信息,初始总体基于公司现金股利收益率进行构建以提高质量。

- 适应度函数设计 [page::8][page::9]
- 设计了两个适应度函数f1、f2,综合考虑投资组合满意度(包括利润及风险)、组平衡度、单位平衡度、价格平衡度及序列距离因子,提升组合质量和稳定性。
- 引入现金股利稳定性因子降低训练阶段的过拟合风险。
- 算法流程详解及遗传操作 [page::10][page::11]
- 详述遗传算法的伪代码,包含初始总体生成、符号序列转换、适应度评估及遗传操作(交叉、变异、倒位)。

- 实例分析 [page::11][page::12][page::13][page::14][page::15][page::16]
- 基于12只股票的股票价格序列及现金股利数据,演示具体分组及组合构造过程,计算投资组合满意度、组平衡度、序列距离和适应度值。
- 流程包括标准化、PAA降维、符号转换、投资组合生成及稳定性与平衡度计算。
- 实验数据及结果表现 [page::17][page::18][page::19][page::20]
- 实验数据集为台湾31只股票从2012年到2014年的价格序列及现金股利。
- 与传统方法相比,提出的基于f1和f2适应度函数的遗传算法在股票价格相似性(SAX/ESAX距离)和适应度值上均有显著提升。
- 在投资回报率ROI方面,提出方法训练期略低于传统方法但在测试期稳定且优于传统方法及基准,合理控制风险。
- 股票价格序列相似性可视化对比 [page::21][page::22][page::23]



- 组内股票价格序列通过本文提出方法(特别是f2适应度函数)更加接近,保证了替代股票选择的可行性和组合稳定性。
- 量化策略核心总结 [page::0][page::8][page::9][page::10][page::18][page::20]
- 将时间序列数据经过SAX和ESAX降维为符号序列,利用符号序列间距离衡量股票价格走势相似性,作为遗传算法筛选组合的优化目标之一。
- 两种适应度函数f1、f2结合不同的组合满意度、组内平衡度指标与符号序列距离,用于评价染色体,指导遗传操作生成高质量股票组合。
- 实验部分数据及回测绩效表明该量化组合策略不仅提高了投资组合收益率,也显著提高了组合股票价格的相似度,使替代资产选择更具操作意义。
- 重点图表数据汇总
- 表14-表17:不同适应度函数及序列距离算法下初始与优化组合对比,显示组合质量提升。
- 表18:过去方法与本文方法在SAX和ESAX距离对比。
| 方法 | SAX距离 | ESAX距离 |
|--------------------|---------|----------|
| Proposed Approach(f1) | 10 | 42 |
| Proposed Approach(f2) | 9 | 40 |
| Previous Approach | 14 | 47 |
- 表19-表20:不同训练期和测试期下投资回报率(ROI)对比,表明本文方法在测试集表现更稳定,收益率超过基准。
深度阅读
基于遗传算法的股票分类和组合优化专题报告详尽分析
---
一、元数据与概览
- 报告标题:《基于遗传算法的股票分类和组合优化》
- 报告系列:“琢璞”系列报告之三十
- 发布日期:2021年2月25日
- 作者与研究机构:招商证券量化团队(任瞳、崔浩瀚)
- 研究主题:利用遗传算法结合时间序列符号聚合近似技术,对股票进行分类并在此基础上优化股票组合,提升组合的收益性和股票序列的相似性,增强组合的替代性和可操作性。
- 研究背景:股票投资组合优化是金融领域的核心议题,投资者不仅关心组合的收益与风险,也希望组合股票在价格序列上相似,从而便于实现股票间的替代策略。本文基于Chen & Yu(2017)的理论,创新性地将股价时间序列的符号化及相关相似性评价纳入遗传算法的适应度设计,提出两种优化适应度函数,并综合现金股利稳定性、单位平衡度和价格平衡度进行了实证验证。
- 核心论点与结论:
- 传统基于遗传算法的股票组合优化忽视了股票在同组内价格序列的相似性,导致组内股票流动性替代空间不足。
- 利用符号聚合近似(SAX)及扩展符号聚合近似(ESAX)降维及符号转换,结合序列距离因子,提高股票分组的价格相似性。
- 设计了基于现金股利的稳定性因子和多维平衡度指标,确保投资组合的稳定性和均衡性。
- 两种适应度函数以及遗传操作实现了有效的股票分组及组合优化。
- 实证表现显示,优化后的组合不仅提高了投资回报率(ROI),还实现了组合中股票价格序列的更高相似性,且优于过去的方法[page::0,2,5,8,10,15,17,18,19,20,23,24,25]。
---
二、逐章深度解读
1. 引言与研究背景(第2页)
- 阐释了投资组合优化市场需求和意义,强调股票分类及投资组合设计中,股票价格序列相似性的重要性。
- 介绍现有投资优化方法及其不足,例如仅关注收益风险指标,未考虑股票价格序列相似的不便。
- 引入分组遗传算法(GGA)作为创新技术,用以生成分组股票组合(GSP),满足替代股票选择需求。
- 研究目标是结合价格序列数据,通过符号转化和遗传算法,构建更具实际操作性的股票组合[page::2]。
2. 相关工作(第2-4页)
- 综合回顾了各类遗传算法应用于组合优化的文献(单目标、多目标、模糊模拟、混合算法等)。
- 强调尽管诸多遗传算法优化出优质组合,但未充分考虑分组内的价格序列相似度。
- 引入概念:分组问题的定义和GGA的编码方式(组内对象归属表示机制、组间基因交叉、变异与倒位操作)。
- 详细介绍时间序列的符号聚合近似(SAX)和扩展符号聚合近似(ESAX)两种降维及符号转换方法。SAX只用平均值转符号,而ESAX同时用最大、平均、最小值三个符号,更细致反映信息。
- 这些符号化流程通过标准化、PAA降维和区间符号映射实现,目的是让高维股票价格序列更易于距离计算和分类[page::2-5]。
3. 遗传算法组成部分(第6-10页)
- 染色体设计:三个部分——分组情况、股票信息、股票组合,支持编码股票分组及购入数量,而购入单位化配置便于计算(股票单位为1000股)。
- 初始总体生成:基于股票现金股利的稳定性,运用kNN、k-means等聚类算法生成更合理且风险更低的初始群体,利用稳定的现金股利收益率过滤,提高初始组合质量。
- 适应度函数设计:
- 投资组合满意度(PS)综合考虑收益、风险、投资资本与购买股票数量惩罚;
- 稳定性因子利用现金股利方差衡量,鼓励稳定股息的股票入选;
- 组平衡度(GB)保障袋内股票数量均匀分布以避免偏态;
- 单位平衡度(UB)及价格平衡度(PB)保证购买单位和股价范围合理;
- 序列距离因子(SD)定量评估株中股票银行价格序列相似性,结合符号距离计算公式。
- 基于上述因子,定义两套适应度函数 f1 与 f2,其中f2引入UB和PB以进一步提升组合平衡性。
- 遗传操作:分组部分采用交换与删减操作,股票投资组合部分采用单点交叉、变异随机划分调整和组间股票调整,倒位操作通过调整组顺序增加遗传多样性[page::6-10]。
4. 算法详解与伪代码(第11页)
- 提供了清晰的伪代码流程,涵盖初始群体生成、时间序列符号转换、适应度计算、选择、交叉、变异及倒位操作。
- 参数包括群体规模pSize、组数K、最大投资额度maxInves、最大单位maxUnit、遗传代数Gene、适应度权重等。
- 伪代码描述了如何根据输入股票价格序列和现金股利,迭代演化至满足终止条件的最佳分组股票组合[page::11]。
5. 实例分析(第11-16页)
- 对十二只具体股票应用算法,全流程解读:
- 股票价格序列及现金股利化为符号序列;
- 初始群体股票随机分组,基于现金股利计算组间平均现金股利比例,生成初始股票投资组合;
- 计算各组合的配对股票序列距离,投资组合满意度,稳定性因子及组平衡度;
- 演化过程包括选择、两阶段交叉、两阶段变异和倒位操作;
- 迭代150代后输出最佳染色体,组内股票价格序列较为相似,组合满足单位与价格平衡要求。
- 表格(表9-12)具体展现了各染色体组合满意度、组平衡度、序列距离和综合适应度情况[page::11-16]。
6. 实验数据集及参数设置(第17-18页)
- 选取2012-2014年台湾证券交易所31只股票作为实证样本,涉及半导体、通信等关键行业,日收盘价数据总点数约742个。
- 详细参数设定(表13)涵盖群体大小、遗传参数、符号字母大小、分段PAA大小等关键参数,确保实验可复现。
- 数据集股价波动分布展示(图5),便于识别价格分布区间及波动特性,为符号化与分组提供基础[page::17-18]。
7. 实验结果分析(第18-25页)
- 多组GSP优化结果:
- 以SAX和ESAX分别衡量,两种符号转换距离指标有差异,SAX更关注平均趋势,ESAX捕捉极值信息;
- Proposed Approach(f1/f2)均较初始和Previous Approach有显著的适应度及投资组合满意度提升(表14-17);
- 图6-8展示不同方法得到的价格序列聚类分布,Proposed Approach形成的组更具价格序列一致性,特别是f2因考虑价格平衡度表现更优;
- 表18明确展示SAX和ESAX距离指标均低于Previous Approach,说明优化后组内股价序列相似性增强。
- ROI性能分析(表19-20):
- 训练集上Previous Approach ROI平均较高,但测试集表现欠佳,存在过拟合风险;
- Proposed Approach方法在测试集保持正收益且优于基准,尤其以SAX方案配合f1/f2表现较佳;
- 两年训练数据显著提高测试集表现,验证样本充足和训练周期长对组合稳健性的重要性。
- 总体结论明确:结合时间序列符号化和多维平衡因子,基于遗传算法的GSP优化能更好实现收益与价格相似之间的权衡,为投资组合提供更优的替代股票选择空间,同时提高组合的投资收益率和稳定性[page::18-25]。
8. 讨论与总结(第25-26页)
- 研究指出,将模糊时间序列理论引入未来GSP研究的可能性,为时间序列表达和预测提供更模糊友好的处理方式。
- 强调本文在股价序列降维、符号转化及多因子适应度设计上的创新贡献,为股票分组投资组合优化提供了更丰富的理论与实践工具。
- 通过实证验证,本文方法提升组合质量,增强替代性和相似性,满足投资者多样化需求。
- 同时指出当前研究结果基于欧美市场模型,应用至国内市场存在风险,需谨慎对待[page::25-26]。
---
三、图表深度解读
1. 图表说明
- 图0:股票价格序列示意图。展示三个组(G3)的五只股票价格走势,体现价格走势的相似性,是理解股票分组依据的视觉支撑。
- 图4/5:SAX和ESAX算法流程图,说明时间序列标准化、PAA降维、符号映射等关键步骤,直观展示符号序列构造流程。
- 图7:算法伪代码结构。包含输入、参数设置、符号序列转换、适应度计算、选择和遗传操作,流程清晰明了。
- 图5/6/7(页21-23):不同方法分组股票价格序列对比,直观体现不同方法下组内价格走势的相似或差异,支持论证提出方法的有效性。
- 表1-3:现金股利率数据,支持现金股利稳定性因子的设计和初始群体生成。
- 表4-8:个股样本基本数据、股票序列价格及符号序列,示例具体数据说明,支持算法流程中的运算细节。
- 表9-12:不同染色体的组合满意度、组平衡度、序列距离和适应度,定量对比染色体表现。
- 表14-20:实验对比结果,包括组合结构、ROI、距离指标及回测表现,数据全面支撑研究结论。
2. 数据趋势分析
- 价格相似性趋势:通过SAX和ESAX计算的距离指标明显低于过去方法,反映新方法有效提升组合中股票价格走势的相似性(表18)。
- 稳定性趋势:现金股利波动指标被引入,确保选股时兼顾公司财务稳定,提升投资组合稳定性。
- 投资回报率趋势:虽然训练期ROI有波动,测试期间新方法整体优于过去方法且超过基准,显示实际落地潜力强(表19、20)。
- 平衡度指标趋势:所在组内股票数量平衡、买入单位及价格区间调整提升整体组合协调性,降低风险集中度(表14-17展示了明显提升的组平衡和单位平衡度指标)。
3. 图表与文本联系
各图表完整呈现核心数据计算与结果,对文本中算法流程与实证验证具有直接佐证作用,增强研究严谨性和数据支持力度。
---
四、估值分析
本报告本身不涉及估值方法讨论,属金融数量模型应用研究,重点并非估值预测,而是组合优化、风险控制以及序列相似度提升,故无DCF、市盈率等估值模型内容。
---
五、风险因素评估
- 市场适用性风险:模型基于美股市场假设,应用至国内市场或其他环境存在失效风险,需根据目标市场情况调整模型参数及假设。
- 数据和模型假设风险:股票价格序列高维和降维策略可能无法完全捕捉所有市场行为,模型假设序列相似性代表投资替代性尚需谨慎验证。
- 算法过拟合风险:历史数据训练优化后可能在未来市场表现不佳,需持续关注回测与实盘表现差异。
- 操作和执行风险:实际购买单位及股票价格限制,及交易成本未充分考虑,可能影响组合收益表现。
- 报告明确提示风险并未详述缓解策略,更多需投资者结合自身实际状况审慎应用[page::26]。
---
六、批判性视角与细微差别
- 虽文中设计了稳定性因子与多重平衡度指标,但如何权衡收益最大化与相似性最大化仍有待进一步实践检验,适应度参数调整的主观性较强。
- ESAX虽提高了序列信息细节,但对应投资回报表现不如SAX,提示符号序列中极端信息对收益贡献仍需进一步研究。
- 实验回测中,Previous Approach训练期ROI较高,但测试期表现波动较大,显示算法稳定性弱。新的适应度函数f2虽提升了平衡性,但是否能适应多变市场环境还有待长期验证。
- 文献引用主要依赖原作者Chen & Yu(2017)方法,后续可以拓宽到更多投资组合优化及时间序列处理的新研究,增加系统性与多元视角,对模型鲁棒性有益。
- 报告虽涵盖算法和实例,部分关键公式表达复杂,个别符号有排版或解读难点,可能影响非专业读者理解,需结合附加注释或辅助材料深化理解[page::2-10,25]。
---
七、结论性综合
本报告基于原作者Chen & Yu(2017)的研究,结合招商证券量化团队的实证分析,系统展示了使用遗传算法结合时间序列符号聚合(SAX及ESAX)优化股票组合的创新方法。
- 核心贡献:首次将股票价格序列的符号化及序列距离评价纳入遗传算法适应度函数,提升了同组股票价格序列的相似性,增加组合股票间的可替代性,弥补了传统投资组合优化缺乏价格同步性的问题。
- 多因子适应度设计:结合投资组合满意度、现金股利稳定性、组平衡度、单位平衡度、价格平衡度及序列距离,构建了两个多维适应度函数,较好平衡收益和序列相似度两个核心目标。
- 算法实现:设计细节完善,初始群体现金股利稳定性筛选有助于提高结果质量,遗传操作(交叉、变异、倒位)有效维持群体多样性。
- 实证结果:在台湾市场31只股票数据测试中,与过去传统方法相比,本文提出方法显著提升了组内股价序列相似性(SAX距离下降至9-10,ESAX距离降至40左右)和投资组合收益稳定性,测试期ROI有明显改善,尤其两年训练数据显著提升模型稳健性。
- 图表辅助佐证:包括多个符号序列转换流程图、多个表格展示现金股利、序列符号、组合评估数据,以及分组股价走势对比图,系统刻画了技术细节到整体效能。
- 风险提示与未来方向:模型市场适用性有风险;未来可考虑引入模糊时间序列等更复杂表达与预测机制;方法具备高度理论参考价值,对实际量化投资策略开发和资产组合优化提供重要启示。
综上,报告展示了一种基于遗传算法的新型股票组合优化框架,突破了传统投资组合对价格序列相似性的忽视,具备理论创新和应用价值,推动股票组合优化向智能化、系统化发展[page::0-27]。
---
附:关键图表展示示例
- 股票价格序列示意图(图0):

- SAX符号聚合流程(图4):

- 遗传算法伪代码(图7):

- 实证数据集股价走势(图5):

- 方法对比组内股价序列图示(图7):

- 方法对比组内股价序列图示(图8):

---
总结:本报告通过详尽算法设计与充分实证验证,突出序列符号聚合技术与多因子适应度函数的深度融合,为股票投资组合优化提供了更高阶策略,值得学界与业界持续关注与实践。