`

基于遗传算法的股票分类和组合优化

创建于 更新于

摘要

本报告基于Chen等2017年文献,提出利用遗传算法对股票价格序列进行分组优化,通过符号聚合近似(SAX)与扩展符号聚合近似(ESAX)对时间序列降维处理,设计了基于稳定性因子、组平衡度、单位平衡度和价格平衡度的混合适应度函数,实现股票组合的多指标优化。实证结果显示,提出的方法在提高组合股票价格序列相似性和替代性方面优于传统算法,投资回报率稳定且模型在实际台湾市场数据上具有较好适用性 [page::0][page::18][page::25].

速读内容


研究背景与问题定义 [page::2][page::3]

  • 股票组合优化目前多基于均值-方差(M-V)模型与遗传算法,缺乏考虑股票价格序列相似性的分组方法。

- 分组遗传算法(GGA)将股票分为若干组,同组内股票应表现出价格相似性,为投资者提供替代股票选择。
  • 时间序列维度高,采用SAX和ESAX进行符号化降维处理,便于序列距离的计算和分组优化。


算法设计与适应度函数构建 [page::6][page::8][page::9]

  • 染色体编码包括分组部分、股票部分和投资组合部分,实现股票分组和持仓量的同步优化。

- 适应度函数包含投资组合满意度(结合ROI、资本惩罚和交易惩罚)、稳定性因子(现金股息方差)、组平衡度、单位平衡度和价格平衡度。
  • 序列距离因子用于量化同组股票价格序列的相似性,基于符号距离计算配对距离。


算法流程与遗传操作 [page::10][page::11]

  • 初始化总体采用现金股息收益率指导分组概率,保证股票稳健性。

- 伪代码描述完整遗传循环,含符号序列转换,适应度评估,选择、交叉、变异和倒位操作。
  • 算法迭代至终止条件,输出最优分组股票组合。


实证数据集与参数设置 [page::17][page::18]

  • 采用2012年-2014年台湾证券交易所31只股票,含股价、现金股利和风险值。

- 参数设置详列,如人口规模50,交叉概率0.8,变异概率0.03,组数6,迭代100代。

实验结果分析 [page::18][page::19][page::20]

  • 比较Proposed Approach(f1)、Proposed Approach(f2)与Previous Approach在SAX、ESAX距离以及适应度上的差异。

- Proposed Approach有效降低组内股价序列距离,提高组内股票价格相似性。
  • 组间价格平衡度和单位平衡度通过f2函数得到更佳控制。

- 股票价格序列可视化显示Proposed Approach组别内部价格走势高度一致。



投资回报率对比 [page::24][page::25]


| 方法 | 训练期平均ROI(2012-2013) | 测试期平均ROI(2014) |
|--------------------------|--------------------------|---------------------|
| Previous Approach | 1.639 | -0.027 |
| Proposed Approach (f1)+SAX | 0.765 | 0.169 |
| Proposed Approach (f1)+ESAX| 1.05 | 0.148 |
| Proposed Approach (f2)+SAX | 0.899 | 0.179 |
| Proposed Approach (f2)+ESAX| 0.801 | 0.15 |
| Benchmark | 0.317 | 0.108 |
  • 尽管训练集上Previous Approach ROI最高,测试集表现欠佳且存在亏损风险。

- Proposed Approach表现更稳健,测试期收益均为正,尤其是f2函数表现更优秀。
  • SAX 在收益表现上略优于ESAX,但ESAX组内价格相似性更强。


结论与展望 [page::25][page::26]

  • 设计了基于价格序列分组遗传算法,采用多维适应度函数综合考虑收益、稳定性、平衡性和价格相似性,实现功能性股票组合优化。

- 通过实证数据验证方法有效性,提升组合股票价格序列相似度,改善替代选择与组合稳健性。
  • 未来可考虑引入模糊时间序列方法,进一步提升时间序列模型的表现力和预测精度。


深度阅读

基于遗传算法的股票分类和组合优化专题报告详尽分析



---

1. 元数据与概览


  • 标题: 基于遗传算法的股票分类和组合优化

- 报告系列号: “琢璞”系列报告之三十
  • 发布机构: 招商证券定量研究团队

- 发布日期: 2021年2月25日
  • 报告主题: 利用遗传算法基于股票价格序列相似度进行股票分类和股票投资组合优化研究。


核心论点与主旨:
报告围绕Chen, Chun-Hao和Chih-Hung Yu(2017)发表的论文《A Series-based group stock portfolio optimization approach using the grouping genetic algorithm with symbolic aggregate approximations》展开研究,介绍一种基于分组遗传算法(GGA)和时间序列降维技术(SAX和ESAX),优化股价相似的股票组合(GSP)。该策略致力于提升投资组合收益率(ROI)和组合股票价格间的相似性,解决现有投资组合优化中股票价格相异导致替代股票需求难以满足的问题。报告重点强调方法创新点,包括设计现金股利稳定因子、单位平衡度和价格平衡度,以及基于符号序列的距离因子,进一步提高组合质量和实用性。
最终结果显示,基于SAX的GSP方法在收益率方面略优,ESAX方法则在组合相似性上表现更佳,从而为投资者提供更具操作性的组合配置选项。[page::0,2,6,10,18,24,25]

---

2. 逐节深度解读



2.1 引言与研究背景


  • 引言: 报告指出市场中资产与基金分类的重要性,强调基于业绩走势和资产相关性的分类有助于寻找替代资产,这对存在“部分资产不可购买”限制的投资者尤为关键。报告推荐的研究为投资组合优化提供了理论基础,通过遗传算法实现股票价格相似性分组,方便替代选择。[page::0,2]
  • 研究背景(第二章第一节):

金融市场多变量影响投资决策,衡量投资组合质量的两个核心量化指标是风险价值(VaR)和投资回报率(ROI)。传统基于均值-方差(M-V)模型的组合优化已较广泛研究,但难保证同组股票价格序列相似,限制了实际操作的便利性。
过去提出基于分组遗传算法(GGA)的股票组合筛选方法,目标是将股票分成相似股票组,设置组平衡度和组合满意度评判标准,通过遗传操作寻找最优分组组合,从而支持替代股票选择。[page::2]
  • 相关工作综述(第二章第二小节):

文中系统梳理了多种基于遗传算法的单目标和多目标优化方法,比方说Chang等的启蒙遗传算法,Guo提出的基于模糊模拟遗传算法(FSGA),Bevilacqua的多目标GA等。还介绍了混合算法,如结合分类与优化的混合算法、考虑伦理和财务指标的多阶段决策框架。
然而,这些方法均侧重于单一股票组合输出,缺乏能够满足投资者需求的替代引入机制,而分组遗传算法恰好弥补了这一点。[page::2,3]

2.2 背景知识详述


  • 分组问题定义:

分组问题表述为集合对象的划分优化问题,分组遗传算法(GGA)编码中染色体包含分组情况和对象部分,例如“ACBBC:ABC”代表五个对象划分到三组。GGA的遗传操作设计为交叉(组切换)、变异(对象迁移组)和倒位(组顺序调整),与传统GA基因交换不同,确保多样性生成。[page::3,4]
  • 符号聚合近似(SAX):

由于时间序列维度高,SAX通过先对序列做均值方差标准化,再用PAA(Piecewise Aggregate Approximation)分段求均值降维,最后基于预定断点转换为有限多符号。该方法提高了时间序列处理效率,符号表达还简洁,有助于计算序列距离。用实例详解SAX流程,辅助理解。[page::4]
  • 扩展符号聚合近似(ESAX):

SAX只用平均值进行符号映射,信息有限。ESAX扩展为每段用最大、最小和平均三个统计值分别映射符号并依时间顺序排列。此方式更丰富地保留段内信息,有助于更准确区分时间序列。图示与实例说明转换流程。相比SAX,ESAX可更精准反映时间序列形态。[page::5]

2.3 遗传算法设计与实现细节


  • 染色体表示:

图3示意染色体包含分组部分(共有K组)与股票投资组合部分。分组部分表明股票的归属,投资组合部分则指定每组内选股的实际数量(bi)及购买单位(ui)。例如,大小为K的组部分和长度为n的股票部分联合编码允许灵活表达不同组合结构。[page::6]
  • 初始群体生成策略:

选用股票现金股利率作为初始群体质量的判据,现金股利率稳定的股票被视为风险较低表现优异,优先纳入初始分组。以QCI和TWM为例,示范现金股利率计算,通过表1和表2归纳现金股利收益率,用于初始聚类实现更合理的启动点。[page::6,7]
  • 适应度函数设计:

设计了以投资组合满意度(PS)为核心的复合适应度函数,引入稳定性因子(基于现金股利标准化方差减少训练期损失)、组平衡度GB保证股票组内数量均衡、单位平衡度UB约束购买单位分布、价格平衡度PB保证同组股票价格均衡,以及序列距离SD评价同组股票价格序列的相似性。
其中,投资组合满意度结合收益(ROI)、风险、投资资本和购买数量的惩罚项,运用历史模拟估计风险。序列距离基于符号序列计算符号间的简单距离,总结出两个适应度函数f1和f2,分别侧重不同指标组合,允许基于实际需求调整和优化股票组合筛选效果。[page::8,9,10]
  • 遗传操作详解:

采用三种遗传操作:交叉(组间替换)、突变(股票在组间迁移,购买决策变更)、倒位(交换组次序,拓展染色体多样性)。操作先后依托染色体的三个部分,有效维持多样性,确保算法的全局搜索能力。
算法伪代码清晰描述流程,从初始群体生成、转换符号序列、计算适应度、选择、遗传操作迭代至终止输出最优染色体。[page::10,11]

2.4 具体示例说明


  • 通过一个包含12支股票的示例,详细展示了如何生成初始分组、计算平均现金股利比例、股票标准化、SAX符号序列生成、计算投资组合满意度、组平衡度、序列距离,以及整体适应度。

- 以染色体C1为核心示范了构造股票组合、利润及风险计算、稳定因子纳入、适应度值最终计算过程,将理论公式运用到实际数据中,辅助理解算法具体细节。
  • 再现遗传算法中选择、交叉、突变、倒位操作步骤,直观阐释组合优化循环。最后以所得最佳染色体Cbest给出分组结果和可能股票组合数量,提升投资合理性和组合多样性。[page::11-16]


2.5 实验结果与分析


  • 数据集介绍: 使用台湾证券交易所2012-2014年31只股票数据,包含股票价格序列(约742个日收盘价)及其现金股利与风险值。股票涉及半导体、通信网络、金融等15个类别。

- 基于SAX和ESAX的实验比较:
Tables 14-17显示,本文提出方法得出的股票组合适应度明显优于初始组合。
- SAX方法的投资组合满意度和序列距离配合使得ROI表现更优;
- ESAX方法的组合相似性更强,但ROI稍逊于SAX;
- 采用f2适应度函数(包含单位和平衡价格约束)的结果,在单位和价格平衡上更稳定,股价序列相似更高,表现优于f1。
  • 图表对比:

图9对比过去方法的多个分组股价序列,显示部分组内股票价格差异明显;图10和图11(f1和f2指标下的提出方法)显示组内价格序列更趋近,f2方法效果更显著。
  • 序列距离与ROI对比:

表18中的SAX和ESAX距离均低于过去方法,反映组内股价序列更相似。
投资回报率表19和表20显示,提出方法在训练期回报相对较低,但测试期平均ROI高于过去方法,且稳定性更强。SAX在收益上略优于ESAX,而ESAX序列相似性更强。[page::17-25]

---

3. 图表深度解读



3.1 图片与图表解读


  • 图片(页0): 展示了基于遗传算法得到的一个股价序列相似的股票组,多个股票价格曲线走势高度重合,说明股票在组内价格走势同步,对投资组合管理有利。

- 图1(页4)SAX流程图:详解时间序列转符号化步骤,包括正态化、PAA降维和符号映射,图右侧用实际股价数据举例转化过程,便于理解降维与符号序列转换的具体含义。
  • 图2(页5)ESAX流程图:与图1类似,但每段包含三个统计值(最大、均值、最小),符号序列更长更丰富,对于大型数据段集保留更多信息。

- 图3(页6)染色体示意图:阐明基因编码方式,分组基因与股票投资组合基因组合体现遗传算法构造的双层结构,体现算法基于组的动态优化思路。
  • 图5(页11)算法伪代码:详细步骤,包括初始生成、符号转换、适应度计算及遗传操作流程,清楚标识不同函数调用与操作,便于复现。

- 图5(页18)数据集股价序列图:多条股价曲线展示31只样本,区分价格区间层次结构,体现数据多样性与价格差异问题。
  • 图9-11(页21-23)股价序列对比图:显示不同方法分组结果中股票价格的相似度。图9旧方法显示部分组内股票走势差异大;图10-11新方法体现更强的组内序列一致性,尤其f2方法相比f1更优,验证算法设计意图。(请见相应页码图片链接)


3.2 关键表格解读


  • 表1-3(页7)现金股利率和对应的组均值比例:体现初始群体生成基础,对组内股票稳定性和收益率的合理引导。

- 表9-12(页14-15):分别展示不同染色体组合的组合满意度、组平衡度、序列距离和适应度,形成遗传操作反馈基础。
  • 表13参数设置(页17):涵盖样本大小、遗传操作概率、字母和片段大小等关键超参数,确保算法可调性。

- 表14-17综合比较SAX和ESAX下不同适应度函数f1和f2的初始与优化组合表现:数值反映适应度提升、序列相似度改善及组合平衡的量化结果。
  • 表18-20: 对比过去方法与提出方法在股票价格序列相似距离与训练/测试期ROI表现:突出本文方法在保持组合相似性的同时,测试期表现更稳定且回报高于基准,具实际投资价值。


---

4. 估值分析



报告未涉及传统企业估值部分,而是将“估值”概念拓展到投资组合优化角度,采用遗传算法为核心的多目标优化框架对股票组合进行价值最大化。适应度函数通过权衡投资回报、风险、组内股票价格和数量均衡度等因素综合评估组合质量,算是一种智能估值(选择)方法。
基于两个适应度函数(f1兼顾利润与相似度,f2增加单位与价格平衡度)调整组合结构,体现内部估值权重设置的灵活性和优越性。实际价格平衡度和序列距离因子,可理解为组合估值时的约束和优化指导。[page::8,9,10,18-20]

---

5. 风险因素评估


  • 市场适用性风险: 报告作者特别指出,模型基于美国市场环境理论研究,应用到国内市场或者与研究假设环境差异较大时,可能出现模型失效风险。尤其中国金融市场法规、交易机制、流动性等差异,可能影响模型表现。

- 数据敏感性风险: 算法依赖价格序列和现金股利等财务数据质量,数据异常或延迟可能降低算法预测准确性。
  • 参数设定风险: 遗传算法参数(遗传率、群体大小、迭代次数等)影响算法收敛与效果,不合理设置可能导致局部最优或效率低下。

- 策略执行风险: 股票组合建议的替代策略虽有效,但实际执行中受限于市场流动性、交易成本、买卖限制等操作性问题。

报告未细化缓解措施,但整体采用多因子适应度和遗传多次迭代,客观提升了稳健性,避免单因素导致的风险。[page::26]

---

6. 批判性视角与细微差别


  • 论文与报告强调用现金股利率作为初始种群划分的参考依据,虽合理,但现金股利较低或者不稳定的成长型股票可能被忽视,限制组合收益多样性。

- SAX与ESAX的权衡体现了降维方法的取舍——ESAX更详细但计算更复杂,报告中解释充分,但投资回报实际表现不一定更优,具体应用场景需要权衡。
  • 适应度函数权重参数(α、β、γ)用户自定义,存在主观设置风险,缺少自动调优机制,可能影响结果的普适性。

- 报告中ROI测试比较显示提出的方法训练期收益不及旧法,实测期表现更佳,彰显过拟合风险减少,但也提示训练数据量和质量对模型表现重要。
  • 报告未充分讨论小样本股票或极端市场条件下方法的稳健性及实际可操作性。

- 虽然报告详尽,但部分公式与数据解释较为密集,理解门槛相对较高,实际投资者需结合量化技术熟练度使用。

---

7. 结论性综合



本报告系统细致地解析并介绍了基于遗传算法结合符号聚合近似技术的股票组合优化方法,提出了一套针对股票价格序列相似性和投资组合实用性的创新算法体系。方法设计包含融合现金股利稳定性、组合内数量平衡、价格均衡等多因子适应度函数,运用交易历史数据和符号转换技术,有效提升了组内股票价格序列的相似度,实现替代股票灵活选择。

丰富的实证研究基于台湾股市31只股票的实际数据展开,比较了原始分组与优化后分组的表现。数据显示,本文提出的方案在组内价格序列相似度(SAX和ESAX距离指标)显著增加,说明优化效果优于传统方法。进一步,投资回报率(ROI)在保证组合相似性的同时实现了稳定且普遍优于基准和历史方法的成果,尤其在测试集表现尤为突出。图表和示例清晰阐释了算法的实现路径和操作细节。

报告中的图9-11直观反映了不同方案下组内股票价格序列的走势差异,验证提出遗传算法模型的实用价值。遗传算法操作及染色体编码设计科学,易于扩展与调整参数满足不同投资标准需求。

总体而言,此研究不仅深化了基于遗传算法的投资组合优化理论,亦有效解决了传统组合缺乏价格序列一致性和替代股票选择的实际难题。对投资者构建多样化、高相似度的股票组合提供了有力工具与理论支撑。

然而,模型应用存在市场环境适用性风险,投资者在结合国内市场具体情况时需谨慎。未来工作可以考虑引入模糊时间序列、自动参数调整等进一步提升模型效果。

---

主要图表示例Markdown格式引用


  • - 页0股票价格系列示意

- - SAX流程图
  • - ESAX流程图

- - 染色体表示
  • - 算法伪代码

- - 实验数据股价序列
  • - 旧方法组股价序列图

- - f1新方法组股价序列图
  • - f2新方法组股价序列图


---

参考文献



Chen, Chun-Hao, and Chih-Hung Yu. "A series-based group stock portfolio optimization approach using the grouping genetic algorithm with symbolic aggregate approximations." Knowledge-Based Systems 125 (2017): 146-163. [page::0,26]

---

综上所述,该报告呈现了一套理论与实证兼具,通俗易懂而又不失深度的股票组合优化方案,方法具备创新性与应用潜力,为金融量化研究及实务操作提供了有价值的参考。

报告