`

Alpha掘金系列之十六:基于概念文本相似度聚类的组合优化方案

创建于 更新于

摘要

本报告提出以投资概念作为共性代理变量,结合大语言模型实现投资概念自动化提取与向量化表达,通过概念文本相似度构建股票向量并进行聚类,显著优化组合优化中的行业暴露控制。实证以沪深300、中证500、中证A500为例,显示基于概念聚类的优化策略在信息比率和超额收益上均优于传统行业分类方法,证明了概念相似性在风险控制和策略提升中的潜力。[page::0][page::1][page::2][page::6][page::8][page::12][page::14]

速读内容

  • 投资逻辑与概念提取方法论:

- 股票相似性的核心在于捕获个股之间的共性因素,本文提出将投资概念作为共性代理变量,利用大语言模型通过思维链技术自动提取来自研报和公告的投资概念及其解释文本,构建详尽的股票概念关系数据库。[page::0][page::4][page::5]
- 投资概念覆盖角度广泛,涵盖主营业务、产品、技术、政策事件等,且概念标签具持续性,相较传统行业分类更能解释个股涨跌,案例“谷子经济”显示行业分类对概念行情解释能力有限。[page::1][page::2][page::3]
  • 向量化表达与相似性衡量:

- 通过将概念名称、定义及提取原因合并为概念文本,利用xiaobu-embedding-v2模型获取1792维向量嵌入,实现概念语义向量化;各股票的概念向量取均值形成股票向量。[page::6][page::7]
- 投资概念向量空间可实现概念间及股票间余弦相似度计算,为后续基于概念的相似性排序与聚类分析提供支撑。[page::8]
- 以“潍柴动力”的“重卡发动机”概念为例,检索出高相关度股票不仅涵盖汽车行业,还包含部分电力、新能源等行业,实现跨行业的概念关联。[page::6][page::9]


  • 概念聚类与组合优化应用:

- 股票向量维度过高,采用降维(PCA、MDS、tSNE)结合聚类算法(K-Means、层次凝聚聚类Agglomerative、亲和力传播Affinity Propagation)进行降维聚类。
- 聚类结果示意图以不同颜色表现行业跨界的聚合,通过聚类可将汽车、建材、机械等多行业股票聚合至同一组,体现概念共性。[page::10]


  • 策略回测表现:

- 沪深300增强策略测试中,基于tSNE(64)-Agglomerative(30,manhattan)的概念聚类组合优化策略,年化超额收益达6.49%,信息比率1.838,超额最大回撤3.86%,显著优于传统GICS行业分类年化超额4.81%、信息比率1.475。[page::12]




| 指标 | GICS行业分类 | 中信一级行业分类 | PCA(64)-Kmeans(30) | tSNE(64)-Agglo(30,manhattan) | tSNE(64)-Agglo(30,correlation) | Agglo(30,cosine) |
|--------------|--------------|------------------|--------------------|------------------------------|-------------------------------|------------------|
| 年化超额收益率 | 4.81% | 4.70% | 4.49% | 6.49% | 4.60% | 5.27% |
| 跟踪误差 | 3.26% | 3.19% | 3.14% | 3.53% | 3.05% | 3.19% |
| 信息比率 | 1.475 | 1.474 | 1.431 | 1.838 | 1.506 | 1.650 |
| 超额胜率 | 55.28% | 55.46% | 55.04% | 55.69% | 54.92% | 57.66% |
| 超额最大回撤 | 4.41% | 4.44% | 4.02% | 4.57% | 4.48% | 3.86% |
  • 中证500与中证A500增强策略测试:

- 中证500范围内,概念聚类优势相对沪深300不明显,部分方案年化超额收益及信息比率略优于GICS分类,表现稳定。[page::13]




| 指标 | GICS行业分类 | 中信一级行业分类 | PCA(64)-Kmeans(30) | PCA(64)-Agglo(30,correlation) | MDS(64)-Kmeans(30) | tSNE(64)-Agglo(30,correlation) |
|--------------|--------------|------------------|--------------------|-------------------------------|--------------------|---------------------------------|
| 年化超额收益率 | 4.49% | 3.91% | 3.80% | 3.82% | 4.29% | 4.84% |
| 跟踪误差 | 4.00% | 4.05% | 4.10% | 4.11% | 4.08% | 4.06% |
| 信息比率 | 1.122 | 0.964 | 0.927 | 0.930 | 1.052 | 1.192 |
| 超额胜率 | 53.97% | 53.49% | 53.49% | 53.31% | 53.37% | 53.79% |
| 超额最大回撤 | 5.73% | 5.88% | 6.73% | 7.11% | 6.38% | 6.80% |

- 中证A500组合优化测试显示,基于tSNE(64)-Agglo(30,cosine)方案超额收益最高,达6.74%,信息比率1.739,体现概念聚类在小盘股中亦具竞争力。[page::13]




| 指标 | GICS行业分类 | 中信一级行业分类 | PCA(64)-Kmeans(30) | MDS(64)-Kmeans(30) | tSNE(64)-Agglo(30,correlation) | tSNE(64)-Agglo(30,cosine) |
|--------------|--------------|------------------|--------------------|--------------------|---------------------------------|---------------------------|
| 年化超额收益率 | 5.61% | 6.22% | 6.37% | 5.98% | 6.24% | 6.74% |
| 跟踪误差 | 3.93% | 3.84% | 4.08% | 3.89% | 3.90% | 3.88% |
| 信息比率 | 1.429 | 1.620 | 1.562 | 1.536 | 1.601 | 1.739 |
| 超额胜率 | 55.41% | 56.93% | 55.90% | 55.72% | 55.96% | 56.26% |
| 超额最大回撤 | 6.11% | 5.85% | 5.93% | 6.66% | 5.27% | 6.66% |
  • 结论与展望:

- 股票概念关系数据库和基于文本向量的相似性衡量是核心贡献,概念聚类在组合优化中替代传统行业分类显著提升策略表现,尤其对大市值、业务多元股票效果更佳。
- 大模型赋能的文本自动化处理为证券量化研究带来新方法,可进一步用于捕捉动量溢出、补涨选股等,潜力巨大。
- 风险提示包含历史回测风险、交易成本影响及大语言模型固有不确定性。[page::14]

深度阅读

基于概念文本相似度聚类的组合优化方案——详尽分析报告



---

一、元数据与概览



报告标题:基于概念文本相似度聚类的组合优化方案
作者:高智威、胡正阳
发布机构:国金证券股份有限公司
发布日期:2025年4月6日
主题:量化投资视角下利用大语言模型(LLM)自动提取股票投资概念,实现股票相似性刻画与聚类,并基于此改进组合优化策略。

核心论点与目标
报告提出以投资概念文本为基础,通过大语言模型大规模自动化提取股票投资概念,并基于语义向量化技术衡量股票间的相似性。进而利用降维与聚类算法实现基于概念的股票分类,替代传统行业分类。该方法在沪深300、中证500、中证A500等指数增强组合的风险控制与收益提升中表现出优越性,特别适用于业务多元的大市值股票。报告最终展现了一种融合文本分析与量化投资的新型策略框架。

---

二、逐节深度解读



1. 基于投资概念的股票拆解思路



1.1 选取投资概念切入的理由



报告指出,传统基于行业分类(如GICS、中信行业分类)已成为投资相似性衡量的标准做法,但在当前市场环境下其有效性下降。主要原因是上市公司业务多元化,主营业务分类信息无法准确解释个股涨跌的相关性。例如,“谷子经济”这一新兴投资概念覆盖多个行业,其中传媒行业占52%,但指数相对于传媒行业仍实现超额收益,显示单一行业分类未能完全抓住个股共性因素。

此外,基于基本面、量价因子构造的股票向量虽然能够提供更多维度的相似性评价,但往往滞后、无法彻底控制组合跟踪误差,有时效果不稳定。投资概念因其覆盖面广、语义丰富且具有持续性,能够弥补传统行业分类与量价指标的不足,更准确描述股票间的共性,成为更有效的相似性特征。

1.2 投资概念的提取与解析流程



以人工研报和公告为文本源,设计了清洗、概念提取、去重与验证、汇总的全自动大语言模型Pipeline。模型利用思维链技术,从主营业务、产品、技术、政策事件等多维视角出发,提取投资概念名称并同步生成概念解释和提取原因,极大减少模型生成幻觉。形成的概念数据库涵盖丰富、结构化的投资概念语义信息,便于后续向量化分析。

1.3 投资概念的优势与现有概念数据库局限



概念较行业分类具有更强的解释力和信息广度,兼顾非结构化信息来源(新闻、公告等),传递路径明确且可持续。同时,目前主流概念数据库(例如同花顺“DeepSeek”)存在数据覆盖滞后、梳理主观性、相关性区分困难等缺陷,[图表4、5页面]显示该类数据库指数成分股的积累时间滞后且缺乏统一标准。

由此,作者推动利用大语言模型自动化提取完善概念体系的思路,且用实例展示提取出的潜力较强的投资概念信息。

---

2. 如何根据概念衡量个股相似性



2.1 概念的向量化表示与相似性测算



将概念名称、解释及提取原因合并成文本,通过高维Embedding模型(xiaobu-embedding-v2,1792维)转换为语义向量。利用余弦相似度公式计算向量间语义相似性,弥补单纯名称匹配的不精准。

例如:“潍柴动力”的“重卡发动机”这一概念,通过向量检索得到一批相关度高的个股和概念,覆盖汽车、机械、电力设备等多个行业,突破了传统行业边界,实现了更精准的业务及风险相关性表达[图表10页面]。

2.2 个股向量的构造与相似性定义



将一只股票下所有关联概念向量简单求和归一化,获得股票层面的向量表示;然后基于股票向量计算余弦相似度,反映两只股票的概念层面相似度。此方法借鉴自然语言处理中句子向量的构造,因概念间多为并列关系且数量有限,均值法合理且计算简单;权重法因缺少可量化权重暂不使用。

该方法实现了在一个向量空间同时表达股票和概念,实现灵活交叉查询与分析,方便构建股票聚类及组合优化约束[图表11,12页面]。

---

3. 相似性的应用:组合优化



3.1 股票概念向量的降维聚类分析



由于原始1792维高维数据不利聚类,采用PCA、MDS、tSNE等多种降维方法,同时对比K-Means、层次凝聚聚类、亲和力传播三种聚类方法。

实验显示,层次凝聚聚类(AgglomerativeClustering)搭配非线性降维tSNE效果最佳,股票聚类结果涵盖多个行业,体现出细粒度业务联系和更丰富的关联因子。例如,“潍柴动力”所属聚类汇集汽车、新能源、智能制造等多行业股票,跨行业业务通过概念链接产生聚类关联性,有别于传统单一行业定义[图表13-14页面]。

3.2 概念聚类替代行业分类应用于组合优化效果



将聚类结果作为行业暴露约束输入Markowitz均值-方差组合优化模型,替代GICS和中信一级行业分类。约束参数控制个股偏离1%,跟踪误差5%,因子与行业暴露有严格限制。回测覆盖沪深300、中证500和中证A500,覆盖面与规模递进。
  • 沪深300结果

概念聚类方案显著提升超额收益与信息比率,tSNE(64)-Agglomerative聚类,采用曼哈顿距离方法,年化超额收益峰值达6.49%,信息比率1.838,显著超过GICS(4.81%,1.475)及中信一级(4.70%,1.474)行业分类。同时回撤保持较低水平,表现更稳定[图表15-17]。
  • 中证500结果

聚类效果相对沪深300略逊,仅个别方案略优于传统GICS行业分类(信息比率最高1.192,超额收益4.84%),说明概念聚类优势受股票市值和行业覆盖度影响较大[图表18-20]。
  • 中证A500结果

概念聚类方案表现较好,多数方案跑赢中信一级与GICS;其中tSNE(64)-Agglomerative(余弦距离)信息比率最高达1.739,年化超额收益6.74%,超额最大回撤率控制优良,显示该方法在中等规模股票池中价值显著[图表21-23]。

总体观察,tSNE降维+层次聚类算法稳定优于其他方案,且概念聚类的优势在大市值、业务多元股票池更突出,因概念覆盖度和业务复杂度较高,使概念维度更能准确刻画业务联系及风险因素。

---

三、图表深度解读


  1. 图表1(“谷子经济”行业市值占比)

展示“谷子经济”成分股行业结构,传媒行业占52%,商贸零售占18.69%,其余行业占比较小。体现概念跨行业覆盖,单一行业分类难以解释综合表现。
  1. 图表2(行业与“谷子经济”指数收益对比)

显示以行业加权构建的指数净值与“谷子经济”指数净值收益差异显著,验证行业分类不能完全解释概念驱动下的超额收益。
  1. 图表3(现有相似性衡量方式的比较)

以表格形式分析行业分类及股票度量空间法的实现及不足,构建逻辑清晰,对比传统方法与概念向量法的差异。
  1. 图表4,5(同花顺“DeepSeek”概念股数量发展)

细线性成长与年份分布图,展示现成概念数据库数量增长及滞后,表明自动化提取的必要性。
  1. 图表6(概念提取流程图)

流程图清晰说明数据来源—文本清洗—概念提取—汇总构建数据库,强调了多步骤的自动化流程。
  1. 图表7-9(案例分析)

分别展示研报文本、提取概念内容与解释,体现模型对文本深度理解与结构化处理能力。所提取概念涵盖主营业务、技术、政策、事件驱动等多维度。
  1. 图表10(示例相似性匹配)

计算“潍柴动力”重卡发动机概念与其他股票的相似度,涵盖汽车及相关行业,展示了算法突破传统行业限制能力。
  1. 图表11(向量表达及相似性计算示意)

图示股票与概念间多对多关系,说明为何采用聚合概念向量实现股票相似性衡量的合理性。
  1. 图表12(股票向量相似度匹配部分结果)

详细列出“潍柴动力”及其高相似股票对应概念,涉及业务交集广泛,体现概念向量的多维覆盖能力。
  1. 图表13-14(降维聚类示例及聚类内股票详情)

展示降维后股票聚类的分布图及“潍柴动力”聚类中的多行业股票,体现业务复杂关联的挖掘效果。
  1. 图表15-17(沪深300回测表现)

净值走势与超额收益对比,表明概念聚类特别是tSNE与层次聚类结合方案优势明显,信息比率提升显著。
  1. 图表18-20(中证500回测表现)

不同方案表现相近,概念聚类优势减弱,反映大盘范围内行业聚类应用受到限制。
  1. 图表21-23(中证A500回测表现)

显示概念聚类在中盘股区间的竞争力,尤其是信息比率和年化超额收益取得一定领先,综合回撤表现良好。

---

四、估值分析



报告侧重于量化投资组合优化及相似性衡量方法,未涉及传统公司的估值分析模型,因此无典型估值方法(DCF、P/E等)讨论。

---

五、风险因素评估



报告提醒相关风险包括:
  • 模型时效性风险:策略基于历史数据建模,一旦市场环境或政策变化,模型预测效果可能失准。

- 策略执行风险:交易成本上升或市场微结构改变均可能影响实盘收益表现,甚至引致亏损。
  • 大语言模型固有风险:大语言模型输出具有随机性且易受模型升级影响,可能导致结论发生变化或出现错误答案。


提醒投资者审慎使用,作为决策参考,不可盲目依赖。[page::0-14]

---

六、批判性视角与细微差别


  • 报告整体结构严密,逻辑清晰,结合先进大语言模型与量化技术,创新性强。

- 对行业分类的局限性揭示充分,投资概念提取流程系统,充分利用文本非结构化信息的潜力。
  • 对Embedding向量化实现细节较为透明,采用均值法算股向量合理但未解决概念权重量化,留有较大后续提升空间。

- 聚类方法全面对比,验证有效性,但实证效果主要体现在沪深300大盘,其他指数表现略有波动,显示方法受样本覆盖度影响较大。
  • 风险提示全面且合理,标明不可忽视的模型时效、执行与AI固有限制风险。

- 因篇幅限制,对聚类结果及相似性匹配的样本数量和指标稳定性缺少长期统计分析,未来可补充。
  • 报告未深入探讨非行业因素(宏观政策、短期事件)融合对提升模型可能产生的影响。

- 股票业务多元化背景下,概念理解本质上类似因果网络,如何更科学地赋权和动态调整是未来挑战。

---

七、结论性综合



本报告通过创新的基于投资概念文本的自动化提取,结合大语言模型深度理解文本信息,成功实现股票概念的结构化表示。利用Embedding向量技术将模型提取的丰富语义信息转化为高维向量,进行了有效的相似性衡量和聚类分析,超越传统行业分类的局限性。该股票向量和股票概念数据库构建为量化策略提供了更精准的相似性描述和风险控制维度。

在组合优化应用中,概念聚类替代行业暴露约束使沪深300等大盘增强策略在年化超额收益、信息比率及最大回撤等关键指标上取得显著提升,尤其表现优于传统行业分类,验证了该方法在实际策略中改进风险配置与收益表现的潜力。中证500、中证A500指数测试表明概念聚类适用性与有效性存在与股票市值规模和业务复杂度相关的差异,强调了业务多元化对概念向量分析效果的支撑作用。

股票概念关系数据库是大语言模型在金融投研领域的重要创新应用案例,为证券分析注入结构化的非结构化文本信息,实现了信息的跨越式应用接入。未来该数据库可进一步挖掘如动量溢出效应捕捉、热点补涨选股等选股策略,具备极大发展空间和应用前景。

总之,报告从文本智能处理、语义向量化、聚类分析到组合优化一体化展现了创新驱动的量化投资研究体系,对行业寻求突破传统相似性认知的量化策略构建有重要的示范意义与实践指导价值。[page::0-16]

---

# 报告结构清晰,数据详实,融合了 NLP 与金融量化的最前沿技术,展示了投资理念与量化实操的深度结合,为投资决策体系创新提供了强有力工具及方法论支持。

报告