基于主营产品相似度的A股市场行业分类研究
创建于 更新于
摘要
本文通过文本分析方法,利用上市公司招股说明书主营产品描述,采用jieba分词和Word2vec词向量技术计算公司间主营产品相似度,并基于K-means聚类算法重新构建A股市场行业分类体系。重分类结果行业数量设为100,较申万、中信二级行业更均衡,且行业内股票股价相关性与收益率标准差表现与传统行业分类接近,显示了较好的一致性与辨识度。最终通过中证500增强策略业绩测试,基于新行业分类的策略年化超额收益有所提升,体现该方法在量化策略中的应用潜力和可行性[page::0][page::9][page::18][page::19][page::21][page::22].
速读内容
行业分类的重要性及现状 [page::2][page::3][page::4]
- 行业分类是二级市场投资及研究的重要基石,有管理型和投资型两类分类标准。
- 当前A股市场主流行业分类体系为申万和中信分类体系,行业分类调整较少,保持相对稳定。
- 申万和中信行业分类核心依据为主营业务收入和利润占比,同时考虑投资收益和发展规划等因素。
- 申万与中信一级行业中约12%上市公司行业归属不一致,机械设备行业归属差异最大,行业分类差异体现在成分股的行业广泛分散[page::2][page::3][page::4][page::5][page::6].
基于主营产品文本的行业分类方法构建 [page::9][page::10][page::11][page::12]
- 采用爬虫技术抓取上市公司招股说明书文本,使用jieba词分词工具进行中文文本分词,去除停用词及特殊处理。
- 利用Word2vec深度学习词向量模型(包含CBOW和Skip-Gram两种训练模式)对分词结果进行向量化,映射文本语义。
- 计算公司主营产品描述的相似度,基于K-means聚类算法对A股上市公司进行聚类,聚类类别设为100,模拟传统二级行业维度。
- 聚类示意图清晰展示了如何通过相似度实现公司归类的过程,体现了文本智能处理的技术路径[page::9][page::10][page::11][page::12].
上证50指数成分股主营产品分析与相似度计算 [page::14][page::15][page::16]
- 详细收集上证50成分股的主营产品构成,提取关键字作为文本输入。
- 利用提取的关键词计算各成分公司之间相似度,形成相似度矩阵,高相似度表明主营产品间的业务相关性强。
- 通过案例展示如“中芯国际”等半导体相关公司的相似度排名,显示出了有效的行业划分效果[page::14][page::15][page::16][page::17].
新行业分类的均衡性及有效性验证 [page::18][page::19][page::20]
- 统计新行业分类中公司数量分布,数据显示相比申万与中信二级行业,新行业分类各行业成分公司数量更加均衡。
- 计算新行业分类内公司股票的历史股价相关性和收益率标准差,结果与传统行业分类表现接近,说明新分类在最小化行业内差异、最大化差异方面效果较好。
- 这种基于主营产品文本的分类方法具有较强的行业划分合理性[page::18][page::19][page::20].
新行业分类在指数增强策略中的应用效果 [page::21]
- 应用行业分类结果构建中证500指数增强策略,加入市值及行业严格中性风险约束,对比采用申万二级行业分类提升。
- 新行业分类策略较申万二级行业分类的年化超额收益力图提升至19.21%,信息比率略有下降,但整体表现较为接近与稳健。
- 具体表现如下图及表格所示:

| 年份 | 500增强申万二级(绝对收益) | 500增强新行业(绝对收益) | 500增强申万二级(超额收益) | 500增强新行业(超额收益) |
|-------|------------------------|--------------------|---------------------|------------------|
| 2010年 | 24.57% | 29.88% | 14.50% | 19.81% |
| 2011年 | -10.96% | -11.72% | 22.87% | 22.10% |
| 2012年 | 27.31% | 26.94% | 27.03% | 26.66% |
| 2013年 | 34.72% | 37.28% | 17.84% | 20.39% |
| 2014年 | 56.10% | 55.29% | 17.09% | 16.28% |
| 2015年 | 99.25% | 93.79% | 56.13% | 50.68% |
| 2016年 | -1.50% | 1.48% | 16.27% | 19.25% |
| 2017年 | 10.61% | 7.73% | 10.81% | 7.94% |
| 2018年 | -26.67% | -22.14% | 6.65% | 11.18% |
| 2019年 | 43.91% | 39.00% | 17.53% | 12.61% |
| 2020年 | 37.69% | 35.81% | 16.82% | 14.94% |
| 2021年 | 7.55% | 9.77% | 1.91% | 4.14% |
| 年化收益| 22.25% | 22.79% | 18.66% | 19.21% |
| 信息比率| 3.73 | 3.54 | | |
- 该回测验证了基于主营产品相似度的行业分类在量化投资应用中的可行性和潜在优势[page::21].
研究总结 [page::22]
- 基于上市公司主营产品文本的行业重分类方法创新,将传统静态行业分类转化为动态的产品相似度聚类,能更贴合公司实际经营特征。
- 行业内相关性及风险指标测试表明新分类具有较强识别能力且表现稳定。
- 指数增强策略应用结果显示,基于文本分析的新行业分类带来超额收益提升,具备实际投资价值。
- 研究同时指出该方法受主营产品披露质量、文本预处理和词向量模型选择影响,有优化空间及一定误分类风险。
- 未来可考虑更丰富语料、优化模型训练以提升分类精准度[page::22].
深度阅读
基于主营产品相似度的A股市场行业分类研究 — 详尽分析报告
---
一、元数据与概览
- 报告标题: 基于主营产品相似度的A股市场行业分类研究
- 作者: 曹春晓、杨国平
- 发布机构: 华西证券研究所
- 发布日期: 2021年6月22日
- 研究主题: 探讨基于上市公司主营产品相似度的行业分类体系构建及其在A股市场中的适用性与效果评估
核心论点与目标
报告以传统行业分类标准(如申万、中信两大体系)为切入点,揭示了目前行业分类体系存在的局限性和异构现象。借鉴国外学者Hoberg和Phillips的文本分析方法,提出基于上市公司披露主营产品的文本相似度进行重新聚类的可行思路。通过关键技术工具(Jieba分词、Word2vec词向量、K-means聚类算法)建立产品相似度度量框架,并对市场主要指数成分股进行实证测算,评估了新型行业分类的合理性和有效性。
最终结论指出,基于主营产品相似度划分的行业体系与传统行业分类在行业内部股价相关性、收益率波动率等指标上表现相近,并且在中证500增强策略实证中展现出略优的超额收益表现,显示出一定的应用潜力与改进空间[page::0,1,9,17,22].
---
二、逐节深度解读
1. 行业分类现状及问题分析
1.1 行业分类的重要性(第2页)
行业分类被认为是二级市场投资研究的根基。报告阐明两大行业分类类型:
- 管理型行业分类: 着眼宏观经济和管理,如ISIC、NAICS和中国国家统计局标准。
- 投资型行业分类: 服务于投资分析和资产配置,国内普遍采用的包括申万、富时、MSCI等分类标准。
该区分明确了行业分类的不同应用根本出发点,强调了投资型分类体系的实用性和专用性[page::2].
1.2 传统行业分类体系固定(第3页)
描述了申万和中信行业分类的历史沿革及现状,两者是A股市场主流类别,结构较为稳定且更新频率低。图1详细列示了申万与中信分类标准的关键发布时间和版本变迁,体现市场认可度与制度约束[page::3].
1.3 现行分类依赖主营业务构成(第4页)
申万和中信行业分类的核心指标集中在主营业务收入及利润占比,同时兼顾投资收益、市场预期和公司未来规划。两者主要差异是对投资收益的关注程度不同,细致的流程图(图2、图3)展示了分类的判断逻辑,清晰反映了依赖财务数据的分层归类机制[page::4].
1.4-1.6 申万与中信分类不一致情况(第5-7页)
- 约12%上市公司申万与中信一级行业归属存在差异,且机械设备行业的分化最为严重,被分配至16个不同中信一级行业。
- 具体数据见图4和图5,机械设备行业公司多达69家归至“非机械”中信行业,说明现有分类标准在细分行业边界存在分歧。
- 重要指数(沪深300、中证500及创业板)中也存在若干公司行业归属差异,部分核心大市值股票如东方财富(非银金融vs计算机)、工业富联(电子vs通信)均受影响,详见表1[page::5,6,7].
2. 基于主营产品相似度的行业分类方法构建
2.1 方法论介绍(第9页)
报告引入Hoberg和Phillips的文本分析方法,将上市公司主营产品文本作为分析对象,采取文本处理、向量化和聚类技术,构建动态且基于主营产品的行业划分体系。此方法克服了传统静态分类框架难以响应行业变化的弊端,是一种更加灵活的行业划分思路[page::9].
2.2 文本预处理—Jieba分词(第10页)
详细说明中文文本预处理中的分词步骤,采用的Jieba分词工具实现流程包括初始化词典、切分短语、构建DAG图、路径概率最大化选择及新词识别处理,保证了中文文本信息的准确抽取,为后续词向量训练奠定基础[page::10].
2.3 词向量构建—Word2vec(第11页)
介绍Word2vec基本原理与模型架构(CBOW和Skip-gram),赋予文本词汇连续、密集的向量表达,量化词语语义关系,实现相似度计算的数学基础。图8示例清晰解析两种模型层级结构[page::11].
2.4 相似度计算及K-means聚类(第12页)
通过将公司主营产品关键词映射为词向量矩阵,利用特征提取及降维技术,计算两公司主营产品的相似度。得到公司间相似度矩阵后,使用K-means聚类设定行业数量(100)以适配申万和中信二级行业数量,完成行业重分类[page::12].
3. 基于主营产品相似度的行业分类测试与验证
3.1-3.2 上证50成分股主营产品信息处理(第14-15页)
详细的表格(表2、表3)展现了上证50成分股的主营产品分解及关键词抽取过程,关键词包括具体产品、服务及业务形态,为计算相似度提供数据输入。丰富的关键词涵盖了金融、制造、能源、消费品等多行业维度,文本预处理效果较全面[page::14,15].
3.3-3.4 主营产品相似度矩阵及典型公司样例(第16-17页)
- 相似度矩阵表4虽过于庞大难以全文展示,但通过数字数据证明不同上市公司主营产品在构成上存在可区分的相似性范围。
- 以中芯国际为例,表5展示数十只与其主营产品高度相似公司(相似度多在60%+至77%+),涵盖半导体产业链上下游,体现了产品维度分类精准甄别公司的能力[page::16,17].
3.5-3.6 新行业分类成分更均衡且行业内部相似性高(第18-19页)
- 图10显示,相较申万和中信二级行业,基于文本相似度的100个行业中上市公司数目更加均衡,有利于避免行业过度集中与稀疏现象。
- 图11表明新行业分类的行业内股价相关性与传统分类接近,验证了其能够最小化行业内差距、最大化行业间差距的分组效果[page::18,19].
3.7 波动性比较支持新分类合理性(第20页)
行业内股票横截面收益率的标准差,同样表明新分类的行业股票表现较为一致,标准差指标趋势与申万、中信行业分类无显著差异,进一步印证了该行业划分的内生合理性[page::20].
3.8 应用于中证500指数增强策略(第21页)
实证测试显示:
- 使用新行业分类的中证500增强组合与使用申万二级行业分类组合表现相近。
- 年化超额收益略有提升(从18.67%升至19.21%),信息比率稍降(3.73降至3.54)。
- 图13和表6展示具体收益率曲线及分年度超额收益数据,表明基于新分类的投资策略在历史回测中表现稳健[page::21].
4. 风险提示与总结
风险(第24页)
报告强调定量模型基于历史数据的风险,未来模型失效的可能性不可忽视,提醒投资者关注模型适用范围与持续优化[page::24].
总结(第22页)
- 基于主营产品的文本相似度行业分类为A股市场探索了新的分类维度,具有适用性和合理性。
- 该分类方法依赖上市公司附注披露的主营产品明细,信息披露不统一可能导致分类误差。
- 模型性能强烈依赖训练数据质量和词向量算法选择,当前仅采用Word2vec,尚有优化空间。
- 新行业分类在股价相关性、收益率稳定性和投资回测结果上表现接近传统分类,证明其潜在应用价值[page::22].
---
三、图表深度解读
- 图1(第3页):申万、中信行业分类标准历史演进时间轴,列出关键发布时间,展示两行业分类体系的发展脉络及版本迭代节奏。这为读者理解体系稳定性及其调整周期提供了直观认知。
- 图2、图3(第4页):申万和中信行业分类标准决策流程图。申万流程包括对投资收益和主营业务收入利润占比的判定,及考虑发展规划、市场看法和控股公司背景等,说明分类的层级细致与复杂。中信分类同样结构化归类,强调多层次判定和例外情况处理,体现分类规则的实务操作细节。
- 图4(第5页):以申万一级行业为基准的行业分类不一致分析条形图,左轴为不一致公司数量,右轴为该类公司在对应申万行业中所占比例。机械设备行业不一致公司数最高,综合、采掘、有色金属行业的比例亦较大,显示部分行业归属模糊,分类标准间存在显著分歧。
- 图5(第6页):各申万一级行业的成分股在中信一级行业中的分布数量。机械设备集中分布于16个中信行业,是分散度最高的行业,推动行业重分类的需要。
- 图6(第9页):基于文本分析的行业聚类流程,包括爬虫抓取、文本预处理、特征提取(Word2vec)、相似度计算与K-means聚类等步骤,体现技术实现路径。
- 图7(第10页):Jieba分词具体流程详解,多步骤保证分词的准确性,应对中文分词挑战。
- 图8(第11页):Word2vec CBOW与Skip-gram模型示意图,展示两种训练方式和模型框架,有助理解词向量获取。
- 图9(第12页):K-means聚类示意图,以二维点群为例逐步划分成簇,帮助理解基于相似度的行业划分过程。
- 图10(第18页):三套行业分类下不同行业公司数数量对比柱状图,显示基于文本的分类行业公司数量分布更加均衡,避免了某些行业公司过多或过少的结构性不合理。
- 图11(第19页):不同行业分类下行业内股票股价相关性折线图,基于文本聚类的新行业分类与申万、中信二级行业相关性曲线高度接近,支持新划分的协同性与准确度。
- 图12(第20页):行业内横截面收益率标准差比较图,再次验证新行业分类公司股价表现的一致性。
- 图13(第21页):中证500增强组合超额收益曲线比较,显示新行业分类在组合构建中的应用效果与传统分类相当,且略有超额表现。
---
四、风险因素评估
- 模型风险: 依赖历史数据及文本信息,未来市场结构或信息披露变化可能导致模型失效或准确率下降。
- 数据不一致性风险: 上市公司主营产品披露详略不一,导致部分公司可能被误归类,影响分类准确性与应用效果。
- 技术限制风险: 目前仅采用Word2vec模型,算法更新迭代快,新模型的适应性和改进性仍待验证。
- 动态调整风险: 行业演变快,固定分类难以完全反映企业业务多样化,需持续修正优化。
报告最后特别提示了上述风险,并提醒投资者理性对待模型及结论[page::24].
---
五、批判性视角与细微差别
- 间接偏见与数据来源限制: 主要依赖上市公司披露的主营业务附注信息,信息披露的非统一性与主观性可能导致数据偏差,进而影响分类结果的客观性。
- 分类深度与细化不足: 虽然采用文本分析方法,但聚类数量选择了100,相较于申万、中信二级行业数量相近,可能存在过细或过粗的工整划归,影响实用性。
- 技术模型单一: 本文仅测试Word2vec模型,未尝试如BERT等更先进的NLP模型,可能限制了文本理解的深度和准确度。
- 行业动态反映不足: 报告没有提及如何应对公司产业变迁或转型带来的主营产品变化,对模型的实时更新机制未做说明。
- 回测差异有限,提升有限: 中证500增强策略收益和信息比率仅有小幅变化,实际应用中是否显著超过传统分类体系仍需长期验证。
总体上,报告采用了比较谨慎和透明的态度描述限制并指出改进空间,避免了盲目乐观[page::22,24].
---
六、结论性综合
本报告探索了一种创新的行业分类方法——基于上市公司主营产品相似度的文本分析及聚类划分,针对传统行业分类体系存在的行业划分散乱、不一致等问题,提供了新的解决思路。该方法通过现代NLP技术实现:
- 利用Jieba对公司主营产品文本进行分词,结合Word2vec建模,量化上市公司主营产品间的相似度。
- 应用K-means等聚类算法实现行业重分组,行业数量设置为100,与主流分类体系二级行业数量相当。
- 实证分析显示,新行业分类的行业内部成分数量分布更均衡,减少了行业聚集过度不合理现象。
- 行业内股票股价相关性与传统行业分类相近,行业内收益率标准差指标也显示较好表现。
- 基于新分类的中证500增强策略历史回测表现略优于申万二级行业分类,年化超额收益提升显著,表明新分类方法在投资组合管理中的应用潜力。
- 该方法采用的主营产品明细来自上市公司年报附注,披露不一致及数据完整性是限制该方法准确性的因素,且现有模型(Word2vec)对文本理解还有进一步提升空间。
- 报告明确指出量化模型依赖历史数据,未来存在失效风险,建议持续优化语料库和词向量模型。
综上,基于主营产品文本相似度的行业分类方法,为A股市场行业划分提供了科学且技术前沿的补充方案,有助于更好地描绘行业动态演化,提高分类的准确性和投资应用价值,具有一定的理论与实务推广前景[page::22].
---
溯源图片示例
- 封面与目录图片示例:


- 申万与中信行业分类历程:

- 主营业务分类逻辑决策流程:

- 机械设备行业分属多行业:

- 文本处理流程示意图:

- Word2vec模型框架:

- K-means聚类过程:

- 新行业分类公司数量分布更均衡:

- 行业内相关性测试:

- 中证500增强策略实证表现:

---
总体评估
报告系统性强,逻辑清晰,技术理论基础扎实,是一篇具有较高实证价值的行业分类研究报告。报告展示了传统投资型行业分类体系的难点,结合大数据文本处理技术的创新应用,提出了可行的重分类路径和应用示范。其对行业分类构建的实务操作与投资回测均进行了合理论证。
同时,报告强调模型的局限和风险,态度谨慎,亦为未来深入研究提供了明确方向,包括数据丰富度提升、多模型并行、实时动态调整等。
该报告适合金融研究人员、量化投资策略开发者以及行业分析师阅读参考,启发对行业概念及其内涵的多维度思考和持续创新。未来基于大数据与人工智能的行业分类工具,或将成为市场投资与管理的重要组成部分,为资本市场构建更加精准的经济结构认知体系提供坚实支撑。
---
[page::0,1,2,3,4,5,6,7,9,10,11,12,14,15,16,17,18,19,20,21,22,24]