`

A Rule-Based Methodology for Company Identification: Application to the Downstream Space Sector

创建于 更新于

摘要

本报告提出了一种基于规则的命名实体识别方法,用于识别法国下游空间领域的企业。该方法结合行业代码过滤、文本词汇筛选、上下文检测与正则表达式规则,成功从新闻语料库中检测出88家新的下游空间公司,显著丰富了行业数据库约33%。方法区别于纯统计模型,强调专家规则制定,提高了识别精度和效率,为新兴行业企业挖掘提供通用框架 [page::0][page::16][page::18][page::27][page::28]。

速读内容

  • 研究背景与目标 [page::0][page::1]

- 聚焦于“New Space”时代的下游空间产业,即利用空间数据和技术提供价值增值服务的企业群体。
- 传统产业分类难以准确识别下游公司,因活动代码分散且多样化。
- 本文提出基于命名实体识别(NER)的规则方法,使用法国数字化新闻语料提取相关下游公司名称。
  • 数据来源与构建规则的总体框架 [page::3][page::4][page::5]


- 数据来自Factiva、Europresse新闻数据库、INSEE的Sirene法人企业登记库以及已知下游公司数据库。
- 四大识别规则:
1. 依据行业代码(APE)及法人类别筛选Sirene企业,形成限制性公司字典。
2. 新闻文本中只匹配以大写字母开头的单词,减少误匹配并缩短计算时间。
3. 仅匹配出现在预定义业务及下游空间术语语义上下文30词窗口内的公司名。
4. 利用下游空间企业常见关键词的正则表达式进一步筛选。
  • 核心规则详解及关键词/行业代码选择 [page::12][page::13][page::14][page::15]

| APE代码 | 描述 |
|----------|------------------------------|
| 26.30Z、30.30Z 等 | 通讯及航天设备制造相关 |
| 61. | 电信活动 |
| 62.
及63.* | 软件、数据处理和科研相关 |
| 66.22Z | 保险经纪业务(如参数保险产品) |
| ... | 总计33种细分子类,覆盖广泛空间下游应用 |

| 法人类别代码 | 描述 |
|------------|------------------------------|
| 3120 | 外国注册商业公司 |
| 5499,5460 | 有限责任公司(SARL) |
| 5599,5699 | 股份有限公司(SA) |
| 5710 | 简化股份公司(SAS) |
| 5800 | 欧洲公司 |
| 6599 | 民事公司 |
  • 文章筛选与处理结果 [page::6][page::17][page::18]



- 开始数据中,有690万活跃企业。
- 规则1过滤后剩约65万(降90%)。
- 规则2(大写首字母)匹配后剩30,084家(再降95%)。
- 规则3(上下文筛选)筛选至22,862家。
- 规则4(正则表达式)最终降至1,475家人工复核。
- 本次应用识别出58家新增下游空间公司,另有30家“副产品”公司通过共引关系确认,合计88家企业新增,数据库规模提升33%。
  • 规则性能评估与统计模型对比 [page::20][page::21][page::22][page::23][page::24]



- 规则1、规则2组合过滤能力显著,过滤比0.04,且极高保留70%以上已知公司。
- 规则3上下文约束过滤能力有限(过滤比0.76,保留率0.95),但仍有助于降低噪声。
- 与SpaCy预训练统计NER模型相比,规则方法标记企业数量显著更少且识别出更多已知公司(规则法探测120,SpaCy仅83),表现更优。
  • 方法实施时间与未来复现建议 [page::25][page::26]

- 总应用周期约12天:文章下载4天,算法执行3天,人工审核5天。
- 建议若行业稳定,年度复用可利用缩短时间,仅处理当年文章。
- 如行业有结构性变革,应重新调整查询词、行业代码及正则表达式规则。
  • 研究局限与未来改进方向 [page::27][page::28][page::29]

- 目前高度依赖专家知识,规则制定费时且可能限制创新企业的捕捉。
- 提出结合规则与统计机器学习方法,先用规则构建企业字典训练模型,以增强自动化识别能力。
- 利用共引分析挖掘企业间潜在业务合作和生态系统关系,丰富产业网络信息。
  • 附录部分:主要新闻来源统计及每篇文章中捕捉公司数量分布 [page::34]



深度阅读

金融研究报告详尽分析报告


报告标题与概览


报告标题为《基于规则的方法论用于公司识别:应用于下游航天领域》(A Rule-Based Methodology for Company Identification: Application to the Downstream Space Sector),由Kenza Bousedra与Pierre Pelletier撰写。该研究发布于2022年,聚焦于如何识别参与下游航天活动的公司,即利用航天数据和技术提供服务或产品的企业。报告核心论点在于提出并验证一种基于命名实体识别(Named Entity Recognition,NER)的文本挖掘规则方法,突破传统行业分类难以识别新兴下游企业的局限,通过对法国数字化新闻报刊文本进行处理检测出88家新增的下游航天公司,数据库规模提升约33%。该方法不仅适用于本地化市场,也为未来扩展到其他行业或地区的类似研究提供了框架和指导。

总结来看,本报告旨在创新空间经济统计与公司识别方式,通过文本数据挖掘辅助构建具有行业代表性的公司数据库,为监测和评估“新空间”动态产业格局提供技术手段。报告中未列出评级或目标价,主要侧重于方法论创新和实证验证。

---

章节深度解读



1. 引言与研究背景


报告首先介绍航天产业结构性转型“新空间”(New Space)背景,强调数字化经济推动航天商业潜力提升,带来新的市场机会和商业模式变革。空间经济传统被划分为上游与下游两个主要环节:
  • 上游集中于航天器、发射器及地面系统设计制造;

- 下游则涉及商业化利用航天数据和设施,提供通信、遥感、导航等增值服务。

现有输入-输出矩阵等产业分类方法难以准确识别下游产业因其活动代码高度分散,导致产业规模测算存在盲区。本研究提出避开直接依赖行业代码,转而基于公司实际活跃度的文本识别方式,促进对下游细分市场及新入企业动态的把握。

2. 方法概览


核心方法基于规则的命名实体识别技术,利用法国新闻数字平台Factiva和Europresse采集文章,搭配法国国家统计局(INSEE)的Sirene登记公司数据库,以及内部已知下游航天企业库进行交叉比对。

方法流程四条主要规则:
  1. 基于企业所属行业代码(APE代码)及法律性质限制Sirene数据库(详见表1、2),构建符合下游航天活动相关行业特征的企业词典;

2. 利用文本过滤只保留首字母大写的词,减少误匹配和计算量;
  1. 利用上下文词汇(词汇包括与企业及航天活动相关的专门词汇,详列于表3)限制识别范围,提升语义相关性判断,减少误检;

4. 通过常见字符串正则表达式(regexp)进一步过滤公司名称,筛选典型下游公司名称特征(详见表4)。

此规则集结合全名匹配及上下文语义限制,使列表规模由原始690万家活跃法人单位缩减至1475家目标企业,极大提升了人工校验效率。

3. 具体数据收集与查询构建


文本样本包括48,900篇文章(Factiva收录28,400,Europresse20,500),涵盖2000年至2022年间的新闻报道。查询语句设计既包含空间相关关键词又兼顾语言特性(法英双语关键词,最终限定为法语),使用布尔逻辑精准锁定下游航天相关文本,防止引入非相关地理信息产业文本,查询示例位于Box 3章节。

Sirene数据库子集通过筛选33个特定细分APE行业代码与6个法律状态代码有效定位下游航天相关领域,极大缩小候选公司规模。

4. 规则应用与识别结果

  • 应用规则1,Sirene数据库规模从6,900,000减少至650,000;

- 规则2过滤首字母大写词后,匹配公司数进一步降至30,084;
  • 规则3上下文约束后,筛选至22,862家;

- 规则4基于正则表达式过滤,最终得1475份名单供手工确认;
  • 手工校验确认58家新增企业符合下游航天企业标准,同时识别出30家通过共引(cocitation)方式间接相关企业;

- 与已知数据库220家企业结合,形成完整数据库334家,下游航天公司数较之前提升33%。

该流程详见图4,体现了各阶段筛选效率与结果递减情况。

5. 方法验证与对比评估

  • 通过与“已知企业库”交叉验证发现,无论全文入库还是查询文本,仍有14%已知企业不在采集范围,主要因其曝光度不足或年轻;

- 规则二(首字母大写)过滤极具效率,保留98%已知企业,过滤效率约4%;
  • 规则三(上下文词)降低25%无关数据,保留95%已知企业。适度调整上下文窗口影响过滤精度与召回率;

- 将规则方法效果与SpaCy深度学习预训练统计方法对比(详见图6):SpaCy模式虽标注更多实体(268,015个),但捕获已知企业较少(83家);规则方法以较小企业池(约22,862)实现较高识别率(120家),证明手工规则更适合此专业领域的精准识别任务。

6. 时间成本与方法应用频率

  • 方法开发阶段耗时约一年,包含规则构建、调整与测试;

- 实施阶段主要三步:文章下载约4天,自动匹配与规则应用3天,手动筛选5天,总计约12天;
  • 若未来仅年度增量更新,无需重构规则,时间成本可显著降低,建议年度更新频率;

- 当下游行业出现结构性变动时,需重新评估调整查询关键词、行业代码及规则4的正则表达式,确保方法适应性。

7. 讨论与未来改进方向

  • 研究创新性提出结合专家知识与规则系统的文本挖掘法,成功识别新兴细分产业中非标准行业编码企业;

- 规则方法依赖专家深度介入,当前自动化程度有限,未来可考虑结合机器学习,训练定制NER模型,以提升自动化和拓展性,避免过度依赖严格规则;
  • 结合规则与统计机器学习方法,利用规则增强训练数据集,有望优化识别效果;

- 识别出的“共引”企业提示产业链间合作或竞争关系潜在网络,未来可探究共引网络构建产业链关联图谱,深化产业生态理解。

---

图表深度解读



图1 规则基识别流程图(第4页)


图1展示了数据源(INSEE/Sirene法人数据库、Factiva与Europresse新闻数据库、现有企业库)、识别策略及文本处理的四条规则流程,箭头直观表达数据流转顺序。包括:
  • 规则1筛选法定实体行业代码与法律状态构建字典;

- 规则2提取大写词形成候选词列表;
  • 规则3结合上下文语义过滤,提高语义相关度选择可能实体;

- 规则4应用正则表达式规则实现最终名称筛选,输出可供专家复核的公司名列表。

该流程图清晰阐释了整套方法的多层次、分步骤处理思想,有效利用结构化与非结构化数据融合。

图2 下游空间查询年度文章发表量(第6页)


图2为2000-2022年期间通过查询获得的报刊文章数量趋势,年发表数量在2000-2500篇波动,2017年达到峰值约3100篇,2021年略有回落。
此时间分布展示了数据充足性和行业话题热度,支持方法的长期适用性和文本数据丰富性。

表1 选择的行业代码(第14页)


表1系统列出33个适用的法国产业分类子类代码,包括通信设备制造(26开头)、航空航天制造(30.30Z)、计算机及软件(62开头)、电信(61开头)、保险代理(66.22Z)等,精准对应下游航天相关业务。
此表体现了专业筛选维度,规避非相关行业噪音,明确规则1的实施依据。

表2 选择的法律状态代码(第14页)


表2列举6类企业法律形态代码,如有限责任公司(SARL)、股份有限公司(SA)、简化股份公司(SAS)等,排除非营利及个体。体现排除逻辑,减少非活跃及非合规主体干扰。

图4 规则应用结果汇总(第18页)


展示规则逐步筛选企业数量:原始690万->规则1后65万->规则2后3万->规则3后2.28万->规则4后1475,最终确认58家新增企业及30家共引企业。
数字递减显示规则有效减少审查工作量,同时保持重要候选;流程中融合了自动化筛查与专家判断。

图5 查询对已知企业影响(第21页)


图5描述已知企业库220家经新闻数据库覆盖与查询过滤后的遗失情况。31家未被新闻提及(曝光不足/年轻企业),61家未被查询关键词捕捉,其中30家因时间问题,12家查询关键词匹配误差。
揭示方法潜在局限及客户应对策略,点明提升QUERY覆盖率需求。

图6 规则与SpaCy模型性能对比(第23页)


规则方法:处理后公司30,084降至22,862,已知公司126降至120;过滤率4%、76%,保留率98%、95%。
SpaCy统计模型:标注企业268,015,已知企业83。
结果显示,基于领域知识规则的识别比纯机器学习模型更适用于本场景的准确识别,体现了专家规则的重要性。

图7 新闻来源分布(第34页)


AFP两个分支合计超1万篇报道,是主要信息源,说明来源集中度高,可能影响样本多样性。可为后续研究扩充采样来源提供参考。

图8 每篇文章识别公司数量分布(第34页)


大多数文章识别出公司数量集中在10家附近,说明样本文本中多数报道涵盖有限企业实体,利于精准匹配和关联挖掘。

---

估值分析


报告以方法论与实证聚焦为主,无直接公司财务数据评估或估值内容,故此部分无具体估值模型或目标价分析。其创新价值集中于精准识别下游航天公司以辅助经济规模测算和产业结构研究。

---

风险因素评估


报告明确指出几类风险因素:
  • 新闻报道覆盖不足及曝光率低导致企业未被识别;

- 法律单位名称与实际新闻中引用名称不完全匹配导致漏检;
  • 查询关键词可能导致相关性低或遗漏;

- 规则严格可能筛除真实下游企业(真阳性漏失);
  • 专家介入造成主观偏见及局限。


风险缓解依赖对查询词、行业选择和规则权衡不断调试,且建议定期更新规则以适应行业变革。

---

审慎视角与细节

  • 该方法依赖较大程度的专家经验知识,规则构建较为主观且耗时,可能受限于知识图谱的广度和深度;

- 统计模型未大量应用自监督机器学习,应尝试结合两者提升识别率和精度;
  • 新闻报道作为数据源受限于媒体关注度和报道偏差,某些新创或小型公司易被漏检;

- 地名、人名冲突的误识别展示了挑战领域,规则虽然限制粗糙但仍有改进空间。
  • 共引企业识别为拓展产业链关联分析创了先例,值得系统开发社交网络分析方法进行进一步挖掘。


---

结论性综合


本报告针对下游航天细分领域公司识别问题,创新性地采用基于规则的命名实体识别方法,通过构建和应用包含行业代码筛选、文本大写词过滤、上下文关键词限制、正则表达式筛选的多层规则体系,有效缩减了初始庞大公司数据库的扫描规模,实现了高效匹配与识别。共计新增88家下游航天公司,较原先数据库规模提升33%,显示该方法在填补传统统计方法短板、发掘新兴领域企业方面有重要应用价值。

详细的图表(如图1、图4)揭示了流程设计的合理性和分步骤筛选效果,表1-4对方法构成元素如行业代码、法律状态等进行了清晰定义。规则效能对比(图6)表明定制规则优于通用统计识别模型,彰显专家知识对于特殊行业文本挖掘的辅助意义。

该方法既有自动执行成分,也不可避免地依赖专家的主观审阅,为未来结合机器学习技术提供了坚实基础。报告最后建议定期更新规则、调整查询关键词以适应产业结构变化,合理规划数据来源采样和自动化水平。

综上,该文献不仅为航天行业经济统计提供了崭新工具,也为产业动态监测、技术融合应用划分了开创性的研究视角和方法路径。其细致的章节结构、丰富的数据资源和严谨的验证手段,均体现了金融与产业数据分析领域的高质量研究标准。

---

参考标注

  • [page::0,1,2] 引言与研究背景介绍

- [page::3,4,5] 方法概览与数据源说明
  • [page::6,7,8,9,10,11,12,13,14,15,16] 规则详解与查询构造;行业代码与法律状态筛选详述

- [page::17,18,19,20,21,22,23,24] 识别结果、方法验证及规则效率评估,对比统计方法
  • [page::25,26,27,28,29] 时间成本分析、讨论与未来改进方向

- [page::34] 附录图表说明与数据统计

(所有引用页均已注明对应页码)

报告