`

Cosmos 1.0: a multidimensional map of the emerging technology frontier

创建于 更新于

摘要

本论文介绍了Cosmos 1.0数据集及其构建方法,涵盖23,544个技术邻近实体,采用100维实体嵌入向量,基于Wikipedia文本及多源数据,通过无监督机器学习方法构建了七个主题技术簇和三个元技术簇。引入了多个技术指数(技术认知指数、普遍性指数、深科技指数、技术年龄指数等),并结合专利、文献、资本投资等多维验证,实现金融科技、公共政策等领域对新兴技术的早期识别与分析[page::0][page::1][page::5][page::9][page::10][page::11][page::12].

速读内容


Cosmos 1.0数据集组成与方法论 [page::0][page::1][page::2]


  • 数据集包含23,544个技术邻近实体(TA23k),其中手动核验100个新兴技术(ET100)。

- 利用Wikipedia2Vec预训练语言模型,结合余弦相似度筛选技术相关文章,构建实体嵌入。
  • 通过维度降维(t-SNE)及层次聚类方法挖掘技术邻近空间的三层级层次结构(TC3元技术簇,TC7主题技术簇和ET100)。



层次结构与聚类结果展示 [page::3][page::4]


  • t-SNE降维图和辐射树状图揭示了TA23k的三个元簇和七个主题簇。

- ET100技术精准归类到七个主题簇中,涵盖生物技术、数据分析、自动系统、纳米技术等。
  • 技术分布从基础设施类(云计算、大数据)到前沿创新(CRISPR、量子计算)体现技术演进轨迹。



多维技术指数及其计算方法 [page::5][page::6][page::7]

  • 技术认知指数基于Wikipedia历史浏览量的线性回归斜率,反映公众与学术兴趣增长趋势。

- 普遍性指数通过技术在不同维基百科页面的出现频次衡量技术的通用性和影响力。
  • 深科技指数结合与“商业”和“研究”主题词的余弦相似度,评估技术的科学深度与创新潜力。

- 技术年龄指数基于Google Books历史数据,确定技术成熟与起源时间。
  • 技术接近指数采用XGBoost分类器判别实体与“技术”概念的关联度,精排技术实体。



技术指标验证与跨数据源相关性分析 [page::10][page::11][page::12]


| 指标类别 | 第三方数据源 | 样本量 | Pearson | Spearman | Kendall Tau |
|---------------------|-----------------------|-------|---------|----------|-------------|
| 认知指数 (3年) | 学术发表趋势(3年) | 19080 | 0.0146| 0.1045| 0.0725 |
| 普遍性指数 | 专利数量(2023年) | 12938 | 0.2043
| 0.2666| 0.1807 |
| 深科技指数 | Wikipedia引用数 | 22109 | 0.1305
| 0.1794| 0.1212 |
| 年龄指数 | 首次发表年份 | 15614 | 0.2897
| 0.4152| 0.2942 |
  • 多维指标与专利数、学术出版、投资资金等高度相关,验证其作为新兴技术识别指标的有效性。

- 认知指数反映的公众关注度与学术活动呈现时间动态变化关系。
  • 普遍性指数有效区分通用技术与专业技术,深科技指数揭示科学研究强度差异。



Cosmos 1.0技术空间二维地图及典型技术簇分布 [page::13]


  • TA23k实体在二维t-SNE空间中清晰分布于七个主题聚类,如数据与分析、生物技术、自动系统等。

- ET100技术标记突出,展示技术点及簇间关系。
  • 空间中呈现“专利法概念”等边缘岛屿,分辨技术与相关非技术实体。



以“可再生能源技术”为例的语义相似度分析 [page::14]


  • 通过计算余弦相似度排名,选出与七个ET100可再生能源技术最相关的30个实体。

- 排名前几位多为光伏、并网、储能等子领域技术,示范了技术生态系统的紧密联系。


多指标过滤策略及技术动态追踪示例 [page::15]


  • 采用技术认知指数、学术增长指数、专利增长指数等多指标联合筛选,聚焦近现代出现且增长显著的技术。

- 展示七个主题技术簇中快速发展的代表技术的月度Wikipedia浏览量动态。
  • 该策略支持研究者、政策制定者及企业提前精准识别高成长技术领域和创新机遇。

深度阅读

Cosmos 1.0: Emerging Technology多维映射数据集研究报告详细解析



---

一、元数据与概览(引言与整体概览)



报告标题:Cosmos 1.0: a multidimensional map of the emerging technology frontier
作者:Xian Gong、Paul X. McCarthy、Colin Griffith、Claire McFarland、Marian-Andrei Rizoiu
机构:悉尼科技大学、澳大利亚国立科学研究组织(Data61)等
发表时间:未明确精确日期,但数据内容至2023年,预计2024-2025年间。
主题:提出并发布一套涵盖23,544个技术相关实体的多维技术映射数据集Cosmos 1.0,重点关注如何识别和分类“新兴技术”及其相关的技术邻近领域。数据集结合了文本挖掘、多样本源和多指标构建,旨在服务科研、政策和产业决策。

核心论点:当前识别新兴技术的多靠“专家顶层设计(top-down)”方法或单一数据源,缺乏系统且可持续更新的“底层数据驱动(bottom-up)”数据库。Cosmos 1.0基于维基百科及NLP技术,构建了一个结构化、层次化的技术邻近实体宇宙,包含诸多定量指标,提供可追踪、动态的技术发展全景。
评级与目标价:此报告为学术性数据集发布,无投资评级或目标价。

作者旨在传达:
  • 通过基于维基百科实体嵌入向量、机器学习聚类及多维外部指标构建的“技术邻近空间”,实现对新兴技术的广泛、动态识别与分析。

- 数据集包含七个主题技术簇(TC7)、三个元技术簇(TC3)及手工验正的100个新兴技术(ET100),并构建“技术意识”、“普适性”、“深度技术”等定量指标。
  • 该数据集为多元、多尺度、可迭代更新的技术探索工具,适合政府、学术和企业决策参考。


---

二、章节深度解读



2.1 摘要与背景(page 0)


  • 报告定义“新兴技术”不仅指全新品类,也包括现有技术的新应用,强调其对经济竞争力和持续创新的重要性。

- 当前识别方法多为定性专家评审(OECD、WEF、MIT等年度报告),定量方法受限于数据异质性和“顶层设计”模型局限。
  • 文献、专利、新闻是传统核心数据资源,约89%相关预测基于此,但依赖关键词计数等表层特征。

- 作者指出文本挖掘、NLP和大型语言模型(LLM)能揭示技术语义及潜在结构,丰富新兴技术识别手段。

2.2 数据集组成与工作流(page 1,图1)


  • Cosmos 1.0由两大部分:

1. 技术邻近实体TA23k(约23,544个实体,含100个人工验证的ET100新兴技术);
2. 多项技术指数(技术意识、普适性等),同时融合维基百科和第三方数据(专利、学术、商业)验证指标准确性。
  • 采用“自底向上”方法——以维基百科为语料,基于Wikipedia2Vec学习100维实体嵌入,构建技术空间向量表示。

- 通过维基实例化(instance of)过滤、页面浏览量筛选(二次清洗)得到TA23k集合,随后采用降维(t-SNE)和层次聚类(AHC)划分TC7和TC3两层次聚类。
  • 图1清晰展示数据收集、过滤、聚类、指标创建到最终数据集及应用工具链。


2.3 数据收集与实体筛选(page 2)


  • 利用维基百科文字和链接结构,解决专利/文献名称命名不一问题,优选稳定统一的实体命名。

- 应用Wikipedia2Vec,结合cosine相似度,从“List of emerging technologies”种子开始,获取约10万相似词/实体,保留实体部分形成54,861个候选(TR50k)。
  • 应用Wikidata“instance of”标签去除明显非技术实体后剩29,030,再通过近3年维基页面浏览量过滤,剔除处于访问底层10%(<2500票)的实体,最终剩TA23k(23,544个技术邻近实体)。

- 该筛选保证技术实体既包容初步阶段,也抑制噪音。验证显示90%以上OECD定义技术符合访问阈值,说明方法合理平衡了覆盖与纯度。

2.4 技术邻近空间层次结构定义(page 3-4)


  • 明确区分技术相关实体(TR50k)、技术邻近实体(TA23k)、新兴技术(ET100),层层递进,解决语义边界模糊问题。

- 使用t-SNE将100维嵌入降至2维用于可视化和后续聚类。
  • 采用自底向上层次聚类(AHC),通过树状图发现技术空间有2个最佳分群层次:7个主题技术簇(TC7)和3个元技术簇(TC3),分别对应细粒度和宏观类别。

- ET100通过Google专利计数等指标筛选,每簇中人工评估前1,000技术,最终选择100个权威新兴技术,与主流机构(OECD、WEF)名单高度匹配。
  • 图2展示了层次结构和ET100在整体技术空间中的位置,节点大小映射“普适性指数”,显示不同技术的应用广度。

- 该层次结构促进技术间关系洞察和有针对性探索。

2.5 关键技术指标体系(page 5-7)


  • 构建八大指标类别,覆盖技术流行度、普适性、科学深度、先后时序、技术亲近度等维度,为多角度评估提供数据基础。主要包括:


1. 技术意识指数(Technology Awareness Index)
- 利用维基百科三年前后页面浏览量年线性回归斜率作为技术公众与科研关注度增长率的代理。

2. 普适性指数(Generality Index)
- 通过Wikipedia API接口搜索技术关键词,计算该词在多少维基页面出现(文档频率)反映技术应用的领域广度。
- 指数较高者为通用型技术,低者表明专用型技术。

3. 深度技术指数(Deeptech Index)
- 衡量技术在科学研发上的深度和创新潜力。
- 利用Wikipedia2Vec中嵌入向量对比技术实体与“商业”与“研究”主题种子文章的余弦相似度实现,综合工商与科研属性,突出由严谨R&D驱动的技术。

4. 技术年龄指数(Age of Tech Index)
- 利用谷歌书籍数据库跟踪技术关键词自1900年以来出现频率,定义达到最大历史出现次数5%阈值年份为技术诞生年,反映技术在社会和学术上的广泛认可时间。

5. 技术亲近度指数(Technology Proximity Index)
- 基于XGBoost分类器和ChatGPT辅助手工筛选,判断Wikipedia实体是否真正满足技术定义,衡量其与技术核心理念的接近度概率。
  • 这些复杂指标为技术生命周期、产业价值和学术关注提供多维度定量评估,构建全面技术画像。


2.6 详细数据结构(page 7-8)


  • Cosmos 1.0数据表格中,每行对应一个技术邻近实体,包括以下重要字段类别:

- 实体身份与分类(WikiEntity,TC3/TC7标签,ET100标记,二维t-SNE坐标)
- 100维实体嵌入向量,用于语义搜索和聚类分析
- 流行度指标(近5年维基页面浏览数及其线性增长斜率)
- 广度与深度指标(Generality
Index、DeepTechIndex等)
- 时间指标(技术年龄、首次文献发表年份)
- 学术信号(发表文献数、增长趋势、Google Scholar作者数量)
- 产业信号(累计融资、专利数量及增长趋势)
- Wikipedia元数据(全文、摘要、外链、参考文献链接计数、多语言页数量)
  • 这套数据结构体系完善支持学术研究、产业分析、政策制定。


2.7 多维评估框架(page 9-10)


  • 通过构建三层技术簇与多维指标,逐步形成技术多指标评估、筛选和定位体系,具体表现为:


- 层次结构促进不同层次技术群体的细分与导航
- 嵌入向量挖掘长期潜在关联与主题相似
- 技术意识、普适性与深度技术指标互补,辅助鉴别基础平台技术与专用深度创新
- 时间指标揭示技术生命周期的早晚、成熟度与扩散阶段
- 学术和产业信号反映技术的研究热度和商业吸引力
- Wikipedia内容与链接结构辅助语义丰富与核心技术筛选
  • 通过典型技术案例(如自主系统簇内普适性排序及技术生命周期图)说明指标应用,为技术生命周期和广度深入解读提供数据支撑。


2.8 技术指标与外部数据验证(page 10-12,表1)


  • 采用多种相关系数(Pearson、Spearman、Kendall Tau)验证技术指标的合理性与实效性,映射外部权威数据如OpenAlex学术出版、Google专利、Crunchbase融资及Google Scholar学者计数。

- 关键结果包括:
- Awareness Index(3年)与学术出版数呈显著正相关,表明公共关注增长与研究活跃度一致。
- Generality Index与专利数和融资额呈正相关,验证了该指标反映广泛应用和创新潜力。
- Deeptech Index与维基引用文献数和学者计数正相关,支持其衡量科学深度和技术研发力度的有效性。
- Age of Tech Index与首次发表年份高度相关,确认该指标揭示技术诞生与社会关注的合理映射。
  • 由此,Cosmos 1.0指标体系被验证为可信度强的多维技术评价工具。


2.9 ET100与其他新兴技术列表对比(page 12)


  • 选用OECD发布的权威“新兴技术”清单作为对比对象。

- ET100列表更细化,涵盖OECD定义下的特定应用和创新;例如IoT细分为边缘计算,生物技术细化至个性化医疗。
  • 高度重叠(77.5%完全匹配、92.5%出现于OECD列表),但ET100强调数据驱动的自动更新和细粒度聚类结构,补充OECD专家主导的顶层规划。

- ET100兼顾技术最新动态捕捉,更契合市场和研发实际,有助于频繁迭代和快速适配。

2.10 应用示例与技术地图(page 12-15)


  • 以t-SNE二维散点图(图4)展示TA23k全部实体位置,依据TC7簇色彩编码,ET100以星星标识突出。

- 发现三组显著“离群岛”:
1. 传统知识系统(哲学、宗教等非技术概念)
2. 专利法概念(法律工具、行政程序)
3. “可再生能源技术群”核心区域,含“智能电网”、“光伏”等相关ET100技术,技术意义明确,待深入分析。
  • 利用主题内的余弦相似度选出与“可再生能源技术群”密切相关的前30技术(图5),高排名的多为太阳能光伏相关子领域,验证空间语义划分的准确性。

- 多指标过滤策略示例(图6)通过筛选意识、学术及产业增长指标,选出每个主题技术簇内3个迅速发展的前沿技术,方便用户聚焦动态热点,辅助战略决策。

---

三、图表深度解读



图1(page 1):Cosmos 1.0数据集创建工作流

  • 描述从起始的维基百科“新兴技术列表”抓取原始实体,经过维基数据属性过滤、浏览量筛选,生成TA23k。

- 随后进行降维、层次聚类,构建技术分类体系和计算多项索引,最终形成Cosmos 1.0 数据库存储与多元应用模块。
  • 此图清晰展现体系架构与数据流向,为用户理解数据生成过程与后续多维度使用奠定基础。


图2(page 4):Cosmos 1.0 Radial Dendrogram(径向树状图)

  • (a)展示全TA23k的层次聚类结构,外圈两条虚线分别对应7个主题簇(TC7)和3个元簇(TC3)的最佳分割。不同颜色代表三个元簇。

- (b)聚焦ET100的分布,显示其在TC7和TC3层次中的归属和层级关系。圆圈大小对应“普适性指数”,反映技术应用范围广度。
  • 这幅图很好反映了技术的分层关系及大类内细分,辅助技术间关联理解及定制分析。


图3(page 9):

  • (a) “自主系统”主题内ET100技术普适性排名柱状图,展示“小卫星”、“传感器”、“电动车”等广泛应用技术指标最高。

- (b) 根据技术“年龄差距”(Age
ofTechIndex - FirstPubYear)划分早期与成熟技术,展示两者例子,反映技术被广泛认可时间与首次发表时间间的差异,辅助理解技术成长路径。

图4(page 13):Cosmos 1.0 t-SNE二维技术分布地图

  • 23,544个技术实体根据语义向量降维映射并按七簇颜色区分,ET100技术用星形标注。

- 三个明显离散群分别为“传统知识体系”、“专利法概念”及“可再生能源技术群”。
  • 地图有助于直观理解技术间语义相似度和主题聚合,方便用户探索技术群体与关系。


图5(page 14):可再生能源技术群相关联排名前30技术

  • 横轴为与7个ET100可再生能源技术之间的平均余弦相似度。

- 颜色区分太阳能及光伏相关的细分技术(橙色),展现细粒度子领域扩展,体现技术生态系统内的相关性。

图6(page 15):TC7主题内多指标筛选出的快速发展技术月维基浏览量趋势

  • 每个TC7区域过滤获得3个前沿快进技术,展示其2021年至2024年初月度关注度起伏。

- 体现技术受关注度如何随着时间推移波动,以及筛选策略的实用性。

---

四、估值分析



本报告并非传统金融投资标的分析,无直接估值建模、目标价设定及敏感性分析。其“估值”意义主要体现在:
  • 基于多来源指标准确量化新兴技术的市场关注度、科研活跃和技术深度,作为技术价值和潜力的代理指标。

- 结合专利计数、资本募集等产业信号,为技术的商业估值、技术成熟度及投资导向提供数据支持。
  • 利用层次聚类以及嵌入语义空间定位技术生态,辅助理解技术间互补和竞争关系,间接影响技术估值判断。


---

五、风险因素评估



报告主要聚焦技术数据构建、方法论设计和多维指标验证,未专门独立章节详述技术风险,但从内容可归纳以下风险与局限:
  • 数据时效性风险:基于2018年维基百科版本及Wikipedia2Vec模型,可能未完全覆盖最近爆发的技术或新兴概念。

- 噪声与筛选准确性风险:Wikidata实例化标签和页面浏览量等筛选步骤可能漏掉早期潜力技术(低曝光)或包含边缘非技术实体。
  • 指标单一性局限:某些指标(如普适性指数、意识指数)主要基于文档频率或页面浏览,可能受热度和语言文化差异影响,不完全等同技术价值。

- 引用数据覆盖不全风险:第三方验证数据未覆盖全部实体,导致部分指标验证可能不足,存在数据间断和异质性。
  • 专家主观参与:ET100人工筛选环节带来一定主观判断倾向。


报告通过融合多维指标、人工与自动结合筛选及对比文献数据,努力减轻上述风险,且明确预留未来动态更新机制缓解数据老化。

---

六、批判性视角与细微差别


  • 报告在方法论上全面严谨,融合多数据源与多指标,相较传统“专家顶层设计”,更具动态更新潜力和多角度解析力。

- 然而,报告对低曝光潜力技术(非主流认可)关注不足,强调了对审稿者和决策者的“早期技术识别”能力的局限。
  • 层次聚类结果虽事先基于一定算法参数选定(7和3簇为最优),但最终簇数存在主观选择空间,可能影响分类结果的稳定性。

- 技术邻近实体定义中“噪声”成分的保留,有利于包容性但可能影响某些应用精度,需结合场景需求调整。
  • 技术亲近性分类器训练样本由ChatGPT辅助选取,加之XGBoost模型,准确率约86%,虽尚可,但仍留存在二分类错误风险。

- 文中大量指标基于维基百科和Google产品数据,具有地理、语言和文化的偏倚风险,未深入讨论国际多样性影响。

总体评估,报告提出了一套创新且可迭代的技术识别工具,为新兴技术多维度定量分析提供了坚实基础,但仍需结合行业动态、跨文化认知及时更新和专家验证。

---

七、结论性综合



Cosmos 1.0报告系统性描述了一个大规模、多维度、层次化的新兴技术与技术邻近实体数据集的构建过程与应用框架。其关键贡献和发现包括:
  • 数据集规模与结构:共计23,544个技术邻近实体,基于Wikipedia2Vec的100维嵌入,通过t-SNE降维及层次聚类划分出3个元簇(TC3)与7个主题技术簇(TC7),并手工确定了100个关键新兴技术(ET100),覆盖科技前沿广泛场景。

- 创新的多维指标体系:包括技术意识指数(公众和学界关注度增长)、普适性指数(技术应用广度)、深度技术指数(科学及研发深度)、技术年龄指数(社会认可时间)及技术亲近度指数(实体核心技术判定),实现了对技术生命周期、研发趋势和产业活力的综合映射。
  • 方法论优势:自底向上的实体筛选及层次聚类,结合多样数据过滤与验证,弥补了传统专家主导和单数据源的限制。采用维基百科作为统一命名权威来源,有效统一不同称谓与领域边界。

- 实证验证力度强:多指标与第三方权威数据(专利、出版、融资等)显著相关,表明指标合理性与科学性。
  • 应用示意清晰:二维技术地图展示技术群落分布及新兴技术定位,“可再生能源技术”案例详细解析技术聚合与相关性,“多指标筛选”示范动态追踪快速发展的技术。

- 数据开放与未来扩展:数据集与代码均公开,便于社区迭代更新与定制开发,适应技术演变。

总体态度:报告清晰展示了Cosmos 1.0作为一个全新、多维、多尺度的技术前沿绘制工具的能力与潜力。它不仅提供了科学合理的新兴技术识别框架,也为相关领域的政策制定、产业布局和学术研究提供了强有力的定量支持。尽管存在时间滞后、数据偏倚及筛选噪声等固有限制,整体方法的创新性和可操作性极大地推动了新兴技术的动态识别与规模化分析。

---

参考溯源标识示范

  • 引用综合自原文第0-16页内容,示范格式如:[page::0,1]、[page::3,4]、[page::10,11]等。


---

总结



Cosmos 1.0是一套创新的、多层次、新兴技术知识图谱和多指标评估数据集,通过应用自然语言处理、嵌入表示、层次聚类及多源数据融合,开创了新兴技术全景动态识别和跟踪体系。其公开数据与指标为研究、政策和产业界洞察技术前沿动态提供坚实的量化工具和决策基础,具有鲜明的学术和实用价值。

报告