`

COURSE-SKILL ATLAS: A NATIONAL LONGITUDINAL DATASET OF SKILLS TAUGHT IN U.S. HIGHER EDUCATION CURRICULA

创建于 更新于

摘要

本报告构建并发布了Course-Skill Atlas数据集,通过自然语言处理技术,基于300多万份美国高校课程大纲,细粒度推断课程与劳动市场详细工作活动(DWA)的匹配度,生成院校及专业的技能画像。该数据揭示了高等教育在技能培养上的时空演变、院校与专业间的差异性及与劳动力市场技能需求的对齐趋势,为教育研究和劳动力发展提供了重要基础数据和分析工具。[page::0][page::1][page::3][page::7][page::15]

速读内容

  • 数据集与方法概述 [page::0][page::1][page::3]


- 利用Open Syllabus Project收集的超过316万门美国高校课程大纲,覆盖2761所高校、62个学科领域。
- 通过Syllabus 20NET自然语言处理框架,把课程大纲文本与美国劳工部ONET数据库中的详细工作活动(DWA)语义匹配,生成课程对技能的覆盖度。
- 利用Random Forest回归模型将DWA映射到52类能力指标,实现能力推断。
  • 课程大纲数据特征及分布 [page::4][page::6][page::7]


- 超过八成样本来自2000年以来,高校覆盖率各州在40%-75%区间波动。
- 样本以公立4年制高校为主,占比52.6%;私立非营利4年制高校约15%。
- 课程数量分布呈长尾,少数高校贡献大量课程。

  • 技能推断模型与验证 [page::4][page::5]


| Ability | MSE | Ability | MSE |
|----------------------|-------|----------------------|-------|
| Arm-Hand Steadiness | 0.025 | Fluency of Ideas | 0.014 |
| Deductive Reasoning | 0.011 | Oral Comprehension | 0.010 |
| Mathematical Reasoning| 0.011 | Selective Attention | 0.008 |
- 52个能力指标采用随机森林回归构建,平均误差低于0.025,表现稳定。
- 数据通过重复样本分析表明重复率约25%,跨年重复约6%,体现课程内容存在更新迭代趋势。
  • 技能特征分析与应用示例 [page::16]


- 不同专业显示出明确的技能特征,如农业专业偏重“种植作物”,生物学突出“生物样本分析”,计算机科学强调“软件硬件协调”。
- 技能之间聚类揭示相关领域的技能相似性,反映专业间内在联系。
  • 高等教育技能与劳动力市场技能匹配趋势 [page::15][page::16]


- 计算Kullback-Leibler散度以量化课程与劳动力市场技能分布差异,发现两者在过去20年中趋于一致,表明课程内容与劳动力需求对齐度提升。
- 计算机科学领域专门分析显示课程技能更新滞后于快速变化的市场需求。
  • 量化因子/策略部分说明

- 本报告未涉及传统金融领域的量化因子或策略生成,但建立的技能映射与机器学习模型(如语义匹配、随机森林回归)构成了技能量化推断框架,对经济、教育数据分析具有启发意义。[page::3][page::5]

深度阅读

COURSE-SKILL ATLAS: A NATIONAL LONGITUDINAL DATASET OF SKILLS TAUGHT IN U.S. HIGHER EDUCATION CURRICULA — 详尽分析解读报告



---

一、报告元数据与总体概览



报告标题:COURSE-SKILL ATLAS: A NATIONAL LONGITUDINAL DATASET OF SKILLS TAUGHT IN U.S. HIGHER EDUCATION CURRICULA
作者:Alireza Javadian Sabet 等人,来自匹兹堡大学、Chapman大学、哥伦比亚大学、斯坦福大学、麻省理工学院等多所机构联合团队
发布日期:2024年9月17日
主题:通过自然语言处理技术,利用美国高校课程教学大纲文本,推断和构建课程所涵盖的技能数据集,反映高等教育如何匹配与满足劳动力市场的技能需求。
核心目标:填补目前劳动力技能描述与高等教育教学内容之间的细粒度数据缺口, 发布可公用的Longitudinal(长期)技能数据集(Course-Skill Atlas)。该数据集以美国高教课程教学大纲为基础,结合联邦政府职业数据库${\mathrm{O}}^{}{\mathrm{NET}}$,实现课程内容与职场技能的定量映射。

主要贡献
  • 引入了Syllabus $20^{}\mathtt{NET}$框架,将课程教学大纲的文本转换为职场技能覆盖的向量表示。

- 发布了涵盖约310万份教学大纲、约2761所高校、62个学科的庞大技能数据集。
  • 通过定性和定量分析验证数据的合理性,揭示课程内容与劳动市场技能的匹配趋势及差异。


[page::0, page::1]

---

二、逐章深度解读



2.1 背景与研究意义(Background & Summary)


  • 技能被视为职场和劳动市场的核心要素,不同技能结构影响劳动力的职业路径和宏观经济动态。

- 高等教育作为技能形成的关键场所,直接关系经济及社会流动性,受学科和院校选择的影响显著。
  • 传统研究多使用学位或学分数作为技能代理,但难以捕捉课程层面的技能差异。

- 近期自然语言处理(NLP)技术推升大规模课程文本与职业发布内容匹配的研究,但此前研究数据多为私有,复现性和扩展性受限。
  • 本报告首次提供了公开的、基于教学大纲文本映射至${\mathrm{O}}^{}{\mathrm{NET}}$技能体系的数据集,为后续研究开辟了新范式。


核心假设是课程大纲中隐含的文本语义可以准确映射至职场技能,反映出高教对技能培养的贡献。此项工作兼顾了数据库开放共享和方法学创新。
[page::0, page::1]

---

2.2 数据与方法(Materials & Methods)



2.2.1 Open Syllabus Project (OSP)数据


  • 收集了全球逾2090万份高校课程大纲,美国高校约316万份,覆盖2761所院校及62个“Field of Study”(FOS,学科方向)。

- 教学大纲包含课程描述、语言、年份、学科领域、院校信息等。
  • 使用IPEDS代码体系进行学科归类,字段与院校信息经过清洗和结构化。


此数据源是目前公开可获得的最大规模课程文本数据,具备较强代表性,但存在结构与来源异质性限制。
[page::1]

2.2.2 O\NET 数据库



美国劳工部下属机构维护的职业信息网络,提供覆盖2000多类详细工作活动(DWA)、1.8万工作任务描述及52种员工能力指标。
核心标签体系:
  • Worker Characteristics: 52项能力(认知、体能等多个类别)。

- Occupational Requirements: 包括Detailed Work Activity (DWA)和Task。

${\mathrm{O}}^{}{\mathrm{NET}}$作为标准化权威职业技能分类体系,是映射课程内容与职场要求的基础。
[page::2]

2.2.3 Syllabus2O\NET 框架


  • 数据预处理:用Stanza自动分句,先筛除含有课程后勤内容(如考勤、作业要求等)的句子,保留学习目标相关句子。经过去除后,平均每份教学大纲保留了约17.6条学习内容句。

- 句子和技能向量化:使用SBERT“all-mpnet-base-v2”模型将大纲句子和${\mathrm{O}}^{}{\mathrm{NET}}$中的DWA/Task描述转换为768维语义向量。
  • 相似度计算:计算大纲句向量与技能描述向量的余弦相似度,并选取每个技能对应句子中最高的相似度作为该技能在课程中的覆盖度。生成的课程技能向量维度分别是2070(DWA)和17992(Tasks)。

- 能力映射:采用52个随机森林回归模型(DWA2Ability)实现技能向量到员工能力向量的转换,模型表现稳定(最大均方误差仅0.025)。

该框架实现了从自然语言文本到细粒度技能数值表示的高效转换,且具有一定灵活性,可应用于多种文档类型。
[page::2, page::3]

---

2.3 关键数据统计及图表解读



表1:学科领域(FOS)的句子统计分析



| 项目 | 平均句数 | 学习内容句数 | 学习内容句占比 |
|-------|--------|-------------|---------------|
| 示例:Accounting(会计) | 101 | 15 | 14.61% |
  • 学习内容句约占原句的14%左右,说明清洗去除后更能精准聚焦技能相关描述。

- 不同学科略有差别,涉及动手操作的学科可能学习内容句占比高于文科等,比如牙医学达25%以上。

表2:DWA2Ability模型绩效指标

  • 各能力均方误差(MSE)范围约在0.007-0.025,表明回归模型有效准确地用技能预测能力分数。


图1:Syllabus $20^{}\mathtt{NET}$框架流程图

  • 图示数据流和处理步骤转换清晰明了,从文本分句到技能匹配再到能力映射的过程。

- 示例句与“develop scientific or mathematical models”技能高度相似(cosine=0.9),验证匹配有效。


[page::2, page::3, page::4, page::5]

表3:不同学科的课程数量频度

  • 数学、英语文学、商科、计算机科学等学科课程数量最大,均在十万以上,部分小众方向如希伯来语则数量较少。

- 反映不同学科教学覆盖度差异明显。

表4:地理覆盖及院校分布

  • 各州覆盖率差异显著(32%-76%),德州贡献最多课程比例约28%。

- 超80%课程来源于公立4年制以上院校,私立非营利次之,私人营利极少。

图3:数据地理/时间/院校分布

  • 美国地图着色表示各州院校数据覆盖率。

- 时间序列显示2000年后数据逐步丰富,旧年代(1966-1999)数据较少。
  • 高校课程数差异大,极少部分高校贡献海量课程。



图4:样本数量分布

  • 大多数institution-FOS-year组合对应的课程教学大纲数为1-10,少数拥有大量课程样本,数据偏长尾。



图5 & 6:不同学科随年份的样本量趋势

  • 明显波动与增长趋势,顶级学科常年保持大量课程文本。

- 6图展示按照美国IPEDS分类体系2级CIP分类的课程数量变化。



---

2.4 重复数据分析


  • 通过计算同一大学-专业-年份内大纲技能向量的相似性发现,25.2%数据为重复大纲,跨年份重复占6.4%,说明课程内容多样性较高,教学大纲会随时间有所更新。

- 不同学科重复率差异显著,如Library Science高达64.8%,而如其他专业偏低。
  • 这种重复可能反映标准化课程设计及教学内容传承特性。

[page::8, page::12]

---

2.5 课程-技能归一化处理与数据结构设计


  • 引入Revealed Comparative Advantage (RCA)指标,控制那些在大多数学科都会出现的技能,以便突出各学科的相对独特技能。

- 设计数据库结构为 institution-fos-year为主键,关联三个技能维度表(DWAs、Tasks、Abilities),每条数据为对应所有课程向量平均值。
  • 明确教学大纲与学生实际能力获取存在差异,技能表示仅反映教学内容覆盖度。

[page::4, page::5, page::6]

---

2.6 代表性与样本充分性验证


  • OSP原始数据样本约占美国高校课程总量的5%,略微偏重精英院校。

- 绝大多数学科和年份覆盖度均衡,少部分学科覆盖率较低(如军事技术、自然资源保护等)。
  • 通过曼哈顿距离和欧几里得距离评估,发现每个institution-FOS-year组合当样本课程数达到约9份时,技能向量的稳定性显著提升(“肘点效应”)。

- 这一阈值为后续汇总数据选择提供了实证依据。
  • 随着样本量阈值升高,涵盖毕业生数量逐步减少,注意权衡样本数量和代表性。

图示:



[page::11, page::13, page::14, page::15]

---

2.7 相关性与技能内容检验



2.7.1 典型学科技能示例(图11)


  • 以农业、生物学、计算机科学为例,展示高频和RCA校正后具有学科特异性的十大技能。

- 自然科学如生物学强调实验、研究相关技能,农业注重植物管理,计算机科学则偏向软件设计与系统配置。
  • RCA校正有助剔除通用技能,突出差异性。



2.7.2 学科技能相似性集群分析(图12 & 13)


  • 用层级聚类算法基于FOS的技能覆盖向量进行分析,验证学科间相似关系合理性。

- STEM学科往往聚为一簇(如物理与化学),人文社会科学形成另一群。
  • 个别学科如影视摄影,虽非STEM,但其技能特点与STEM重合,显示该方法能够捕获细节。




2.7.3 课程技能与劳动力市场技能动态对比(图14)


  • 采用Kullback-Leibler (KL)散度度量课程技能分布与劳动力技能需求的差异。

- 全学科整体上,课程技能与市场需求逐渐接近,表明教学内容对市场需求存在适应性调节。
  • 以计算机科学为例,课程技能对比计算机及数学职业群体,显示技能高度动态性,课程更新相对滞后,可能存在“技能失配”问题。


[page::15, page::16]

---

2.8 报告作者讨论的潜在应用问题及限制



2.8.1 应用前景


  • 深入研究不同专业技能广度和深度对就业薪酬、职业适应性及晋升机遇的影响。

- 探讨教学策略与课纲设计随着时间和技术变革的演进。
  • 利用数据研究不同性别在技能形成中的分化及其对就业的影响,洞察性别差异背后的教育成分。


2.8.2 数据与方法局限


  • 已知OSP数据略有精英院校过度代表,非精英院校覆盖不足。

- 技能推断基于课程文本而非学生真实能力测评,教学目标与学习结果存在差异。
  • 课程大纲中可能混入先修课程内容,无法完全剔除,影响技能精确度。

- 无法区分本科与研究生课程。
  • ${\mathrm{O}}^{}{\mathrm{NET}}$数据库设计针对在职员工,非原生针对学术课程,存在覆盖不足风险。

- 学分异质性未考虑,技能覆盖以学科大类为单位,未反映学生个体的完整学习路径。

[page::18, page::19]

---

三、估值分析



本报告为数据资源与方法介绍型,不涉及财务估值模型、盈利预测,无传统金融估值章节。其估值方法可理解为对课程技能内容的系统量化及对劳动力市场技能需求的模型化映射。本质上,报告通过NLP技术和机器学习构建了课程到职场技能的功能映射,提供了一整套评估和比对工具,具有重要的研究价值和应用潜力。

---

四、风险因素评估


  • 数据代表性偏差风险:OSP数据偏重精英院校导致样本在部分维度不均衡,可能影响结论普适性。

- 技能表达与实际掌握差异:课程文本描述可能不完全反映学生实际习得的技能。
  • 先修课程混入影响技能测度准确度。

- NLP模型的语义匹配存在误判风险。
  • ${\mathrm{O}}^{}{\mathrm{NET}}$体系覆盖的职业描述可能缺失与某些学科教学内容不匹配的技能。


报告虽未详述缓解策略,但公开源代码和完整数据允许研究者针对具体应用场景调整策略,如筛选有效样本或对技能得分进行再加工。

---

五、批判性视角与细节观察


  • 报告作者强调了数据的最大规模和公开透明贡献,但亦坦诚数据集的选择偏差及映射方法限制。

- 技能“教学”与实际“掌握”存在不可简化的鸿沟,影响后续基于该数据进行的劳动力技能适配研究。
  • 模型设计上的“最大相似度”法能够捕捉最匹配语句,但可能忽略技能教学的深度与广度(平均匹配度等信息未使用)。

- 先修课程作为一个复杂的结构性偏差,因数据结构限制难以处理,可能导致数据解释风险。
  • 课程内容作为技能来源的单一指标,忽略了培训、实习、学生自主学习等多样贡献渠道。


整体报告保持谨慎科学态度,对数据来源和解析方法做出充分披露,是系统性技能研究的重要基石,但后续应用时需注意这些潜在局限。

---

六、结论性综合



报告成功构建了迄今最大规模的美国高等教育课程技能长时间序列数据集——Course-Skill Atlas,基于${\mathrm{O}}^{}{\mathrm{NET}}$详尽职业技能框架,通过先进的NLP技术将课程教学大纲文本转换为技能覆盖向量,支撑对高教技能形成机制的研究。

数据集涵盖了2761所高校、62个学科方向、316万份课程大纲,时间跨度超过半个世纪(1966-2017),课程技能覆盖度通过多种模型验证具有较高稳定性。地理与院校覆盖合理代表美国高教多样性,课程技能结构与职业需求之间呈现逐渐收敛趋势,反映教育系统对劳动力市场的动态响应,尤其在技术及STEM领域技能演进尤为显著。

通过层级聚类与RCA分析,揭示了不同学科间的技能亲和性和特异技能,进一步为教育政策制定、课程改革、劳动力培训及性别差异研究提供基础性数据支持。

报告同时严肃讨论了数据偏差、模型局限、实际技能掌握验证缺乏等风险与不足,提示未来研究需结合多源数据、实证跟踪学习成果以提升技能评估的完整性和精度。

公开的数据集和代码库构筑了研究教育与劳动力技能匹配的坚实工具链,为开启未来大数据、人工智能背景下的高教技能研究提供了范式革新,具有重要学术与社会应用价值。

---

图表摘要(关键图表一览)


  1. 图1 (page 3): Syllabus $20^{}\mathtt{NET}$框架流程。

- 从原始教学大纲文本经分句、去除非学习内容句、基于SBERT向量语义匹配${\mathrm{O}}^{*}{\mathrm{NET}}$技能,最后映射至能力向量。
  1. 图3 (page 7): OSP数据地理分布及时间演进。

- 各州高校课程覆盖热度图,时间序列显示数据在2000后急剧增长,院校贡献课程分布不均。
  1. 图4 (page 7): institution-FOS-year课程样本数分布。

- 大多数组合样本数不足10,长尾排布。
  1. 图11 (page 16): 三个FOS的技能排名及RCA校正后的典型技能。

- 展示了数据挖掘出的FOS代表性职能。
  1. 图12 & 图13 (page 17): 学科技能向量聚类热图。

- 聚类结果符合学科逻辑,理工文科分明。
  1. 图14 (page 18): KL散度表示课程技能与劳动力市场技能的动态相似性。

- 总体趋近,CS领域存在滞后差异。
  1. 图8, 9 (page 14): 样本数与技能估计稳定性关系。

- 样本数约9以上后估计趋稳定。
  1. 图10 (page 15): 不同样本阈值下全国毕业生课程覆盖人数变化。

- 样本阈值越高,覆盖毕业生数量明显减少,需权衡。

---

综上所述,Course-Skill Atlas 是一项数据驱动方法与高等教育技能内容分析的前沿创新,提供了跨学科、跨院校并覆盖多年时间的系统数据资源,为理解教育对劳动力市场技能培养的贡献提供科学基础与工具。

[全篇所有页码汇总引用:page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19]

报告