`

Multilingual hierarchical classification of job advertisements for job vacancy statistics

创建于 更新于

摘要

本报告提出了一种基于预训练transformer的多语言层级分类器,用于将在线招聘广告自动分类至多达2911个职业代码,覆盖24种语言。通过利用波兰官方手工编码的职业数据库及大规模行政数据,结合bottom-up和top-down两种层级概率估计方法,模型在多个层级(1至6位代码)展现出较高准确率,top-down方法显著提升性能。报告详细评估了数据质量、长尾标签分布及多语言翻译对分类效果的影响,并公开了训练数据和模型代码以便官方统计和科研应用 [page::0][page::2][page::9][page::25][page::30][page::34][page::35].

速读内容


1. 研究背景与问题定义 [page::0][page::1][page::2]

  • 开发层级多类别分类器,将招聘广告分类至波兰KZiS职业代码体系,代码长度从1位到6位。

- 利用ISCO、KZiS及ESCO等国际与国家职业分类标准,结合在线和行政数据,实现跨24种语言的职业编码。
  • 提出面向官方统计的概率估计模型,保证层级预测的一致性。


2. 数据来源及质量控制 [page::4][page::11][page::17][page::19][page::20]

  • 核心数据包括波兰公共就业办公室的电子招聘数据库(ePraca)、两套专家手工编码的招聘广告数据集、官方职业词典及其他辅助词库。

- ePraca数据库中超82万条招聘信息,覆盖2468个职业代码,数据经过清洗和分层抽样。
  • 专家编码数据质量经多次复审和一致性检验,六位代码的专家间一致率约60-70%,一级代码一致率达85%左右。

- ePraca编码与专家编码的最高一级代码一致率达约79%,揭示数据编码存在一定的不确定性。

3. 层级多类别分类方法 [page::5][page::6][page::7]

  • 实现了bottom-up(叶节点分类后汇总父节点概率)和top-down(基于条件概率的节点逐级分类)两种方法。

- bottom-up简单易用但忽略层级结构,top-down更符合层级一致性要求且性能优于bottom-up。
  • 分类任务涉及2911个职业代码,数据严重长尾,许多职业样本不足10个。

- 采用class-wise log loss及交叉熵衡量分类性能,关注概率估计质量和召回率。

4. 模型架构与训练策略 [page::9][page::10][page::24]

  • 以预训练BERT族模型(HerBERT波兰语、XLM-RoBERTa多语言)为基础,结合两个层级分类方法微调。

- 基线对比包括线性模型与transformer模型。
  • 模型训练采用AdamW优化器,设置合理的学习率与权重衰减,采用多GPU并行训练。

- 训练集规模约143k条,测试集58k条,包含跨语言翻译后的3.4百万条多语数据。

5. 实验结果与分析 [page::25][page::26][page::27][page::28][page::29][page::30][page::33][page::34]

  • transformer模型显著优于线性基线,top-down方法优于bottom-up,且较大规模模型在综合效果上表现更优。

- 1位代码分类准确率高达88%,6位代码下降至60-70%区间,表明细粒度分类难度较大。
  • 波兰语专属模型在波兰数据集上表现优于多语模型,但多语模型具备跨语言应用优势。

- 多语言模型在24种语言间表现差异显著,英语和波兰语准确率最高,使用Google Translate翻译数据的效果优于开源Argos Translate。
  • 误分类多发生在相邻的职业组之间,低频职业类别准确率显著偏低。


6. 应用价值与未来展望 [page::35][page::36]

  • 该多语言层级职业分类器为官方统计和劳动市场研究提供自动化工具,可辅助政策制定和劳动力技能分析。

- 提供开源代码及模型权重,支持研究社区进一步扩展至其他职业分类如O*NET、SOC。
  • 未来可结合异质标签层级不确定性、更多语言优化技术提升分类准确度和鲁棒性。

- 证实语言特异模型优于通用模型,提示开发针对性语言模型的重要性。

7. 关键图表示例

  • 职业类别频率长尾分布示意(图2):多数类别样本极少,统计学习难度大。


  • 不同模型及层级分类准确率比较(图5-7):




  • 多语言分类效果差异(图9):



深度阅读

多语言职位广告分层分类及其在职位统计中的应用研究详尽分析报告



---

1. 元数据与报告概览


  • 报告标题:《Multilingual hierarchical classification of job advertisements for job vacancy statistics》

- 作者:Maciej Bere˛sewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
  • 发布机构及背景:由波兰教育研究所(IBE-PIB)及相关研究团队基于波兰及欧盟的数据源进行研究,并依托多个官方行政数据库和网络抓取数据。

- 报告主题:职位广告文本的多语言、多层级分类方法的开发与应用,特别基于国际职业标准ISCO及波兰特有的KZiS职业分类体系,聚焦于职位发布数据的结构化职业编码分类,助力官方统计生产与劳动市场分析。

主要信息和核心论点



报告主要目标在于提出一种利用预训练变换器架构(Transformers)的多语言多层级分类器,针对在线职位广告进行职业编码的自动化分类,映射到ISCO与KZiS标准,以支持职位统计和劳动力市场需求分析。该模型能处理最高6位数的职业代码,反映从大类到细分职业的层级结构。报告强调引入层级信息能够提升1-2个百分点的分类准确率,特别是在专家手工编码数据上表现突出。此外,通过语言自动翻译进行多语言训练,目标是提升国际可比性,并将代码及模型开源,方便统计机构使用和调整。

---

2. 逐章深度解读



2.1 引言(第1-3页)


  • 内容总结

- 综述当前利用网络职位广告(OJA)数据追踪职位动态的研究进展,提出了细分技能需求分析的重要性。
- 对比了现有基于机器学习职业分类的研究和工具,如Lightcast和欧盟Cedefop利用SVM、XLM-RoBERTa开展的职业标准映射。
- 本报告提出基于层级结构的字符串编码方式,结合Transformer模型(XLM-RoBERTa和HerBERT),专注于多语言与层级职业分类,贡献包括新型手工编码的行政数据、24语种模型、开源工具等。
  • 推理逻辑

- 职业分类为结构化任务,层级信息可增强模型表现。
- 多语言能力是统计跨国对比的关键,尤其在欧盟市场。
- 采用预训练的语言模型和细粒度编码,实现分类概率估计。

2.2 KZiS职业分类体系介绍(第3-5页)


  • 内容总结

- KZiS是波兰人力资源部基于ISCO的6位数层级分类体系,覆盖超过2500个职业。
- 层级自1位数的大类至6位数的细分职业单位,符合欧洲ESCO标准层次。
- 依据不同层级的职业技能定位(教育要求、技术难度等),形成了从武装力量(代码0)到初级职务(代码9)的分类。
  • 关键数据点

- 表1反映了各大类分布的子类数量和分层具体细节。
- 详细实例包括“2522 系统管理员”的6位数编码扩展。
  • 逻辑关联

- 这样的分层体系必然形成经典的多层级多类分类任务,有利于层级模型设计。

2.3 层级多类别分类理论与方法(第5-8页)


  • 内容总结

- 定义了层级多类别分类(树形结构中路径选取)问题,目标是同时估计每个层级类别的条件概率,保证预测一致性。
- 提出底层“bottom-up”与“top-down”两种概率计算方法:
- Bottom-up:直接训练叶子节点的多分类器,其他层级概率由叶子概率求和。
- Top-down:利用链式概率分解,逐层训练各节点的条件多分类器,保证层级一致性。
- 长尾类别分布问题严重(样本数极不均衡,1/3类别样本<10),对统计学习提出挑战。
  • 关键数据点

- 长尾分布示意图(图2)使用对数坐标展示了训练样本数的极度不均衡特征。
  • 推断与模型设计

- 预训练的BERT变体用于克服低样本类困难,结合底层或顶层分类器联合微调,发挥预训练语言模型的泛化能力和上下文捕获能力。

2.4 数据源(第10-23页)


  • 官方分类与描述数据

- 包括KZiS字典、INFOdoradca+职业描述服务、波兰统计局岗位同义词库、KZiS-ESCO匹配数据、民事职位数据库等,为模型的训练和解释提供权威基础。
- 提供了这些数据服务界面截图(图3),用于说明职业描述样本具体内容。
  • 基于公共就业办公室的ePraca数据库

- 含全波兰公共就业办公室提交的职位信息,由工作人员手工编码职位代码。
- 数据量庞大,类别分布极不均衡(表2描述各字符数描述对应的职位广告数)。
- 通过分层随机抽样得到落地训练样本约16.7万条。
  • 手工编码数据集

- 两套,分别为1万条(随机来自多门户网站,专家分摊编码,具有134个分类代码)和1千条(针对IT及特殊职业样本精编)。
- 采用谷歌语言检测,剔除非波兰语及无效样本,确保语料质量。
- 使用Strata变量(职业抽象类别及描述文本长度)分层采样生成训练样本(表14、15展示分层及来源情况)。
  • 多语种数据制作流程

- 首先采用Google Translate将原始波兰语文本翻译成英语,随后利用开源Argos Translate将英语转成22种其他官方语种。
- 未做严格自动翻译质量检测,但其表现与商业翻译存在明显差异。

2.5 数据质量控制(第15-21页)


  • 人工编码互评一致性

- 人工编码的1万样本中,通过3位专家复核,初始6位代码一致率约60%,经人工校对后提升至68%。(表4)
- Kappa系数显示专家间对1位代码等级具有较高可靠性(80%+)。
  • ePraca编码质量验证

- 将241份ePraca样本同专家人工编码对比,6位代码一致率约61%,1位代码一致率约79%,编码一致性整体良好(表5、6)。
- 数据不平衡与职位模糊性是误差主要来源。
  • 数据源分布与描述长度

- ePraca数据覆盖超过80%6位代码,占训练数据主力,手工数据覆盖有限(表7)。
- 不同来源描述长度差异显著,官方电子数据约50词,门户网站描述达120词以上(表8)。
  • 训练测试集分离设计

- 采用分层采样确保所有代码在训练集中出现,同时保留部分数据作测试集,测试集类别数略少于训练集(表9)。

2.6 实验设计与模型训练(第23-25页)


  • 模型架构与基线选取

- 基线为TF-IDF结合多类逻辑回归(bottom-up)或分层softmax(top-down)。
- Transformer模型细分为HerBERT(波兰语预训练)和XLM-RoBERTa(跨语种大规模预训练),包括Base与Large两个规模版本。
- 所有模型均端到端微调,训练环境包括RTX5000 GPU,较大模型训练时间更长。
  • 评价指标

- 按层级分别测算对数损失(Logistic Loss)和Recall@k(k=1)指标,Recall因每层只有单正类,实际即分类准确率。

2.7 主要结果分析(第25-35页)


  • 基于波兰语单语模型的结果

- Transformer模型明显优于线性基线,Large模型表现略优于Base模型。
- Top-down层级方法全层级均优于bottom-up,在手工编码数据体现尤为显著(约提升1-2个百分点)(图5-7)。
  • 多语言双语分类结果(波兰语+英语)

- 基于翻译文本训练的多语言模型对比翻译工具:
- Google Translate的翻译版本较Argos Translate优越,尤其在细粒度6位编码表现明显。
- HerBERT对英语文本表现不佳,说明语言特异性模型的重要性。
- 波兰语模型整体优于英语版本,暗示保留母语数据有助于准确编码。(图8)
  • 混淆矩阵洞察

- 主要职业组分类准确率普遍超过80%,仅极少数类别如第6组(样本极少)表现较差。
- 某些职业组间误判集中反映了分类边界的模糊性及数据限制(第31页全文混淆矩阵表格详见)。
  • 多语种24语言模型表现

- 多语种模型的整体准确率相对单语模型有所下降,1位代码约84%,6位代码约64%(表12)。
- 不同语言表现波动大,英语和波兰语表现最好,部分小语种精度仅接近50%。
- Top-down模型同样略优于bottom-up,但提升幅度较小。
- 语言训练数据分布(XLM-RoBERTa语料覆盖)与分类效果呈一定正相关(约0.2~0.3的相关系数)。
- 样本较少语种的准确率普遍偏低,表现了样本大小与翻译质量对模型准确率的影响。(图9)

---

3. 图表深度解读



表1(第4页):KZiS职业分层结构


  • 展示了KZiS的6层编码体系,从1位数广义职业组到6位数具体职业编码的数量。

- 例如,1组(公共当局及高级管理)有202个带“rest”代码的6位分类,说明细致分类的丰富性。
  • “rest”代表类似于“其他”类别的二次细分,符合行业分类的灵活性设计。


图2(第9页):职业样本数的长尾分布


  • X轴为职业标签频率排名,Y轴为样本数量(对数坐标)。

- 约33%的职业样本数少于10个,少数职业有数千样本,极端不均的训练数据是典型长尾问题。
  • 指出使用预训练模型的必要性。


图3(第11页):官方职业描述服务截图


  • 展示了波兰官方提供的职业描述系统界面样本,包括数据库管理员的职位描述和职责。

- 可见描述信息内容丰富且结构化,有利于职业语义理解。

表2(第14页):ePraca广告描述长度分布


  • 广告描述长度从0-50字符到大于500字符分布,超过19万条记录长度在100-200字符。

- 长文本分布对模型文本输入预处理策略有重要影响。

表4(第18页):人工编码专家一致性指标


  • 编码不同层级(1、2、4、6位)准确率及Kappa值显示最高达近93% (单数字层级),复杂层级约66%-68%。

- 协议清晰区分编码前后不同状态,表现专家编码仍存在一定抉择和界限模糊。

表5-6(第19-20页):ePraca编码与专家编码一致性


  • ePraca编码与专家编码初步一致率1位约79%,6位约61%。

- 各主要职业组间分类一致率多在70%以上,表明行政数据编码工作质量较高。

表7-9(第20-22页):训练、测试样本覆盖与分布


  • ePraca贡献最大,覆盖80%+的6位数代码;手工编码数据规模虽小但补充稀有类。

- 训练约143k条,测试57k条,涉及2911个6位代码(训练集全覆盖)。

表10(第23页):多语言训练数据及XLM-RoBERTa语料词量


  • 不同语言训练数据比例在3.9%-5.9%不等,XLM-RoBERTa语料覆盖英语最大(44.3%),某些小语种如爱尔兰语占比很小。

- 语言差异显著,预示模型语言表现不均衡。

图5-7(第26-28页):不同模型及方法下的Top-1分类准确度(单语)


  • Transformer-Large > Transformer-Base > 线性模型。

- Top-down > Bottom-up,差距1-2个百分点。
  • 细节层级越细,准确度逐级下降,六位编码约60-70%。


图8(第30页):多语言XLM-RoBERTa Base模型不同翻译数据下分类准确率


  • Google翻译数据明显优于Argos开源翻译。

- 波兰语原文优于英语翻译文本。
  • 细分类别准确率降低至20%-60%区间。


图9(第34页):多语言模型分语言表现分布


  • 英语和波兰语位于准确率最顶部,约80%+(1位编码)。

- 其他语言表现存在较大波动,部分小语种六位代码准确率低至40%-50%。
  • Top-down方法对于多数语言均有小幅提升。


---

4. 估值分析



本报告为分类方法及模型性能研究,无具体财务估值分析,不涉及DCF、市盈率等财务指标。

---

5. 风险因素评估



报告识别及暗示了若干关键风险因素与挑战:
  • 数据质量风险:专家人工编码存在不一致现象,编码误差直接影响训练质量和模型表现,存有统计误差及不确定性。

- 长尾样本数据不足:大量类别样本稀缺,训练难度高,可能导致模型在小类上性能不足。
  • 机器翻译误差:跨语种转换中自动翻译质量良莠不齐,Google翻译优于Argos,仍存语义偏差风险。

- 模型泛化限制:国别特异性模型相比多语言模型表现更佳,强调本土语言模型的重要性,跨语言泛化尚有局限。
  • 分类体系局限:虽然KZiS与ISCO紧密结合,其他标准如ESCO、O*NET等间的转换依赖人工对接和语义映射,存在潜在误匹配。


报告明显将数据与编码质量视为主要风险并提出通过持续专家审核和模型迭代来缓解。

---

6. 批判性视角与细微差别


  • 数据层面偏差

- ePraca数据库职位广告的代表性存在偏差,如偏重低薪职位和公共部门,可能导致模型对市场全面职业的解析不足。
- 长尾职业类别的数据过少,训练与测试中少样类别的表现不够稳健。
  • 翻译质量影响

- 报告虽开放API和软件,且采用开源翻译工具,但并无对自动翻译误差的深入评估,可能影响多语种模型准确性。
  • 模型比较公平性不足

- HerBERT参数规模明显小于XLM-RoBERTa,导致性能比较略显不公,但仍显示国别预训练优势。
  • 实验设置透明性

- 报告细节丰富,但部分模型参数调优细节(剪枝、样本权重等)未详细披露。
  • 层级方法增益波动

- 虽然top-down方法整体优于bottom-up,但多语言模型上改进幅度极小甚至略有下降,暗示层级信息利用仍有优化空间。

---

7. 结论性综合



本报告针对多语言、多层级职位广告分类问题,构建了一套基于预训练Transformer模型的层级分类框架,映射波兰KZiS及ISCO国际标准,面向官方统计需求。核心贡献包括:
  • 创新层级分类方法:结合层级结构的拓扑关系,通过top-down及bottom-up两种方案保证预测一致性,增强分类准确率,尤其针对手工编码数据提升明显(1-2个百分点)。

- 丰富且质量高的数据资源支持:新引入行政手工编码数据ePraca及10k+手工编码样本,经过严格质量控制,保证训练标注可信度,官方分类字典及互联职业描述资料保障系统基础。
  • 多语言及跨语种建模:利用自动翻译和多语种Transformer(XLM-RoBERTa)支撑对24种欧盟语言的覆盖,实现跨国职业统计的初步统一和对比。

- 开源成果供统计社区复用:提供代码和模型权重,便于官方及研究机构直接使用或针对本国需求定制。
  • 实验结果

- 单语言模型在母语(波兰语)表现最佳,HerBERT略优于更大体量的XLM-RoBERTa,显示针对性模型优势。
- 多语言模型准确度虽略低,但具备跨语言适用性,Top-down方法在绝大多数语言获得微弱准确率提升。
- 自动翻译质量显著影响多语言分类性能,Google比开源Argos表现优秀。
- 长尾职业类别依然是模型弱点,未来需增加数据与改进策略应对。
  • 实际价值:结合开放数据和模型,未来能推动欧盟及更大范围劳动力市场的结构化监测,辅助监测技能需求变化、职业结构转型和岗位匹配效率提升,为政策制定提供依据。


综上,报告内容全面详实,结合理论模型、丰富实践数据、严谨实验设计和多语言、层级职业编码,提出了一套可用且开源的职位广告层级自动分类系统方案,具有显著社会统计和经济学应用价值,值得官方统计机构和学术研究者充分关注和应用。

---

附录:重要图表展示



图1:层级分类树示例(第6页)





解读:展示8个类别通过两级编码(顶级z0为空,1级节点z1,2级叶节点z2)的前缀编码树形结构,说明层级分类基本思想与编码规则。

---

图2:职业标签频次长尾分布(第9页)





解读:按照类别频率排名,样本数按对数轴变化,绝大多数类别样本数极少,少数热门职业样本丰富,模型训练面临长尾问题。

---

图3:职业描述数据示例(第11页)





解读:职业描述引擎与INFOdoradca+职业信息页面截图,反映数据源丰富,有助于训练语义理解。

---

图4:ePraca工作岗位示例(第13页)





解读:典型岗位描述格式,信息全面,结构化,作为分类训练文本示例。

---

图5-7:单语波兰语Top-1分类准确率走势(第26-28页)


  • 图5:整体数据(含ePraca与手工数据)。

- 图6:仅ePraca数据。
  • 图7:仅手工编码数据。


三图共性:Transformer-Large+Top-down最优,准确率随层级增加递减,手工数据上Top-down相较Bottom-up提升尤为明显,表明层级利用对精细层级职业识别价值突出。

---

图8:多语言分类器不同翻译方法对比(第30页)





显示基于XLM-RoBERTa-base模型,Google Translate翻译明显优于开源Argos Translate,波兰语表现普遍优于英语,HerBERT(波兰语特化模型)英语表现差,强调语言特异性。

---

图9:多语种手工编码测试集分类准确率(第34页)





图示不同语言在1位、4位、6位编码准确率,Top-down对大多数语言有提升;英语和波兰语表现最好,偏小且数据少语言表现较弱,显示语言数据质量对模型效能影响显著。

---

结语



本报告以严谨方法论、详尽数据支撑、多样模型检验全面阐释了一套用于职位统计的多语言层次职业分类框架。其数据质量保证、算法设计策略、跨语料训练方式等为官方及学界提供了宝贵资源与方法论启发。相关开源软件与模块有效促进了统计实践中文本分析的进步,体现了机器学习在国民经济劳动研究领域的重要应用价值。

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52]

报告