`

GUESSARENA: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning

创建于 更新于

摘要

本报告提出GUESSARENA,一个灵活自适应的评估框架,通过将“Guess Who I Am?”游戏机制引入大语言模型(LLM)评价,实现领域知识建模与多轮交互推理评估的融合,覆盖金融、医疗、制造等五大垂直行业。实验证明该框架在区分模型领域知识覆盖和推理效率上具备显著优势,并可通过不同提示策略揭示模型推理与知识能力差异,有效推动领域特定LLM的定量评估研究和应用实践 [page::0][page::2][page::4][page::7][page::8]

速读内容


GUESSARENA框架概述与设计 [page::2]


  • 框架包含“领域知识建模”和“交互推理评估”两大核心模块,自动将非结构化文档转化为测试卡牌,模拟多轮问答推理以评估模型领域知识和推理能力。

- 特色包括动态知识库构建、基于游戏的多轮交互、自动化评价机制。

量化指标体系与评分方法 [page::3][page::4]

  • 综合评分结合推理准确率(E)、推理效率(F)及知识适用性(K),权重均等。

- 推理准确率为正确猜测次数占比;推理效率基于模型与随机基线推理步数的对比采用sigmoid函数计算;知识适用性考量模型步数是否超过随机基线。
  • 设计指标全面衡量模型推理能力和知识利用能力。


多领域实验与评估模型介绍 [page::4][page::5][page::6]


| 模型名称 | 参数规模 | 类型 | 发布日期 |
|-----------------------|------------|----------|-----------|
| GPT-4o | 未公开 | Chat | 2024.05 |
| OpenAI-o1 | 未公开 | Chat | 2024.09 |
| Claude-3.5-Sonnet | 未公开 | Chat | 2024.10 |
| DeepSeek-V3 | 671B | Chat | 2024.12 |
| DeepSeek-R1 | 671B | Chat | 2025.01 |
| Qwen2.5-32B-Instruct | 32B | Instruct | 2024.09 |
| Qwen2.5-72B-Instruct | 72B | Instruct | 2024.09 |
| Llama-3.3-70B-Instruct| 70B | Instruct | 2024.12 |
| QwQ-32B | 32B | Chat | 2025.03 |
  • 三种提示策略比较:基本提示、链式思维提示(COT)、知识驱动提示,分别针对模型推理能力和领域知识缺口。

- 不同模型及提示表现差异显著,OpenAI-o1与GPT-4o表现领先。

领域评分与提示策略效果展示 [page::5][page::6]


| 模型 | 信息技术 | 金融 | 教育 | 医疗 | 制造 | 平均 |
|--------------------|---------|-------|-------|-------|-------|-------|
| OpenAI-o1 (basic) |0.8814 |0.9199 |0.9271 |0.9282 |0.8705 |0.9054 |
| GPT-4o (basic) |0.9244 |0.8465 |0.9020 |0.9302 |0.9043 |0.9015 |
| Claude-3.5-Sonnet |0.8535 |0.7941 |0.8487 |0.9134 |0.8442 |0.8508 |
| Llama-3.3-70B-Instr|0.8045 |0.7581 |0.8047 |0.7775 |0.7966 |0.7883 |
  • COT提示增强弱推理模型能力,如Llama-3.3-70B、Claude-3.5。

- 知识驱动提示显著提升不足知识模型的表现,尤其金融和信息技术领域的模型。
  • 多种提示策略互补,揭示推理能力与领域知识缺失的区别。


交互推理示例与评判可靠性分析 [page::7]


  • 典型推理进程展示DeepSeek-V3高效筛选 vs Qwen2.5-32B的低效询问。

- GPT-4o作为裁判模型的判定与人类标注达92.33%一致,支持评测结果的可靠性与客观性。
  • 多模型裁判结果趋同,说明方法具备稳健性。


结论与未来展望 [page::8]

  • GUESSARENA提供了灵活、可扩展、交互式的领域知识及推理能力评测框架,能够更精细区分LLM能力差异。

- 适用于多行业垂直领域,克服传统静态基准的局限与数据泄漏问题。
  • 存在复杂认知任务覆盖不足、裁判模型偏差风险,未来可扩展更多领域及裁判机制以强化普适性和可信度。

深度阅读

GUESSARENA: 领域特定知识与推理能力评估框架深度分析报告



---

1. 元数据与概览


  • 报告标题: GUESSARENA: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning

- 作者及机构: Qingchen Yu 等,来自 MemTensor(上海)技术有限公司、悉尼大学、中国电信研究院及中国人民大学。
  • 发布日期及主题: 2024-2025,主题聚焦于大语言模型(LLMs)在金融、医疗、制造、信息技术、教育等五个垂直行业的领域知识及推理能力的评估。

- 核心论点与贡献:
本报告提出了一个名为GUESSARENA的自适应评估框架,旨在突破传统静态基准测试在领域适应性和推理细粒度评估上的局限。该框架基于“猜猜我是谁”(Guess Who I Am?)游戏的原理设计,以动态的卡牌知识库构建和多轮推理交互为核心,通过对模型提问策略和推理路径的评估,实现对LLMs领域知识覆盖与推理链完整性的精准量化。
  • 目标价/评级: 非金融资产报告,未涉及估值和评级。

- 核心信息传达:
GUESSARENA从静态测试切换为动态、交互式评估,适配不同垂直领域,提升了评估的可解释性、扩展性和场景适应性。基于五大行业的实证结果验证了其区分模型能力的有效性和实用性,源码及数据集均已开源。

---

2. 逐节深度解读



2.1 摘要与引言部分


  • 关键论点:

当前的LLMs评估依赖静态基准,存在两个主要限制:(1)固定测试集缺乏针对多样化领域的动态适应能力;(2)标准化评估协议难以捕捉领域特有的知识和细粒度的上下文推理过程。
  • 推理依据:

受“猜猜我是谁”游戏交互式问答和策略的启发,该框架通过转换成结构化问答游戏,实现在领域知识建模和推理评估的无缝衔接,提高评估精度和真实性。
  • 重要数据点:

评估覆盖五大行业,且通过实证展示在知识覆盖率与推理链完整性上的优越表现。
  • 复杂概念说明:

“猜猜我是谁” 游戏涉及两名玩家通过逐步排除法猜测对方卡牌,映射到LLM评估即模型通过逐步提问缩小知识库范围,直至定位目标知识点。
  • 图示解读(图1):

展示游戏交互过程,突出提问与反馈机制,喻示模型问答策略的动态调整能力[page::0].

2.2 相关工作(Related Work)


  • 总结:

大多数推理能力评估仍依赖静态、单一类型任务,存在数据污染、易过时等问题。动态评估如GameArena虽引入人类反馈交互,但主观性和扩展性成瓶颈,且未充分关注领域知识。
  • 推理依据:

静态评测无法反映实际应用场景,尤其领域专业知识的掌握;而交互式方法更贴合实际应用。
  • 关键数据点与不足:

静态基准如MMLU、BIGBench、MATH等仅针对单一推理类型,易受训练数据泄露影响。GameArena依赖人类反馈,主观判断带来一致性问题。
  • GUESSARENA优势:

自动生成领域知识卡牌、多轮交互式问答,实现自动化、可复现且具领域适应性的框架[page::1].

2.3 方法论(Methodology)



2.3.1 域导向卡牌构建(Domain-oriented Cards Construction)


  • 关键流程:

- 对用户提供的非结构化领域文档(PDF、HTML、纯文本等)预处理。
- 应用RAG(Retrieval-Augmented Generation)结合GPT-4o,自动抽取关键词集$\kappa0$。
- 采用句子嵌入(Sentence-BERT)和余弦相似度对关键词进行筛选(阈值0.35至0.9),剔除无关或冗余关键词。
- 利用谱聚类将关键词划分为10个主题类别,确保知识库覆盖面广,便于后续采样构建评价卡牌。
  • 关键数学模型解读:

使用相似度阈值过滤函数$f
{filter}$实现关键词精准筛选;谱聚类求解拉普拉斯矩阵特征向量后用$k$-means聚类确保聚类效果和知识库结构合理。
  • 意义与影响:

自动化程度高,显著降低构建领域定制测试的门槛和成本[page::2][page::3].

2.3.2 交互式评估过程(Interactive Evaluation Procedure)


  • 流程概要:

- 从构建的知识库中采样$N$张卡牌组成测试集$\mathcal{D}$。
- 每轮以$\mathcal{D}$中一张卡牌$ci$作为目标卡牌$g$,测试模型需通过提问逐步猜测。
- 设置辅助评判者模型(GPT-4o)提供严格的Yes/No/Invalid/End反馈。
  • 评价机制:

模型基于 judge 梳理状态,构造有效问题直至正确猜出目标或回合数用尽,最大回合数为$N$。
  • 复杂概念解释:

多轮交互问答嵌入推理路径构造,模拟真实应用决策,体现模型推理策略、知识检索效率[page::3].

2.3.3 评估指标(Evaluation Metrics)


  • 综合得分构成:

$\mathrm{score} = w
1 \cdot E + w2 \cdot F + w3 \cdot K$,三者权重均为1/3。
  • 指标说明:

- 推理准确率($E$): 成功猜对次数占总猜测次数比例。衡量核心推理正确性。
- 推理效率($F$): 基于模型推理步骤数$t{model}$与随机基准$t{rand}$的对比,用逻辑函数量化效率。高$F$值表示较少的推理步骤需求。
- 知识适用性($K$): 用指数衰减函数惩罚超越随机步骤数的行为,鼓励有效利用领域知识。
  • 数学表达解析:

$F$和$K$设计精妙地结合了推理过程中的步数效率和知识策略使用情况,使得评分不仅考量结果,还强调推理路径的合理性[page::4].

---

3. 图表深度解读



3.1 图2:GUESSARENA框架架构图


  • 描述:

展示从文档预处理、初步卡牌构建、测试卡牌选取到交互式推理评估的完整流程。金融行业示例聚焦选取“Fintech”作为目标卡牌。
  • 数据与趋势解读:

明确划分卡牌层级和步骤,突出卡牌从大规模文档被分解为1000张卡,再筛选为12张,并最终逐张测试的动态评估机制;同时说明评估指标涵盖推理准确度、效率和知识适用性。
  • 联系文本论点:

直观体现区域内卡牌筛选降低了领域知识测试的复杂度,交互评估模拟真实决策过程,符合方法论中强调的“互动”和“适应”思想。
  • 潜在局限性:

图中以单一示例指代不同领域,实际跨场景可能遇到更复杂知识组织需求。



3.2 表1:评估LLMs模型基本信息表


  • 描述:

罗列9个主要LLMs参数规模、类型(聊天或指导式),及发布日期。
  • 重点说明:

参数规模跨度巨大(32B至671B、NAN未公开),权重重视最新发布的旗舰模型如GPT-4o和OpenAI-o1。
  • 联系研究目标:

多样化模型覆盖确保评估结果具有广泛代表性和对比效果[page::4].

3.3 表2-4:三种提示下不同模型在五领域评分表现


  • 描述:

对比基础提示(表2)、CoT提示(表3)、知识驱动提示(表4)三种策略下9模型分别在通信、金融、教育、医疗、制造领域的综合GUESSARENA评分及平均值。
  • 数据趋势分析:

- OpenAI-o1模型综合排名最高(基础提示最高0.9054,CoT 0.8967,知识驱动0.8951),表现稳定优秀;
- GPT-4o紧随其后,性能优越且对提示策略敏感度较小;
- Llama-3.3-70B-Instruct整体表现较弱,特别在金融、医疗领域分数最低,提示其领域知识和推理能力需加强;
- CoT提示显著提升弱推理模型(如Llama、Claude-3.5),平均提升超过5%个点;而知识驱动提示尤其对知识欠缺模型(Claude、Llama)帮助明显。
  • 联系文本结论:

验证了报告提出推理能力与领域知识缺失分别可用不同 prompting 技术缓解,也体现GUESSARENA区分模型能力维度的精细性[page::5][page::6].

3.4 图3:分领域分模型三种提示对比条形图


  • 描述:

多子图呈现每个模型在五个行业下基础、CoT和知识驱动三种策略得分对比,直观展示各模型在特定领域因推理或知识补充带来的提升。
  • 数据和趋势:

- GPT-4o和OpenAI-o1几乎交替领先,且提示策略切换影响细微,显示其全能型;
- 其他模型则呈现推理(CoT)与知识(知识驱动)互补的提升模式;
- 在金融领域,Claude-3.5和Llama明显受益于知识提示。
  • 文本关联:

反映了LLMs潜在的能力瓶颈和针对性的提升策略,这一结果也彰显了GUESSARENA能精准捕获模型推理和知识维度上的差异。



3.5 表5:评判模型与人类标注一致性研究


  • 描述:

表5量化了多个Judge模型包括GPT-4o与人工标注及相互间的判定一致率,表明评判模型的可靠性。
  • 关键数据点:

GPT-4o与人工标注达92.33%一致,其他Judge模型均超过86%,模型集合投票达90.58%,显示高度稳定和可信赖性。
  • 推断意义:

表明GUESSARENA评判环节引入GPT-4o是合理且可靠的,且模型多元判决减少单一判决偏差影响。[page::7]

3.6 图4:医疗领域两个模型的交互推断轨迹对比


  • 描述:

展示DeepSeek-V3和Qwen2.5-32B在猜测“Pharmacologist”卡牌过程中的问答交互。
  • 数据解读:

DeepSeek-V3用6轮问题高效定位目标,问题设计聚焦整体分类,有效排除多个候选;Qwen2.5-32B提问冗长且多次排除率低,经9轮仍未猜中,推理策略欠缺效率和逻辑。
  • 联系文本分析:

直观展示了不同模型推理能力的差异,验证GUESSARENA可量化并区分模型推理能力强弱[page::7][page::8].

---

4. 估值分析


  • 本报告主要聚焦于LLMs性能评估方法论,无财务估值及相关分析。


---

5. 风险因素评估


  • 风险识别:

- 领域覆盖限制:评估可能无法覆盖所有长尾领域及开放式推理任务,如医疗诊断、法律辩论等多样化推理场景。
- 评判模型局限:默认采用GPT-4o作为评判模型,存在固有偏见和覆盖盲区问题,可能影响一些长尾或小众领域的评估准确性。
  • 缓解策略:

- 未来可引入用户自定义评判模型,实现投票或集成判决提升评审多样性和鲁棒性。
- 扩展更多行业和模型评测,提升框架普适性和泛化效果。
  • 潜在影响:

风险未处理可能导致评估结果偏差、适用范围受限,影响框架广泛部署和可信度[page::8].

---

6. 批判性视角与细微差别


  • 偏见及不确定性:

- GPT-4o作为核心评判模型虽表现稳定,但依赖单一Judge可能削弱跨模型公平性,尤其新兴领域表现可能受限。
- 框架核心借鉴的“猜猜我是谁”游戏模型,适合确定性强、规则明确的知识推理任务,对于开放式、多模态或跨领域复杂推理存在局限。
- 域知识卡牌构建依赖关键词抽取和聚类,关键词过滤阈值和聚类数10为经验调节,通用性和稳定性需进一步验证。
- 实测模型中部分参数规模极大(如DeepSeek 671B),与中小模型之间性能差异可能由于多种训练与架构因素,纯粹参数大小或提示策略难以全面解释性能差异。
  • 内部矛盾及细节:

- CoT和知识驱动提示发挥的替代性提升效果清晰,但在某些模型和领域中,性能提升仍有限,可能暗示推理与知识的交互机制未被完全捕获。
- 文档虽强调自动化构建知识库,然而采样只用30张卡牌覆盖整个领域,是否足够代表专业领域多样性尚无定论。

---

7. 结论性综合



《GUESSARENA》报告系统性地提出并实现了一个创新的、交互式、面向领域的LLMs评估框架,突破了传统静态评测的局限。核心方法基于经典的“猜猜我是谁”游戏机制,依托于自动化知识库构建和多轮互动推理策略,量化衡量模型在领域知识覆盖率、推理准确性与效率、知识应用能力三个维度的综合表现。

从图2的框架展示到后续五大行业的实证测试,GUESSARENA不仅实现了跨领域的适应性评估,同时敏感地区分了模型间在推理和领域知识层面的优势与不足。表2至表4和图3体现不同提示策略在推理和知识弥补中的效果差异,揭示了模型能力瓶颈及潜在提升路径。判别模型的一致性测试和具体案例分析(图4)进一步巩固评价方法的科学性和实际有效性。

该框架的创新点在于其自动化知识抽取、互动式推理考察和综合评判矩阵,避免了传统评测的训练数据泄露、主观偏见和静态过时问题,为大规模、多领域的LLM能力评估树立了新范式。然而,当前实现仍存在评判模型依赖、领域覆盖限制及评估指标设计的细节待完善空间。

整体而言,GUESSARENA为未来领域定制化语言模型评估提供了坚实的技术基础和灵活应用路径,助推模型研发和应用场景优化,是行业内一项富有前瞻性的贡献,开放源码也利于社区协作推进该领域研究。

---

总结



GUESSARENA通过创新的游戏化多轮推理方案,结合自动领域知识库构建,提升了大语言模型在专业领域推理和知识应用的评测质量。实证结果表明该框架能精准区分模型潜在能力,适应多行业复杂需求,标志着LLM评估领域向动态、可解释和自适应迈出了关键一步。

---

以上分析内容均基于报告全文所有引用内容,参见对应页码标注以供溯源验证。[page::0,1,2,3,4,5,6,7,8]

报告