Skip to main content

模型评测

为了更好的了解当下模型性能,我们列举了几个模型排名网站,这些网站通过主观测试(人工盲选较优模型)或者客观测试(自动通过含有答案的测试对比准确度),对模型进行排名,并给出排名结果。

那么如何自动化测评得出排名?

语言模型(LLM)自动化评测技术

"考试"评测:客观题与标准化能力测试

这是一种最基础且高效的评测方法,类似于给模型进行一场"标准化考试"。评测者提供包含多选题或客观题的数据集,模型给出答案,然后通过脚本或工具自动比对答案,计算分数。这种方法的优点在于评测过程客观、可重复,且成本低廉。

核心基准测试

MMLU (Massive Multitask Language Understanding):这是一个大规模的英文多任务测试,包含来自人文、社会科学、硬科学等57个领域的选择题。要在这个测试中获得高分,模型必须具备广泛的世界知识和强大的问题解决能力,而非仅仅是单一领域的专家。

C-Eval:作为MMLU的中文版,C-Eval是专门为评估语言模型在中文语境下的知识和推理能力而设计的综合性基准。它包含了13,948道多选题,跨越52个学科和4个难度级别,其中许多问题都具有中国特定的文化和常识背景。

GSM8K:这是一个由小学数学应用题组成的数据集,主要用于评估模型在数学方面的逻辑推理能力。

如何得出评分

这类评测的核心指标通常是准确率(Accuracy),即模型答对的题目数占总题目数的百分比。例如,在C-Eval的100道题中,如果模型答对了80道,那么它的准确率就是80%。在评测中,准确率分数越高越好。

然而,仅仅依赖这些标准化基准也存在挑战。随着模型能力的提升,业界开始担忧模型是否仅仅是通过对训练数据集的"死记硬背"来获得高分,而非真正具备推理能力。例如,GPT-4在C-Eval Hard等榜单上的表现优于其他模型,但其能力来源是否仅仅是记忆,引发了新的讨论。为了解决这种"刷榜"和数据偏见的问题,研究者们开始构建新的、更具挑战性的评测基准,如GSM-Symbolic和GSM8K-Platinum。这些新的基准通过修正原有数据集中的标签噪音和生成更多样的变体问题,来更准确地衡量模型的真实能力。

这种模型与评测基准之间的博弈,恰恰体现了评测工作的动态演进本质。一个优秀的评测工程师不仅要懂得如何使用现有的工具,更要具备敏锐的洞察力,能够识别现有评测的局限性,并为设计新一代、更可靠的评测体系提供宝贵的见解。

"创作"评测:评估文本生成质量

相较于有唯一正确答案的客观题,评估模型生成开放性、非确定性文本(如摘要、翻译、创作等)的能力更具挑战性。自动化评测通过复杂的算法,衡量模型生成文本与人工参考文本之间的相似度,以量化其质量。

核心指标详解

BLEU (Bilingual Evaluation Understudy)

  • 核心思想:BLEU基于n-gram(连续词组)重合度,来衡量模型生成的文本与参考答案有多大的词汇重叠。
  • 如何得出评分:它计算模型生成文本中与参考答案重合的n-gram数量。为了防止模型只生成少量高频词以获得高分,BLEU还引入了简短惩罚(Brevity Penalty)。如果生成文本比参考答案短,分数会降低。
  • 计算举例
    • 参考答案:"The cat sat on the mat."
    • 模型生成:"The cat is sitting on the mat."
    • BLEU算法会识别出"the", "cat", "on", "the", "mat"等单词的重合。
  • 分数解读:分数范围在0到1之间,分数越高越好。但需要注意的是,单纯的高分可能无法反映生成文本的语义和语法正确性,因为BLEU不考虑词序和同义词。

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

  • 核心思想:与BLEU强调精确率不同,ROUGE更关注召回率,即模型生成的文本捕获了多少参考文本中的关键信息。
  • 如何得出评分
    • ROUGE-N:基于n-gram重合度计算,其召回率公式为:ROUGE−N Recall=参考答案的n−gram总数重合的n−gram数​。
    • ROUGE-L:基于最长公共子序列(LCS)。它寻找两个文本中最长的、顺序一致但不要求连续的单词序列。这使其能更好地衡量句子的整体结构和信息流。
  • 分数解读:分数范围同样在0到1之间,分数越高越好。ROUGE特别适用于评估文本摘要和问答任务中关键信息的完整性。

METEOR (Metric for Evaluation of Translation with Explicit Ordering)

  • 核心思想:METEOR被认为是比BLEU和ROUGE更全面的指标。它综合了精确率和召回率,并加入了词形还原(stemming)和同义词匹配的功能。这使得它能更好地处理不同形式但意思相同的词语,能更接近人类的判断。
  • 如何得出评分:它计算精确率和召回率的调和平均值,并加入一个基于"分块"(chunks)数量的惩罚项,来反映词语的乱序程度。
  • 分数解读:分数范围在0到1之间,分数越高越好。研究表明,METEOR与人类判断的相关性通常更高。

尽管这些自动化指标高效,但它们无法完全捕捉模型的流畅性、逻辑性和观点表达等深层能力。因此,在实际工作中,评测者通常会采用混合评测方式,将自动化评测与人工评测(通过专家打分)和大模型辅助评测(利用GPT-4等强大模型作为"裁判员")结合起来。一个专业的评测工程师不会只依赖某一个指标,而是能根据具体任务,选择最合适的指标组合,甚至为特定业务需求设计独特的评测体系,例如在代码生成领域使用Pass@k指标来评估代码的功能正确性。这凸显了评测工作的价值在于"组合"与策略。


多模态模型自动化评测技术

文生图(T2I)评测:图像的"视觉"与"语义"衡量

多模态模型,尤其是文生图(Text-to-Image, T2I)模型,其评测挑战在于需要同时衡量两个关键维度:生成的图像质量(是否真实、美观)以及与输入文本的一致性(是否准确反映提示词)。

核心指标详解

FID (Fréchet Inception Distance)

  • 核心思想:FID是评估图像生成模型质量和多样性的黄金标准。它不直接比较单个生成的图像与真实图像,而是通过计算生成图像的群体分布与真实图像的群体分布之间的距离。
  • 如何得出评分:FID利用一个预训练的图像分类模型(如Inception V3)来提取图像的高维特征。它将真实图像和生成图像的特征向量分别建模为多元正态分布,然后计算这两个分布之间的弗雷谢距离。
  • 分数解读:FID分数越低越好。一个完美的模型,其生成的图像分布与真实图像分布完全一致,FID为0。一个形象的比喻是"遛狗":如果你的模型能生成各种各样的狗(多样性),且每只狗都栩栩如生(真实性),那么它的FID分数就会很低。反之,如果它只生成一种狗,或者生成的狗都模糊不清,那么FID就会很高。

CLIP Score (Contrastive Language-Image Pretraining Score)

  • 核心思想:CLIP Score专门评估生成图像与输入文本描述的匹配程度,即"图文一致性"。
  • 如何得出评分:CLIP模型将图像和文本映射到同一个嵌入空间,使得语义相关的图文对在此空间中距离相近。CLIP Score就是通过计算图像向量和文本向量之间的余弦相似度来衡量它们的语义相关性。
  • 分数解读:分数范围通常在-1到1,分数越高越好。

CIDEr (Consensus-based Image Description Evaluation)

  • 核心思想:该指标尤其适用于图像描述生成任务。它通过衡量生成的描述与多个人工参考描述之间的共识程度来打分,并使用TF-IDF(词频-逆文档频率)加权,给那些罕见但重要的词语更高的权重。
  • 分数解读:分数越高越好。

SPICE (Semantic Propositional Image Caption Evaluation)

  • 核心思想:SPICE更进一步,它通过**语义图(semantic graph)**来评估生成描述与参考描述的语义相似度,而不仅仅是词语重叠。它关注描述中物体、属性和它们之间的关系,因此对同义词和改写有更强的鲁棒性。
  • 分数解读:分数越高越好。

图像生成模型的评测是多维度的,没有单一指标能完美涵盖所有方面。FID关注图像群体的分布,CLIP Score关注图文匹配,而CIDEr/SPICE关注描述的语义质量。同时,这些自动化指标也存在局限性:FID依赖于特定的预训练模型,计算成本高昂;CLIP Score虽然高效,但可能无法捕捉到细节(如艺术家风格),导致评测不准确。这些局限性推动了行业对更多元化、更精细的评测方法和榜单的探索,并形成了评测工作的**"全栈"**属性。一个顶尖的AI评测工程师不仅要理解这些指标,还要能根据项目需求,选择和组合不同的指标,甚至进行众包评测,从而为模型优化提供最精准、最具价值的反馈。