模型评测
为了更好的了解当下模型性能,我们列举了几个模型排名网站,这些网站通过主观测试(人工盲选较优模型)或者客观测试(自动通过含有答案的测试对比准确度),对模型进行排名,并给出排名结果。
- Hugging Face 模型排名:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 司南排名:https://opencompass.org.cn/arena
- 天秤排名:https://arena.flageval.net/index.html#/arena-page?l=zh-CN
那么如何自动化测评得出排名?
语言模型(LLM)自动化评测技术
"考试"评测:客观题与标准化能力测试
这是一种最基础且高效的评测方法,类似于给模型进行一场"标准化考试"。评测者提供包含多选题或客观题的数据集,模型给出答案,然后通过脚本或工具自动比对答案,计算分数。这种方法的优点在于评测过程客观、可重复,且成本低廉。