模型评测
模型评测
为了更好的了解当下模型性能,我们列举了几个模型排名网站,这些网站通过主观测试(人工盲选较优模型)或者客观测试(自动通过含有答案的测试对比准确度),对模型进行排名,并给出排名结果。
- Hugging Face 模型排名:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- lmarena排名:https://lmarena.ai/
那么如何自动化测评得出排名?
为了更好的了解当下模型性能,我们列举了几个模型排名网站,这些网站通过主观测试(人工盲选较优模型)或者客观测试(自动通过含有答案的测试对比准确度),对模型进行排名,并给出排名结果。
那么如何自动化测评得出排名?