您的位置：首页 > 科技 > 能源 > 【InternLM实战营第二期笔记】07：OpenCompass ：是骡子是马，拉出来溜溜

【InternLM实战营第二期笔记】07：OpenCompass ：是骡子是马，拉出来溜溜

2025/2/28 6:53:11 来源：https://blog.csdn.net/leayc/article/details/139582310 浏览: 次关键词：【InternLM实战营第二期笔记】07：OpenCompass ：是骡子是马，拉出来溜溜

文章目录

课程
实操

课程

评测的意义是什么呢？我最近也在想。看到这节开头的内容后忽然有个顿悟：如果大模型最终也会变成一种基础工具（类比软件），稳定或可预期的效果需要先于用户感知构建出来，评测 case 就需要变成用例的相对充分抽样。
在这里插入图片描述

在这里插入图片描述

除了提高效率本身，最近还有一个很好的工作 MixEval，把标准、静态的 benchmarks 跟 elo 表现做了充分关联，使得只测试少量样本就能得到近似 lmsys arena 的打分，也非常厉害。
对了 Opencompass 也开了 arena，感兴趣可以去打打分和体验一些最新模型的效果。
在这里插入图片描述