Chatbot Arena 是一个用于众包人工智能基准测试的开放平台,由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员开发。该平台拥有超过 1,000,000 张用户投票来排名LLM,AI 聊天机器人使用 Bradley-Terry 模型生成实时排行榜(https://lmarena.ai/?leaderboard)。有关技术详细信息,可查看论文。做为大模型能力强弱排名的权威参考平台收到很多关注。
平台功能
1、多模型对比测试
在Chatbot Arena中,用户可以同时运行多个聊天机器人模型(如GPT-4, ChatGPT-3.5等),并针对同一问题或任务进行对比分析,直观展示不同模型的响应和性能差异。
2、自定义测试场景
用户可以根据实际需求,定义特定的测试场景和问题集,从事先准备的测试用例中选择,或自定义输入,以消除测试偏差,获得更准确的评估结果。
3、排行榜展示(核心功能)
平台收集用户提出的问题进行归类,并记录用户对多个模型回答中最满意结果的选择。最终展示各大模型综合及各特性能力的排行。
各类别含义
Hard Prompts
Hard Prompt 类别包含来自 Arena 的用户提交的提示,这些提示经过专门设计,更加复杂、要求更高。这些提示经过精心设计,测试了最新语言模型的能力,为了解它们在处理具有挑战性的任务方面的优势和劣势提供了有价值的参考。
提示为 “Hard” 的重要标准是什么?
特异性:具体、明确且无歧义。
领域知识:测试 AI 在特定领域或一组领域的知识和理解。
复杂性:具有多个级别的推理、组件或变量。
解决问题:需要积极解决问题:分析并明确定义问题,并系统地设计和实施解决方案。
创造力:在处理问题时涉及一定程度的创造力。
技术准确性:要求高度的技术准确性、正确性和精密度。
实际应用程序:与实际应用程序相关。
例如,写一个简短的段落,每个句子的第二个字母拼出单词 'CODE'。该消息应显得自然,不能直接表现出这种隐藏含义。
Math
数学评估侧重于模型积极应用数学推理和解决问题技能的能力。与仅仅寻求数学概念解释的提示相反,这些提示需要直接的数学计算或逻辑推导。
满足数学提示条件是什么?
- 积极应用数学概念
- 涉及某些类型的数值计算或代数作或几何推理
- 包含清晰、明确和客观的问题
- 测试一项或多项数学能力
例如,“解释导数是什么”不符合数学提示的条件,但“找到 f(x) = x³ + 2x² - 5x + 3 的导数”则属于数学提示。
Instruction Following
此类别评估模型精确遵循给定指令的能力,特别是关注多步骤任务和特定要求。与“硬提示”类别强调特异性和技术准确性类似,指令遵循提示放大了评估 AI 精确和完整地执行指令的能力。该类别特别关注模型理解和执行详细指令的能力,而不是领域知识或解决问题的能力。
遵循说明的提示包括:
- 来自用户的清晰、可作的指示
- 响应的特定格式或结构要求
- 独特或具有挑战性的方面,将测试 AI 精确遵循指示的能力
例如, “写下关于狗狗的描述” 不符合指令遵循提示的条件,但“写出3个描述狗狗的段落,每段用 5 个形容词,最后列出 3 个护理技巧”则满足要求。
Coding
编码类别评估模型跨不同编程语言和范式理解、生成和调试代码的能力。
编码提示关注:
- 提示和响应中的代码块
- 编程语言名称和关键字
- 代码命令和其他杂项
Chatbot Arena 的编码类别包含所有与代码相关的活动。在复杂的多层软件工程任务上评估模型。例如,像“用TypeScript帮我搭建一个专业网站” 这样的提示不仅评估LLMs代码生成能力,还评估更广泛的软件开发决策能力。
Style Control
在“聊天机器人竞技场”(Chatbot Arena)的排行榜上,回答的风格会对模型的表现产生了显著影响。某些模型可能在回答中包含大量细节,或者使用大量格式化标记(如加粗、斜体等),使得它们的回答在人类投票者眼中显得更“优美”,从而在评选中获得优势。为了应对这种现象,单独设立了“风格控制”(Style Control)功能榜单,旨在将回答的风格和内容的效果区分开来,从而分别观察两者对结果的影响。
Creative Writing
如何才算是创意写作?
- 需要独创性和想象力的提示
- 涉及情感或艺术表达的任务
- 要求提供独特的观点或解释性回应
- 超越事实报道或分析的写作
例如,生命的真正动机是什么?
Multi-Turn
涉及多个轮次的对话。
Longer Query
超过 500 个令牌的查询(约占所有提示的 10%)。
Exclude Refusal
排除所有包含1场及以上的LLM拒绝响应的模型对抗。目前通过简单的关键字匹配来识别拒绝(例如“I can’t assist”)。
Exclude Short Query (< 5 tokens)
短于5个token 的查询。这类查询的数量一般很少(例如,“Hello”)。
类别划分原理
用户输入提示如何划分到某一个或者某几个类别。
对抗平台每天都有大量的用户提示输入,手动完成类别分类不太现实。虽然某些类别(例如Language,Coding) 可以使用启发式算法进行快速分类,但其他类别(例如Creative Writing, Hard Prompt)则不能。对于创意写作等类别,需要额外使用LLM做提示的分类 ,由LLM判断提示是否满足创意写作分类的所有条件清单。
当然,验证LLM所做的分类是否在所需的规格范围内至关重要。因此需要检查大量 Chatbot Arena 提示样本的分类结果。借助的是标签工作台(Label Bench )。
标签工作台(Label Bench )框架
1、初始提示设计:基于明确定义的内容分类,精心设计系统提示原型。进行广泛的 Manual Testing(人工测试),以确保最终的系统提示是高质量的。
2、真值标注:从 Chatbot Arena 中随机抽取 2000 至 5000 场对战,利用一个或多个强大的大语言模型(如 Claude 3.5 Sonnet)为每场对战标注真实标签。可以通过人工检查来确保合理的准确性。
3、优化:使用较小的开源模型进行分类。在系统提示中移除任何COT内容,以进一步提升推理速度。
在优化阶段,采用较小规模的开源模型(如Llama或Alpaca等)作为分类器。较小的模型通常具有更低的计算资源需求,同时仍然能够满足分类任务的基本要求。此外,通过移除系统提示中的COT(思维链,Chain-of-Thought)部分,可以简化模型的推理过程,避免冗长的思维模拟,从而进一步提升推理速度。移除COT部分的原因在于,虽然COT有助于模型理解和生成更连贯的文本,但在快速分类任务中,这些额外的思考步骤可能会增加计算开销。通过移除COT,模型可以更快地完成推理任务,适用于需要实时响应或处理大量数据的场景。
4、验证:将小分类器与样本Battle的真实标签进行评估。通常会迭代优化,直至达到高精确度和高召回率。
在验证阶段,需要使用小分类器对预先标注好的样本Battle进行评估,确保分类结果与真实标签保持高度一致。验证的过程通常包括以下步骤:
- 数据准备:从Chatbot Arena或其他数据源中选取一定数量的样本Battle,并确保这些样本已经过高质量的标注,即每个样本都附有正确的类别标签。
- 模型评估:利用小分类器对样本Battle进行分类,然后将分类结果与真实标签进行对比,计算分类的精确度、召回率、F1值等评估指标。
- 迭代优化:根据评估结果,分析分类器在哪些类别上表现良好,哪些类别上存在不足。结合这些分析结果,调整模型参数、优化分类器的结构或改进提示设计,重复评估-优化的过程,直到分类器在目标类别上的精确度和召回率均达到预期。
- 质量检查:在优化完成后,进行人工质量检查,确保分类结果不仅符合定量指标,同时也符合定性的高质量标准,避免因模型误解导致的错误分类。
5、部署时,选择最佳的分类器和最适的系统提示,来标注整个Chatbot Arena数据集。
例如,在使用 Label Bench 框架开发的新的创意写作类别时,无需 CoT(Chain-of-Thought),Llama-3.1-70B-Instruct 能够以 96.1% 的准确率(精确度:66.7%,召回率:96.6%)对提示进行分类,这些高精度标签由配备 CoT 的 GPT-4o-mini 生成。通过将该分类器与配备 CoT 的 Claude 3.5 Sonnet 生成的标签进行交叉验证,进一步确保了其性能。在确认其表现后,再将这一可扩展的大语言模型部署到200 万个对战提示的最终标注工作中。
数据标注完成后,仅需要在标注为属于该类别的 Chatbot Arena 对战子集中计算排行榜,就可以生成特定类别的排行榜。
类别排名的意义
语言模型在不同领域的表现并不相同。有些任务可能需要精确执行指令,而另一些任务则推动模型通过复杂的数学问题进行推理或处理长时间的多轮对话的能力。通过将任务分组到类别中,可以以更精细的方式评估模型的优势和劣势。类别有助于阐明这些细微差别,使用户能够确定哪些模型最适合他们的特定需求。
内容参考
https://blog.lmarena.ai/blog/2024/arena-category/