LMSYS Chatbot Arena 排行榜是一个基于真实用户偏好的大模型评测平台,通过“人类对战投票”而不是传统合成测评来排序各类大语言模型(LLM)。用户同时与两个匿名模型对话,只需选择回答更好的那一方,即可形成一条真实的对比数据。平台利用超过百万条人工成对比较记录,结合 Bradley–Terry 统计建模与 Elo 评分体系,为开源与商用模型生成稳定可靠的综合排名。 排行榜覆盖聊天问答、代码生成、逻辑推理、写作创作等多种场景,帮助研究者、开发者和产品团队客观了解不同模型的实际表现,用于选型、对比新版本以及追踪模型能力演进。随着持续新增的对战数据和模型版本,排行榜能够动态反映行业最新进展,而不是一组静态的单次测分结果。 LMSYS Chatbot Arena 排行榜完全免费,通过网页即可访问,让个人用户、小团队和企业都能方便获取一线大模型评测信息。无论你是要为产品选型、验证自研模型能力,还是单纯想看看各家聊天机器人“谁更强”,这里都提供了基于大规模人类偏好的公开、公正参考。
LMSYS Chatbot Arena 仍然是衡量大模型真实人类偏好的“金标准”。目前,GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 正在顶级梯队激烈竞争。
核心趋势:闭源模型与开源模型(如 Llama 3)之间的差距正在迅速缩小,这使得 Arena 排名成为开发者在选择付费 API 还是本地部署时的重要参考。
本页面为您提供直达 LMSYS 官方 Arena 的快捷入口,同时对最新的 ELO 分数进行深度解读,帮助您判断哪些模型最适合处理日常的编程和写作任务。
如果你的核心需求就是直接看官方榜单、获取最新实时结果,官方 Arena 仍然是首选。
如果你除了排名之外,还想结合可用性、价格和生态支持一起看,OpenRouter 更偏产品决策视角。
如果你更重视 benchmark 指标而不是用户对战偏好,这类榜单会更适合做技术向比较。
重点查看“编程 (Coding)”或“高难度提示词 (Hard Prompts)”分类榜单,如果您正在寻找处理复杂逻辑或软件开发任务的最佳模型。
参与“匿名对战 (Side-by-side)”,在为 ELO 排名贡献数据的同时,用您的极端测试用例亲身验证不同模型的表现。
关注“风格控制”和“长文本 (Long Context)”专项更新,了解哪些模型在遵循严格格式或处理超大规模文档时表现更优。