LMSYS Chatbot Arena Leaderboard

新上架4

LMSYS Chatbot Arena 排行榜是一个基于真实用户偏好的大模型评测平台，通过“人类对战投票”而不是传统合成测评来排序各类大语言模型（LLM）。用户同时与两个匿名模型对话，只需选择回答更好的那一方，即可形成一条真实的对比数据。平台利用超过百万条人工成对比较记录，结合 Bradley–Terry 统计建模与 Elo 评分体系，为开源与商用模型生成稳定可靠的综合排名。排行榜覆盖聊天问答、代码生成、逻辑推理、写作创作等多种场景，帮助研究者、开发者和产品团队客观了解不同模型的实际表现，用于选型、对比新版本以及追踪模型能力演进。随着持续新增的对战数据和模型版本，排行榜能够动态反映行业最新进展，而不是一组静态的单次测分结果。 LMSYS Chatbot Arena 排行榜完全免费，通过网页即可访问，让个人用户、小团队和企业都能方便获取一线大模型评测信息。无论你是要为产品选型、验证自研模型能力，还是单纯想看看各家聊天机器人“谁更强”，这里都提供了基于大规模人类偏好的公开、公正参考。

定价Free

浏览

分类

收录时间2025年11月

官方网址

lmarena.ai

当前大模型排名与 Arena 洞察 (2026年3月)

LMSYS Chatbot Arena 仍然是衡量大模型真实人类偏好的“金标准”。目前，GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 正在顶级梯队激烈竞争。

核心趋势：闭源模型与开源模型（如 Llama 3）之间的差距正在迅速缩小，这使得 Arena 排名成为开发者在选择付费 API 还是本地部署时的重要参考。

本页面为您提供直达 LMSYS 官方 Arena 的快捷入口，同时对最新的 ELO 分数进行深度解读，帮助您判断哪些模型最适合处理日常的编程和写作任务。

可以一起参考的模型排行榜资源

LMSYS 官方 Arena

如果你的核心需求就是直接看官方榜单、获取最新实时结果，官方 Arena 仍然是首选。

OpenRouter Rankings

如果你除了排名之外，还想结合可用性、价格和生态支持一起看，OpenRouter 更偏产品决策视角。

Hugging Face 开源模型榜单

如果你更重视 benchmark 指标而不是用户对战偏好，这类榜单会更适合做技术向比较。

功能特点

如何高效使用 Chatbot Arena

重点查看“编程 (Coding)”或“高难度提示词 (Hard Prompts)”分类榜单，如果您正在寻找处理复杂逻辑或软件开发任务的最佳模型。
参与“匿名对战 (Side-by-side)”，在为 ELO 排名贡献数据的同时，用您的极端测试用例亲身验证不同模型的表现。
关注“风格控制”和“长文本 (Long Context)”专项更新，了解哪些模型在遵循严格格式或处理超大规模文档时表现更优。

LMSYS Chatbot Arena Leaderboard

当前大模型排名与 Arena 洞察 (2026年3月)

可以一起参考的模型排行榜资源

功能特点

相关标签

如何高效使用 Chatbot Arena

常见问题

什么是 LMSYS Chatbot Arena 排行榜？

排行榜上的模型分数和名次是如何计算的？

使用 LMSYS Chatbot Arena 排行榜需要付费吗？

我可以用排行榜为自己的产品选择大模型吗？

我可以把自己的模型接入平台进行评测吗？

用户评论