基于 LMArena Chatbot Arena 真人盲测投票 + Bradley–Terry / Elo 算法的当前 Top 10 大模型。点击模型名查看 ToolHub 上对应的家族页;旁边 ↗ 图标跳官方页面。
| # | 模型 | Elo 分数 |
|---|---|---|
| 1 | Anthropic | 1502 |
| 2 |
| 1500 |
| 3 | Anthropic | 1498 |
| 4 | Anthropic | 1492 |
| 5 | Meta | 1489 |
| 6 | 1488 |
| 7 | 1486 |
| 8 | 1481 |
| 9 | 1480 |
| 10 | 1480 |
LMArena(原 LMSYS)Chatbot Arena 是大模型「真人偏好」评测的事实标准。真实用户在盲测对战里投票,平台用 Bradley–Terry 模型 + Elo 评分算出你在上方快照里看到的排名。
文本榜代表通用对话表现。WebDev、Vision、Coding 等子榜专测特定领域能力——如果你的需求是写代码或处理图像,直接看相应子榜比看总榜更准。
几个看榜要点:Elo 差距 10 分以内不一定有显著差异;带 "thinking" 后缀的版本通常分数更高但延迟和成本也更高;新加入的模型在投票样本稳定前排名波动较大。
如果你的核心需求就是直接看官方榜单、获取最新实时结果,官方 Arena 仍然是首选。
如果你除了排名之外,还想结合可用性、价格和生态支持一起看,OpenRouter 更偏产品决策视角。
如果你更重视 benchmark 指标而不是用户对战偏好,这类榜单会更适合做技术向比较。
重点查看“编程 (Coding)”或“高难度提示词 (Hard Prompts)”分类榜单,如果您正在寻找处理复杂逻辑或软件开发任务的最佳模型。
参与“匿名对战 (Side-by-side)”,在为 ELO 排名贡献数据的同时,用您的极端测试用例亲身验证不同模型的表现。
关注“风格控制”和“长文本 (Long Context)”专项更新,了解哪些模型在遵循严格格式或处理超大规模文档时表现更优。