Insight Playbook

AI 写作 / 设计 / 开发的落地文章

伯克利研究直指 AI Agent 榜单失真：八大基准可被“零解题”刷到近满分

加州大学伯克利团队发布研究称，SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞，攻击者无需真正完成任务，也能拿到接近满分成绩。

共 1 篇文章，按分类、难度或主题浏览。

标签筛选：#评测基准×

更多文章即将到来...