Insight Playbook
Cloudflare 宣布开启 Agents Week,系统阐述其面向 AI 代理的基础设施路线:用基于 isolates 的 Workers、动态运行时和容器化沙箱,同时承接今天的浏览器/容器需求与未来的 MCP、代理身份和安全模型。
共 92 篇文章,第 1/9 页。按分类、难度或主题浏览。
AISLE 最新文章称,他们用多款小型开源模型复现了 Anthropic Mythos 展示的多类漏洞分析结果,说明 AI 网络安全能力并非线性依赖超大模型,真正护城河更可能在系统编排和安全工作流。
加州大学伯克利团队发布研究称,SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞,攻击者无需真正完成任务,也能拿到接近满分成绩。
伯克利 RDI 的一篇文章称,研究者在不真正完成任务的情况下几乎刷满多个 AI Agent 基准分数,引发社区对评测可信度的集中讨论。
Product Hunt 最近的 AI Agent 新品明显聚焦销售自动化与本地界面操作,Lessie AI、Cockpit AI 和 OpenOwl 分别覆盖找人、触达与无 API 场景执行。
Anthropic 在 Claude Code 中推出 Code Review,可自动审查拉取请求、标注逻辑错误并给出修复建议,主要面向团队版和企业版客户。
OpenAI 为 ChatGPT Business 和 Enterprise 团队新增仅 Codex 席位,取消固定席位费,按 token 用量计费,并把 ChatGPT Business 年付价格从每席 25 美元降到 20 美元。
OpenAI 宣布以 8520 亿美元投后估值完成 1220 亿美元融资,披露月收入已达 20 亿美元、企业收入占比超 40%,并明确提出要打造统一的 AI superapp。
OpenAI 最近围绕 Codex 连续放出两条关键信号:一边强调把任务、代码和工作上下文整合到一起,帮助开发者更清楚地排优先级;另一边又把能力往原生开发场景推进,推出面向 macOS 应用构建的插件。它不只是“会写代码”,而是在往真正的开发工作流中间钻。
据白名单账号 @dotey 整理,Anthropic 推出新的 advisor tool API 能力,允许 Sonnet 或 Haiku 在执行任务时,将复杂判断交给 Opus 提供建议,实现“便宜模型跑流程,贵模型做决策”的新型调用架构。
来自 Motion 团队的新产品 CSS Studio 开启早期访问,主打在网页内直接修改样式、布局、变量、动画和 DOM,再把改动交给本地 AI 代理写回项目源码。