Insight Playbook
OpenAI Developers 最新演示把 Codex 从“会写代码”推到“会操作电脑”这一步:它能在不抢走用户当前桌面的前提下,跨应用点击、输入、等待和继续执行后台任务。这不是简单的自动化脚本升级,而是 OpenAI 正在把代码代理、桌面代理和异步协作揉成一个新工作流。
12 articles. Refine by sector, difficulty, or impact.
加州大学伯克利团队发布研究称,SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞,攻击者无需真正完成任务,也能拿到接近满分成绩。
Anthropic 在 Claude Code 中推出 Code Review,可自动审查拉取请求、标注逻辑错误并给出修复建议,主要面向团队版和企业版客户。
OpenAI 最近围绕 Codex 连续放出两条关键信号:一边强调把任务、代码和工作上下文整合到一起,帮助开发者更清楚地排优先级;另一边又把能力往原生开发场景推进,推出面向 macOS 应用构建的插件。它不只是“会写代码”,而是在往真正的开发工作流中间钻。
Instant 宣布 1.0 正式版并开源,主打给 AI 生成代码的应用提供实时、离线、多租户后端,内置认证、文件存储、在线状态与流式能力,目标是成为“AI 写应用”的默认后端。
Sam Altman 抛出一个很能说明趋势的数字:Codex 周活已经到了 300 万。配合 OpenAI 最近密集推出的桌面端、多代理协作、自动化与安全能力,这已经不是单纯的代码补全工具之争,而是软件开发入口之争。
OpenAI Developers 最新动态把 Codex 在 GitHub 里的能力又往前推了一步:不只会审 PR,还能从 issue 接任务、回应反馈、继续改代码,甚至直接推动开发流程往前走。这不是简单加了个插件,而是在把开发者最常待的 GitHub,变成 AI 原生协作界面。
Ollama 宣布在预览版中接入苹果机器学习框架 MLX,让 Apple Silicon 设备上的本地模型运行更快、更贴近系统底层能力,对 Mac 端本地 AI 开发者和工具链是直接利好。
Claude Code 创建者 Boris Cherny 亲自列出 15 个被低估的功能,包括 iOS 移动端编程、语音编程、自动代码审查等,宝玉进行了详细解读。
OpenAI 正式推出 Codex Security,一个专注于代码安全的 AI 代理。它能自动扫描代码库、定位安全漏洞、验证风险等级,并直接生成修复补丁。这不是又一个静态分析工具,而是一个能理解上下文、自主推理的安全工程师 AI。