Anthropic 发布最新研究,让 9 个 Claude Opus 4.6 实例在沙箱、共享论坛和远程评测环境中自主提出、测试并分析对齐方案,探索“比人更聪明的 AI 该如何被监督”。
Anthropic 发布了一项很有代表性的研究:他们使用 9 个 Claude Opus 4.6 实例组成“自动化对齐研究员”,让模型在带工具的沙箱环境里独立提出想法、编写代码、运行实验、共享发现,并持续优化一种名为 PGR 的指标,用来衡量“弱监督能否把强模型带向更优结果”。研究的核心问题是可扩展监督,也就是当未来模型比人更强时,人类还能否有效监督它。Anthropic 这次给出的答案不是纯理论推演,而是直接让模型参与对齐研究本身。
它的重要性在于,对齐研究第一次被明显推向“AI 协助做对齐”的实践阶段。过去行业常说未来模型会帮助训练下一代模型,但真正难的是:谁来保证这些更强系统仍然可控。Anthropic 用实验方式证明,现阶段模型已经有能力在特定框架下帮助推进这类研究,这可能改变未来安全研究的人力边界和效率上限。
实际影响上,这会进一步强化头部实验室在安全研究上的领先优势,因为只有拥有强模型、评测框架和算力资源的团队,才能持续跑这种闭环实验。对行业来说,安全不再只是“红队测试”或政策表态,而是开始演变成由模型参与、模型监督模型的新范式。
订阅工具岛 Newsletter
每周五发送最新的 AI 工具榜单、内容模板与增长实验,帮助你快速验证想法。
继续探索
继续你的阅读之旅
AI 编码太快,Anthropic 推出 Code Review 给海量 PR“把门”
Anthropic 在 Claude Code 中推出 Code Review,面向 Teams 和 Enterprise 用户自动分析 GitHub PR,优先发现逻辑错误,并按严重程度打标评论。
Claude Code 上线 Routines,把 AI 编程助手推进到“自动值班”阶段
Anthropic 为 Claude Code 推出 Routines,可按计划任务、API 调用或事件触发执行,且运行在 Anthropic 托管基础设施上,电脑关闭后也能继续跑。