行业资讯 · 2026年4月15日

Anthropic 让 9 个 Claude 自己做对齐研究，可扩展监督开始落地

Anthropic 发布最新研究，让 9 个 Claude Opus 4.6 实例在沙箱、共享论坛和远程评测环境中自主提出、测试并分析对齐方案，探索“比人更聪明的 AI 该如何被监督”。

Anthropic 发布了一项很有代表性的研究：他们使用 9 个 Claude Opus 4.6 实例组成“自动化对齐研究员”，让模型在带工具的沙箱环境里独立提出想法、编写代码、运行实验、共享发现，并持续优化一种名为 PGR 的指标，用来衡量“弱监督能否把强模型带向更优结果”。研究的核心问题是可扩展监督，也就是当未来模型比人更强时，人类还能否有效监督它。Anthropic 这次给出的答案不是纯理论推演，而是直接让模型参与对齐研究本身。

它的重要性在于，对齐研究第一次被明显推向“AI 协助做对齐”的实践阶段。过去行业常说未来模型会帮助训练下一代模型，但真正难的是：谁来保证这些更强系统仍然可控。Anthropic 用实验方式证明，现阶段模型已经有能力在特定框架下帮助推进这类研究，这可能改变未来安全研究的人力边界和效率上限。

实际影响上，这会进一步强化头部实验室在安全研究上的领先优势，因为只有拥有强模型、评测框架和算力资源的团队，才能持续跑这种闭环实验。对行业来说，安全不再只是“红队测试”或政策表态，而是开始演变成由模型参与、模型监督模型的新范式。

来源：Anthropic Research

订阅工具岛 Newsletter

每周五发送最新的 AI 工具榜单、内容模板与增长实验，帮助你快速验证想法。

继续探索

继续你的阅读之旅

查看全部

行业资讯

Anthropic 发布 Claude Opus 4.8，主打更强代理能力与动态工作流

Anthropic 将 Claude Opus 升级到 4.8 版本，维持原价上线，同时新增 effort 控制、Claude Code 动态工作流与更便宜的 fast mode。官方称其在编码、浏览器代理、长任务稳定性和真实性方面优于前代。

Privacy & Safety

TeaChecker Review 2026: Is This Tea App Profile Lookup Service Worth $15?

TeaChecker is a third-party service at teachecker.com that runs manual Tea App profile lookups for $15 and emails results within 24 hours.