Anthropic 发布 Claude Sonnet 5:性能逼近 Opus 4.8 且价格更低,安全与成本优势尽显!

Anthropic 发布 Claude Sonnet 5:性能逼近 Opus 4.8 且价格更低,安全与成本优势尽显!
Anthropic 发布全新模型 Claude Sonnet 5性能接近 Opus 4.8 但价格更低安全与成本优势凸显刚刚Anthropic 正式发布了全新的模型 Claude Sonnet 5称其为「迄今为止最具 Agent 属性的 Sonnet 模型」。它可以制定计划使用浏览器、终端等工具并以数月前还需要更大、更昂贵模型才能达到的水平自主运行。性能显著提升缩小与 Opus 级差距Sonnet 5 在推理、工具使用、编程和知识工作方面相比 Sonnet 4.6 性能有显著提升更接近 Opus 4.8但价格更低。官方表示对于开发者来说AI Agent 时代正是从 Sonnet 级模型开始的Claude Sonnet 3.5、3.6 和 3.7 是最早在编程和工具使用上展现出亮眼能力的一批模型。不过最近一段时间Agent 能力最明显的提升主要出现在 Opus 级模型上。而 Claude Sonnet 5 明显缩小了这一差距。成本 - 性能选项更优具体对比如下Sonnet 5 与 Sonnet 4.6、Opus 4.8 在智能体搜索评测 BrowseComp 和 computer use 评测 OSWorld‑Verified 上于不同「努力程度」下的表现中Sonnet 5橙色线相比 Sonnet 4.6灰色线具有明确的性能提升且覆盖的成本 - 性能选项范围比 Opus 4.8黄色线更广。在中等努力程度下Sonnet 5 显著提升了成本效率在更高努力程度下其性能在某些任务上可媲美 Opus 4.8。在 Sonnet 5 和 Opus 4.8 之间用户可根据具体任务灵活调整努力程度找到最适合自身需求的成本与性能平衡点。此前最好的 Sonnet 模型Sonnet 4.6远不及 Opus 4.8。Sonnet 5 提供了比 Sonnet 4.6 更广泛的成本 - 性能选项在某些情况下可达到 Opus 4.8 的能力水平。图表中展示的 Sonnet 5 定价为输入 $3 / 百万 token输出 $15 / 百万 token。通过 8 月 31 日前的尝鲜价输入 $2 / 百万 token、输出 $10 / 百万 tokenSonnet 5 的实际成本甚至比图中显示的更低。Opus 4.8 的定价为输入 $5 / 百万 token输出 $25 / 百万 token。自主智能体能力增强来自 Anthropic 早期访问合作伙伴的反馈始终一致Sonnet 5 比其前代模型更具自主智能体能力agentic。测试者描述说它能完成复杂任务 —— 而之前的 Sonnet 模型会在这些任务上中途止步它会主动检查自己的输出无需明确提示而且它以极具吸引力的价格完成所有这些智能体工作。安全评估有改善安全评估方面Anthropic 的部署前安全评估发现Sonnet 5 整体上相比 Sonnet 4.6 有所改善。在自主智能体安全性方面该模型在拒绝恶意请求和抵御提示注入攻击中的劫持尝试方面表现更好。模型的幻觉率和谄媚行为率均低于 Sonnet 4.6。在自动化行为审计测试范围广泛的失当行为如协助滥用和欺骗中Sonnet 5 得分更低即更安全。不过与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比它在该评估中确实表现出略高的失当行为率。Sonnet 5 的失当行为率整体低于 Sonnet 4.6但高于 Mythos Preview 和 Opus 4.8。Anthropic 表示他们并未刻意针对网络安全任务训练 Sonnet 5。它可以执行一些常规、无害的网络任务但在评估潜在危险网络技能如开发软件漏洞利用程序时其表现显著逊于 Opus 4.8 和 Mythos 5 等模型。下图展示了其中一项评估的得分该评估测试了模型针对 Firefox 浏览器漏洞开发利用程序的能力。Sonnet 5 始终未能开发出完整可用的漏洞利用程序但其部分成功率略高于 Sonnet 4.6。后者的提升可能源于通用智能的改进而非特定训练。两款 Sonnet 模型均未能成功开发出可利用程序得分均为 0.0%Sonnet 5 的部分成功率略高于 Sonnet 4.6。两款 Sonnet 模型的网络能力均显著弱于 Opus 4.8 和 Mythos 5。由于 Sonnet 5 在这些任务上比其前代略有增强Anthropic 已默认启用了网络安全护栏。这些护栏 —— 能够实时检测并阻止危险的网络使用 —— 与 Claude Opus 4.7 和 4.8 中的相同因为 Anthropic 判断 Sonnet 5 的整体网络安全风险较低其护栏严格程度低于 Fable 5 所启用的 —— 后者会阻止更广泛的网络安全任务。Anthropic 对 Sonnet 5 在多项安全和能力评估上的完整评估报告详见 《Claude Sonnet 5 系统卡》。定价与优惠定价方面今天起Claude Sonnet 5 已在所有渠道正式可用。为庆祝发布Anthropic 推出限时优惠首发价即日起至 2026 年 8 月 31 日输入为 $2 / 百万 token输出为 $10 / 百万 token之后恢复标准定价输入 $3 / 百万 token输出 $15 / 百万 token。与此同时他们宣布全面上调 Chat、Cowork、Claude Code 以及 Claude 平台的速率限制rate limits以适配更高「努力程度」模式带来的更大 token 消耗。注意事项注意事项如下网络安全验证Sonnet 5 已纳入 Anthropic 的「网络安全验证计划」。该计划现已在以下平台开放使用Claude 原生平台、AWS 上的 Claude 平台、Microsoft Foundry 中的 Claude托管于 Azure 和 AnthropicGoogle Vertex 上的 Claude 也将很快支持。已加入该计划的组织在 Sonnet 5 上自动获得同等访问权限无需重新申请。如果你的网络安全工作需要更少的安全护栏限制Anthropic 推荐使用 Claude Opus 4.8。tokenizer 更新与定价说明Sonnet 5 是 Sonnet 4.6 的升级版但采用了全新的 tokenizer以优化文本处理性能这与 Claude Opus 4.7 引入的 tokenizer 变更类似。带来的变化是相同输入内容现在会映射为更多 token具体增幅约为 1.01.35 倍视内容类型而定。为此Anthropic 设定的尝鲜价正是为了让用户过渡到 Sonnet 5 时整体使用成本大致保持不变。速率限制调整说明早在 2026 年 4 月 26 日Anthropic 已针对 Sonnet 和 Haiku 模型在所有使用层级上调高了速率限制并将原生 Claude 平台的套餐简化为三个层级Start、Build、Scale。本次更新Anthropic 进一步上调了 Chat、Cowork、Claude Code 及 Claude 平台的速率限制以配合更高「努力程度」模式带来的更大 token 消耗。您可以在 Claude Console 中查看当前层级和具体限制或查阅文档获取更多详情。评测分数更正说明补充Humanity’s Last ExamAnthropic 更新了该评测的评分模型并据此将 Sonnet 4.6 的分数修正为 34.6%无工具 和 46.8%有工具。因此该分数与 Sonnet 4.6 发布博客中报告的数据有所不同特此说明。OSWorld‑VerifiedAnthropic 优化了该评测的运行方式以更真实地反映模型在实际场景中的表现并将 Sonnet 4.6 的分数修正为 78.5%。这也是该分数与 Sonnet 4.6 发布博客中数据不一致的原因。开发者上手反馈开发者上手反馈方面Claude Sonnet 5 一经发布大家也已经开始上手测评。网友 Nicolas Bustamante 表示自己很喜欢 Sonnet 5 的一点在于它速度很快而且针对 Agent 做了优化。「我最喜欢的例子是浏览器使用又快又安全。」根据 system card 结果表明浏览器使用场景下的提示注入攻击成功率Sonnet 5 只有 0.93%而 Opus 4.8 是 31.5%Sonnet 4.6 是 50.7%。不过也有网友表示 「太贵了。」 而据 Artificial Analysis 分析在 Intelligence Index 上Claude Sonnet 5 的运行成本为每项任务 2.29 美元相比 Sonnet 4.6 增加约 2 倍也比 Claude Opus 4.8 高出约 15%。这一成本上升完全由 token 使用量增加所驱动使 Claude Sonnet 5 成为运行成本最高的模型之一仅次于 Claude Fable 5。那么你呢觉得新模型如何欢迎评论区留言、交流