Anthropic 周一发布了 Claude Sonnet 4.5，宣称这是全球最强大的编程模型，能够自主工作超过30小时——比前一代产品多出四倍以上

00:44 · Sep 30, 2025 · Tue

Anthropic 周一发布了 Claude Sonnet 4.5，宣称这是全球最强大的编程模型，能够自主工作超过30小时——比前一代产品多出四倍以上。

• 这款全新的 AI 模型在严格的软件工程评估 SWE-Bench Verified 中取得了 77.2% 的业界领先成绩，在计算机交互任务的 OSWorld 基准测试中也获得了 61.4% 的分数——相比四个月前 Claude Sonnet 4 的 42.2%，提升近20个百分点。

• 在内部测试中，Claude Sonnet 4.5 能够自主开发出一个完整的聊天应用，生成约11,000行代码，并在整个开发过程中保持一致性。

• 此模型引入了增强的开发者工具，包括 Claude Code 中的检查点功能，允许保存进度并回滚到先前状态，还能在对话中直接执行代码和创建文件。

• Anthropic 将其定位为迄今为止“最契合的前沿模型”，在欺骗、谋求权力等有害行为上显著减少，并增强了针对提示注入攻击的防御，还发布了 Claude Agent SDK 以支持构建自主代理。