Anthropic 周一发布了 Claude Sonnet 4.5,宣称这是全球最强大的编程模型,能够自主工作超过30小时——比前一代产品多出四倍以上。

• 这款全新的 AI 模型在严格的软件工程评估 SWE-Bench Verified 中取得了 77.2% 的业界领先成绩,在计算机交互任务的 OSWorld 基准测试中也获得了 61.4% 的分数——相比四个月前 Claude Sonnet 4 的 42.2%,提升近20个百分点。

• 在内部测试中,Claude Sonnet 4.5 能够自主开发出一个完整的聊天应用,生成约11,000行代码,并在整个开发过程中保持一致性。

• 此模型引入了增强的开发者工具,包括 Claude Code 中的检查点功能,允许保存进度并回滚到先前状态,还能在对话中直接执行代码和创建文件。

• Anthropic 将其定位为迄今为止“最契合的前沿模型”,在欺骗、谋求权力等有害行为上显著减少,并增强了针对提示注入攻击的防御,还发布了 Claude Agent SDK 以支持构建自主代理。
 
 
Back to Top