Anthropic发布最新AI模型Claude Sonnet 4.5,可连续编程30小时
9月30日消息,Anthropic发布最新AI模型Claude Sonnet 4.5,在推理和数学能力上实现了显著提升。Anthropic称Claude Sonnet 4.5是全球最出色的编码模型,也是构建复杂智能体(Agent)的最强模型,更是最擅长操作计算机的模型。
Claude Sonnet 4.5 已在全平台上线,开发者可通过 Claude API 直接调用,定价与 Claude Sonnet 4 保持一致,仍为每百万 tokens 3 美元 / 15 美元。
根据Anthropic公开的数据,在衡量 “真实世界软件编码能力” 的 SWE-bench Verified 评测中,Claude Sonnet 4.5 达到行业领先水平,能在复杂多步骤任务中保持专注超过30小时,全程稳定输出高质量代码。
Claude Sonnet 4.5 在 “计算机使用能力” 上实现重大突破:
* 在测试 AI 模型 “真实世界计算机任务处理能力” 的 OSWorld 基准测试中,其得分达到 61.4%,位居全球第一;而仅在 4 个月前,Claude Sonnet 4 的得分还为 42.2%(同样当时位列第一)。
* 借助 Claude 谷歌浏览器扩展程序,这些升级后的能力可直接落地:在下方演示中,Claude 能直接在浏览器内操作 —— 导航网页、填写电子表格、完成完整任务流,全程无需人工干预。
除编码和计算机操作外,Claude Sonnet 4.5 在推理、数学等领域的能力也显著提升。来自金融、法律、医疗、STEM(科学、技术、工程、数学)领域的专家反馈:相较于包括 Opus 4.1 在内的前代模型,Claude Sonnet 4.5 在 “领域专属知识” 和 “专业推理” 上的表现有质的飞跃。
此次发布不仅包含 Claude Sonnet 4.5 模型本身,还同步推出了一系列重大产品升级:
在 Claude Code 中,新增了用户呼声极高的 “检查点” 功能 —— 可自动保存工作进度,让你能即时回滚到之前的操作状态;
优化了终端界面,并推出原生 VS Code 扩展;
为 Claude API 新增 “上下文编辑” 功能和 “记忆工具”,使智能体能够处理更长时间、更复杂的任务;
在 Claude 应用内,直接支持 “代码执行” 和 “文件创建”(包括电子表格、幻灯片、文档等格式),无需跳转外部工具;
上个月加入等待列表的 Max 订阅用户,现已可使用 Claude 谷歌浏览器扩展程序。
此外,Anthropic还向开发者开放了构建 Claude Code 所依赖的核心组件 ——Claude Agent SDK,助力开发者打造专属智能体。