AI在线 AI在线

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

Anthropic 公司在北京时间今天(5 月 23 日) 0 点 30 分举办的活动中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言模型,在结构化推理、软件工程和自主代理行为等领域实现重大进步。

Anthropic 公司在北京时间今天(5 月 23 日) 0 点 30 分举办的活动中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代语言模型,在结构化推理、软件工程和自主代理行为等领域实现重大进步。

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

Claude Opus 4:复杂推理与软件开发的巅峰之作

AI在线援引博文介绍,Claude Opus 4 被定位为 Anthropic 迄今最强大的模型,专为处理复杂的推理流程和软件开发场景设计。

测试数据显示,该模型在 SWE-bench 基准测试(评估模型解决真实 GitHub 问题的能力)中准确率达到 72.5%;在 TerminalBench 测试(在多步骤终端代码生成任务中验证模型表现)中准确率为 43.2%。

更令人瞩目的是,Opus 4 在软件环境中展现出强大的自主行为,得益于改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制,据 Rakuten 测试数据,可连续进行近 7 小时的代码生成和任务执行,刷新 AI 世界纪录,远超前代 Claude 3 Opus(不到 1 小时)。

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

Anthropic 声称,其 AI 模型不是为了消除工作岗位,而是一种将日常工作自动化的工具。不过 marktechpost 媒体认为,Claude 4 系列问世后,将改变 AI 的使用方式,让 AI 从完成单一任务的辅助工具,转换为具备更强、更广泛功能的“AI 同事”,可以自动工作几乎一个完整的工作班次。

Claude Sonnet 4:平衡性能与成本的通用选择

Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet,以更稳定的架构提升速度与质量,同时未显著增加计算成本。该模型针对中规模部署优化,适合需要在成本与性能间权衡的场景。

尽管推理能力不及 Opus 4,但 Sonnet 4 继承了许多架构升级,支持多文件代码导航、中间工具使用和结构化文本处理,延迟表现更佳。它成为 Claude.ai 免费用户的默认模型,并通过 API 提供服务,适用于轻量开发工具、用户助手和分析流程。

技术亮点与部署方式

两款模型均具备混合推理能力,提供“快速模式”(Fast Mode)用于低延迟的简短对话任务,以及“扩展思考模式”(Extended Thinking Mode)用于需要深度推理和多轮代理行为的复杂任务。

这种双模式策略让用户能根据任务复杂度灵活分配计算资源。此外,Claude Opus 4 和 Sonnet 4 可通过 Anthropic 的 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 等多个云平台访问,支持从自主代理到代码分析等多种企业应用场景。

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录

相关资讯

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

科技媒体 bleepingcomputer 今天(5 月 22 日)发布博文,报道称基于 Anthropic 官网配置文件,该公司正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型。
5/22/2025 10:48:24 AM
故渊

断供竞品前,Claude早已联手Cursor?共创播客曝光:AI编程瓶颈在代码检查!CTO揭秘如何用Cursor开发Cursor

编译 | 伊风事情的发展越来越有趣了。 Anthropic 在断供 WindSurf 模型接入时公开表态:把 Claude 卖给 OpenAI 的产品,确实“感觉很怪”。 这番话,让不少用户直接为 WindSurf 判了“技术死刑”。
6/13/2025 8:44:37 AM
伊风

Claude背后大厂终于出手!Kiro让氛围编码走出“造玩具”,开发流程结构化了!网友:氛围编程的游戏规则又要被改写!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)作为 Claude 背后的金主,亚马逊终于在 AI 编程领域终于出手了! 昨日,他们推出了自家的 Agentic IDE —— Kiro,一款由 Claude Sonnet 4 驱动的开发工具,目标明确:解决 vibe coding 应用难以上线的“最后一公里”问题。 乍看之下,Kiro 有些像 Cursor,但本质上,它走的是另一条路线。
7/15/2025 1:55:49 PM
  • 1