AI在线 AI在线

自己打败自己!Claude Opus 4.1紧急上线!再度刷新AI编程记录,未来数周还有重磅!网友:AI圈的八月混战开始了!

今天太魔幻了! 短短几小时内,OpenAI、Anthropic、Google 先后放出新品,直接把八月这场大混战的序幕点燃了! Anthropic 选择在这个节点紧急上线 Claude Opus 4.1,在编码基准测试上再次登顶。

今天太魔幻了!

短短几小时内,OpenAI、Anthropic、Google 先后放出新品,直接把八月这场大混战的序幕点燃了!

Anthropic 选择在这个节点紧急上线 Claude Opus 4.1,在编码基准测试上再次登顶。

图片图片

Opus 4.1 现已向付费 Claude 用户和 Claude Code 用户开放,并同步上线 API、Amazon Bedrock 以及 Google Cloud Vertex AI。

不过,正如一些网友所说,这波更像是应对GPT-5铺天盖地的炒作,而搞了一个临时的小更新。

目的是缓解GPT-5上线后,可能给Claude API收入带来的冲击。

图片图片

此外,对大多数人来说,自己的编程主力是 Sonnet,而不是这次更新的超大杯 Opus。 如果同类改进下放到 Sonnet,可能会影响更多开发者的日常工作体验。

好消息是,Anthropic 已经放话——未来几周还会有更大的模型更新登场。

图片图片

一位Hacker News网友期待地说:

鉴于 GPT‑5 的传闻,八月才刚开始。

另一位网友则幽默回复:

按公历和地球轨道,八月确实才刚开始。

图片图片

看来,这将是注定是AI圈不平凡的一个月。

1.编程性能再度提升,但真实体验更能说明问题

从基准测试来看,Claude这波更新更像是常规操作。

Opus 4.1 在 SWE‑bench Verified 测试中将编码性能提升至 74.5%,刷新了当前的最高分,依旧稳压 OpenAI o3 和 Gemini 2.5 Pro。

根据 Claude 官方文档,新版 Opus 还强化了深入研究与数据分析能力,尤其是在细节追踪和自主搜索方面。

图片图片

不过,纸面上的分数是一回事,实际体验又是另一回事——有开发者表示,虽然提升幅度看似不大,但上手后的感受可能会非常显著。

这也暴露了当前 benchmark 的一个争议点:它们越来越难真实反映模型在日常使用中的表现。

在 Reddit 上,一位用户分享了自己的实测感受:

“我让它执行了今早做过的同一个任务,结果明显更好。任务是:在一个大型且复杂的代码库中,调查并识别与某个新功能相关的系统与组件。我给了它三个关注领域,并要求为每个领域调用一个子代理,最后将调查结果分别保存成 Markdown 文件。 

结果是,Opus 4.1 的搜索行为明显不同,犯错次数减少了。虽然它依然会虚构部分服务、误述 API 和接口,但整体表现的确有所改进。”

图片图片

2.Claude 全力押注 To B,在技术文档中“点名”大客户

有意思的是,在篇幅并不长的 Opus 4.1 技术文档中,Anthropic 特地留出了一整段展示企业客户的使用反馈。

  • GitHub 表示,Claude Opus 4.1 在大多数能力上较 Opus 4 都有提升,尤其是在多文件代码重构中的表现十分突出。 
  • 乐天集团 发现,Opus 4.1 能在大型代码库中精准定位需要修正的部分,不会做多余改动或引入 Bug,这种精确度在他们的日常调试中尤为重要。 
  • Windsurf 报告称,在其初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了一个标准差,幅度大致相当于从 Sonnet 3.7 升级到 Sonnet 4 的跳跃。

值得一提的是,在此前 Windsurf 与 OpenAI 收购案闹得沸沸扬扬之际,Windsurf 曾一度失去 Claude 供应,CEO 连续发帖公开喊话批评 Claude无事前沟通、直接断供。场面一度十分难看。

如今在经历一系列风波后,Windsurf 与 Claude 再度恢复合作,显然关系已经回暖。

这种“客户背书”正好契合 Anthropic 全力做 To B 的战略方向。行业数据显示,Anthropic 在短短 7 个月内,年化经常性收入(ARR)从 10 亿美元飙升至 50 亿美元,增长了整整 5 倍;其中 API 收入高达 31 亿美元,占据半壁江山。

正如 Anthropic CEO Dario 上周所言:

 “我们认为,AI 在企业和专业领域的应用,最终可能会超过 C 端市场。”

3.写在最后:编程强势,但 Anthropic 暗藏危机

与 OpenAI、Google 同日更新,Claude 显然也想抢占流量,稀释竞争对手的关注度。

在编程体验上,Claude 系列几乎一骑绝尘,这也为 Anthropic 带来了可观的收入。

但过于集中的客户结构,让这份优势伴随着高风险——在 31 亿美元的 API 收入中,Cursor 和 GitHub 两家就贡献了一半。

图片图片

这也意味着,一旦 GPT‑5 能在编码能力上对 Claude 发起挑战,并促使 Cursor、GitHub Copilot 等大客户转向 OpenAI,市场格局可能迅速逆转。

尤其是 GitHub 本身隶属于微软,而微软又是 OpenAI 的重要股东——如果双方在编程能力上打成平手,Claude 失去 GitHub 的风险将显著放大。

另一方面,Anthropic 也在积极布局直面企业的 Claude Code。这个产品一经上线,数周内收入就翻倍,年化收入达到 4 亿美元,印证了企业级客户对高性能 AI 编码工具的巨大需求。

Dario出席各种访谈,也把Claude编程能力提升的细节当做最高的商业机密,绝口不提。

接下来,问题的关键在于——GPT‑5 会不会在编程能力上实现大幅跃升?

答案可能很快就要揭晓了。

相关资讯

Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布

科技媒体 bleepingcomputer 今天(5 月 22 日)发布博文,报道称基于 Anthropic 官网配置文件,该公司正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型。
5/22/2025 10:48:24 AM
故渊

断供竞品前,Claude早已联手Cursor?共创播客曝光:AI编程瓶颈在代码检查!CTO揭秘如何用Cursor开发Cursor

编译 | 伊风事情的发展越来越有趣了。 Anthropic 在断供 WindSurf 模型接入时公开表态:把 Claude 卖给 OpenAI 的产品,确实“感觉很怪”。 这番话,让不少用户直接为 WindSurf 判了“技术死刑”。
6/13/2025 8:44:37 AM
伊风

Claude背后大厂终于出手!Kiro让氛围编码走出“造玩具”,开发流程结构化了!网友:氛围编程的游戏规则又要被改写!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)作为 Claude 背后的金主,亚马逊终于在 AI 编程领域终于出手了! 昨日,他们推出了自家的 Agentic IDE —— Kiro,一款由 Claude Sonnet 4 驱动的开发工具,目标明确:解决 vibe coding 应用难以上线的“最后一公里”问题。 乍看之下,Kiro 有些像 Cursor,但本质上,它走的是另一条路线。
7/15/2025 1:55:49 PM
  • 1