AI在线 AI在线

​耐力惊人!Anthropic 旗舰模型 Claude Opus4.5创下“长任务”处理新纪录

在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。 根据人工智能研究机构METR发布的最新基准测试,Anthropic 旗下的顶级模型Claude Opus4.5在处理超长时间任务方面展现出了统治级实力。 测试结果显示,Claude Opus4.5在维持50% 成功率的前提下,能够持续处理长达约 4小时49分钟 的复杂任务,这一表现刷新了行业历史记录。

在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构METR发布的最新基准测试,Anthropic 旗下的顶级模型Claude Opus4.5在处理超长时间任务方面展现出了统治级实力。

image.png

测试结果显示,Claude Opus4.5在维持50% 成功率的前提下,能够持续处理长达约 4小时49分钟 的复杂任务,这一表现刷新了行业历史记录。所谓的“时间分辨率”指标,揭示了模型在不同难度挑战下的耐力边界:在面对简单任务(80% 成功率)时,它仅需27分钟即可完成;而一旦进入高难度、高耗时的深水区,Opus4.5的优势便被无限放大。

AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但METR坦言这可能受限于样本量较小而产生的误差。尽管如此,这一突破依然标志着 AI 正在从“短指令回复者”向“长程项目执行者”转型。

然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,Claude Opus4.5的出现,确实为需要高强度、长时程逻辑支撑的 AGI 任务提供了新的可能性。

相关资讯

Anthropic证实:Claude Opus 4.1和Opus 4模型出现 “降智” 现象,已紧急修复!

Anthropic 公司发布了一份事件报告,确认其最新的 Claude Opus4.1和 Opus4模型在8月25日至28日之间的确遭遇了 “降智” 现象。 用户们在使用这些模型时,可能会发现回答质量显著下降,包括回答不准确、格式错误,甚至在调用工具时出现问题。 据官方的说明,造成这一情况的原因是由于推理堆栈的更新引起的。
9/1/2025 2:26:08 PM
AI在线

Anthropic在移动端推Claude对话语音模式,可搜索Google 文档、日历等

位于旧金山的人工智能初创公司Anthropic宣布推出 Claude 人工智能聊天机器人新的重大更新:全新的语音对话模式。 该功能已在苹果 App Store(iOS 设备)和谷歌 Play Store(Android 设备)的移动应用中上线。 除了语音模式的推出,Anthropic还为所有免费用户扩展了网络搜索功能。
5/28/2025 10:01:00 AM
AI在线

Salesforce 斥资80亿美元收购 Informatica 押注Agent

Salesforce 周二宣布,将以约80亿美元现金收购云数据管理公司 Informatica,旨在进一步强化其 AI 战略核心 Agentforce 平台的能力。 根据协议,Informatica A 类和 B-1类普通股股东将获得每股25美元的现金回报。 交易将通过 Salesforce 的现金储备与新增债务的方式融资。
5/28/2025 10:01:01 AM
AI在线