耐力惊人!Anthropic 旗舰模型 Claude Opus4.5创下“长任务”处理新纪录

作者：AI在线 2025-12-22 12:21

在追求大模型“高智商”的同时，AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构METR发布的最新基准测试，Anthropic 旗下的顶级模型Claude Opus4.5在处理超长时间任务方面展现出了统治级实力。测试结果显示，Claude Opus4.5在维持50% 成功率的前提下，能够持续处理长达约 4小时49分钟的复杂任务，这一表现刷新了行业历史记录。

在追求大模型“高智商”的同时，AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构METR发布的最新基准测试，Anthropic 旗下的顶级模型Claude Opus4.5在处理超长时间任务方面展现出了统治级实力。

测试结果显示，Claude Opus4.5在维持50% 成功率的前提下，能够持续处理长达约 4小时49分钟 的复杂任务，这一表现刷新了行业历史记录。所谓的“时间分辨率”指标，揭示了模型在不同难度挑战下的耐力边界:在面对简单任务（80% 成功率）时，它仅需27分钟即可完成;而一旦进入高难度、高耗时的深水区，Opus4.5的优势便被无限放大。

AIbase 注意到，虽然测试数据中出现了模型理论上可连续工作超过20小时的数值，但METR坦言这可能受限于样本量较小而产生的误差。尽管如此，这一突破依然标志着 AI 正在从“短指令回复者”向“长程项目执行者”转型。

然而，也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本，且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是，Claude Opus4.5的出现，确实为需要高强度、长时程逻辑支撑的 AGI 任务提供了新的可能性。

Anthropic证实：Claude Opus 4.1和Opus 4模型出现 “降智” 现象，已紧急修复！

Anthropic 公司发布了一份事件报告，确认其最新的 Claude Opus4.1和 Opus4模型在8月25日至28日之间的确遭遇了 “降智” 现象。用户们在使用这些模型时，可能会发现回答质量显著下降，包括回答不准确、格式错误，甚至在调用工具时出现问题。据官方的说明，造成这一情况的原因是由于推理堆栈的更新引起的。

9/1/2025 2:26:08 PM AI在线

Anthropic在移动端推Claude对话语音模式，可搜索Google 文档、日历等

位于旧金山的人工智能初创公司Anthropic宣布推出 Claude 人工智能聊天机器人新的重大更新:全新的语音对话模式。该功能已在苹果 App Store（iOS 设备）和谷歌 Play Store(Android 设备)的移动应用中上线。除了语音模式的推出，Anthropic还为所有免费用户扩展了网络搜索功能。

5/28/2025 10:01:00 AM AI在线

Salesforce 斥资80亿美元收购 Informatica 押注Agent

Salesforce 周二宣布，将以约80亿美元现金收购云数据管理公司 Informatica，旨在进一步强化其 AI 战略核心 Agentforce 平台的能力。根据协议，Informatica A 类和 B-1类普通股股东将获得每股25美元的现金回报。交易将通过 Salesforce 的现金储备与新增债务的方式融资。

5/28/2025 10:01:01 AM AI在线

​耐力惊人!Anthropic 旗舰模型 Claude Opus4.5创下“长任务”处理新纪录

相关资讯

Anthropic证实：Claude Opus 4.1和Opus 4模型出现 “降智” 现象，已紧急修复！

Anthropic在移动端推Claude对话语音模式，可搜索Google 文档、日历等

Salesforce 斥资80亿美元收购 Informatica 押注Agent

耐力惊人!Anthropic 旗舰模型 Claude Opus4.5创下“长任务”处理新纪录