AI在线 AI在线

GPT-5

GPT-5展现惊人数学能力,助研究者节省一个月的工作时间

在人工智能领域,最新的进展引发了广泛关注。 OpenAI 的研究员塞巴斯蒂安・布贝克(Sebastien Bubeck)近日在社交媒体平台 X 上分享了他与新一代语言模型 GPT-5的合作经历。 他表示,GPT-5在处理复杂数学任务方面表现卓越,能够完成他原本需要一个月才能完成的工作,仅用一个下午就高效解决了问题。
12/1/2025 10:46:41 AM
AI在线

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败,准确率不足10%

据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。 该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。 CritPt:检验 AI 的科研实战能力“CritPt”由来自全球30多个机构的50多位物理学家共同构建。
11/24/2025 11:06:33 AM
AI在线

领先 AI 模型在复杂物理任务中表现不佳,仍需人类助力

近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。 测试的目标是模拟早期博士研究生所需的独立研究水平。 尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。
11/24/2025 11:06:08 AM
AI在线

OpenAI 发布新 GPT-5 模型,加速数学与科学研究

近日,OpenAI 宣布推出其最新的 GPT-5模型,这一新技术有望在数学和科学研究领域带来显著的加速。 随着人工智能技术的快速发展,各大科技公司纷纷看好 AI 在药物研发和新材料发现方面的潜力。 GPT-5模型的推出,正是顺应这一趋势,旨在帮助科研人员更高效地解决复杂问题。
11/21/2025 11:51:06 AM
AI在线

LMArena公布最新大模型排名:Claude、GPT-5与智谱GLM-4.6并列第一

近日,全球知名的 AI 模型评测平台 LMArena 公布了最新的 AI 大模型排名,令人瞩目的是,美国的 Anthropic 公司推出的 Claude、OpenAI 的 GPT-5 以及智谱科技的 GLM-4.6,这三款 AI 编程模型在排行榜上不分上下,齐齐占据了全球第一的位置。 这些模型专为编程任务而设计,旨在帮助开发者更加高效地进行代码编写、调试和优化。 随着科技的不断进步,AI 编程模型的出现不仅提升了软件开发的效率,也为各类开发者提供了强大的工具支持。
11/13/2025 4:57:07 PM
AI在线

刚刚,GPT-5.1发布,OpenAI开始拼情商

深夜,GPT-5 系列迎来大更新:上线 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型:GPT-5.1 Instant:ChatGPT 最常用的模型,更温暖、更智能,也更善于遵循指令的模型。 GPT-5.1 Thinking:高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解。 对于新上线的模型,OpenAI 表示出色的 AI 不仅要聪明,还要让人与之对话变得愉悦。
11/13/2025 10:47:00 AM
机器之心

OpenAI深陷90亿美元现金流危机!技术光环难掩财务隐忧,Anthropic已悄然领跑盈利赛道

据最新披露的内部文件显示,OpenAI预计未来将面临高达90亿美元的负自由现金流——这一数字不仅刷新行业认知,更将这家全球最受瞩目的AI公司推入“技术领先与财务可持续”的尖锐矛盾之中。 负现金流警报:烧钱速度远超收入增长自由现金流为负,意味着OpenAI在支付所有运营开支与资本投入后,现金净流出高达90亿美元。 这一巨额缺口主要源于三重压力:基础设施激进扩张:为支撑GPT-5、Sora及AI智能体生态,公司持续加码GPU集群与数据中心建设;人才争夺战白热化:顶尖AI研究员年薪普遍突破百万美元,团队规模快速膨胀;产品免费策略:尽管ChatGPT坐拥8亿周活用户,但免费版占比过高,商业化变现仍处爬坡期。
11/11/2025 1:21:47 PM
AI在线

大模型AI扫地机器人 “翻车”:成功率仅 40%!家庭应用仍有待提高

最近,AI 实验室 Andon Labs 进行了一项引人注目的研究,专门评估了搭载顶级大模型的扫地机器人在完成简单家务任务时的表现。 实验的任务是让这些机器人执行一系列复杂的指令,比如 “把黄油递给人”,其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。 然而,结果让人震惊。
11/3/2025 8:51:19 AM
AI在线

DeepMind一篇论文终结十年之争!GPT-5推理靠世界模型

GPT-5上线后,最让人震惊的不是它能写诗画画,而是它展现出的推理能力。 网友惊呼:「感觉像是在和博士讨论问题」,媒体更是直言它的逻辑水平已经「堪比专家」。 为什么会出现这种「突然开窍」的效果?
10/31/2025 4:04:17 PM
新智元

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。 目前,Aardvark还处于beta测试阶段。 OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。
10/31/2025 3:53:06 PM

OpenAI“Company Knowledge”上线 可以连接企业知识和数据源

OpenAI正式推出ChatGPT的“Company Knowledge”功能,这一创新直接响应了企业用户对数据碎片化痛点的呼声。 根据最新动态,这一功能于率先向Business、Enterprise和Edu计划用户开放,已在全球范围内引发热议。 它标志着ChatGPT从通用聊天工具向深度企业助理的华丽转身,帮助团队高效整合散布在多平台的内部知识。
10/27/2025 10:56:25 AM
AI在线

DATAMIND:构建专业级数据分析智能体的可扩展方法论

大家好,我是肆〇柒。 今天来看看来自浙江大学与阿里巴巴集团联合研究团队的最新工作——《Scaling Generalist Data-Analytic Agents》。 这项研究不仅提出了名为 DATAMIND 的高质量数据合成与智能体训练框架,更训练出了在多项基准上超越 GPT-5 的开源数据分析智能体 DATAMIND-14B,为构建专业领域 Agentic AI 提供了一套可复现、可扩展的方法论。
10/27/2025 9:00:09 AM
肆零柒

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

本文(共同)第一作者为王少博(上交 AI)、焦政博(上财)。 (共同)通讯作者为魏虎(阿里巴巴)和张林峰(上交 AI)。 本文其他作者来自阿里巴巴、武大、浙大等。
10/23/2025 4:45:09 PM

蚂蚁万亿模型震撼开源!数学推理碾压GPT,国产AI首次问鼎奥数银牌

92.6分 vs 94.6分——当我看到蚂蚁集团刚发布的Ring-1T模型在AIME25测试中的成绩时,第一反应是有点不敢相信。 一个国产开源模型,居然能在数学推理上逼近GPT-5的水平? 更震撼的是,这个叫Ring-1T的模型在模拟IMO(国际数学奥林匹克)近十年真题的测试中,正确率达到了银牌选手平均水平的93%。
10/22/2025 12:00:00 AM
阿丸笔记

惊爆!Vercel CEO 称 Kimi K2 在 AI 应用中超越 GPT-5,准确率高出 50%!

近日,美国初创公司 Vercel 的首席执行官吉列尔莫在社交媒体上发布了一项引人注目的声明,称中国开源模型 Kimi K2在智能体应用场景中的表现远超其对手,包括前沿的闭源模型 GPT-5和 Claude Sonnet4.5。 根据吉列尔莫的分享,Kimi K2不仅在准确率上领先了50%,而且运行速度更是快了整整5倍,这一发现引发了科技界的广泛关注。 在一项真实场景基准测试中,吉列尔莫提供的数据表明,Kimi K2的运行时间仅为2分钟,而其竞争对手 GPT-5和 Sonnet4.5则需要8到10分钟才能完成相同任务。
10/21/2025 5:56:11 PM
AI在线

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”

编辑 | 听雨“什么是 AGI? ”这是所有科技公司都在喊的口号,却也是一个模糊得几乎无法定义的词。 OpenAI 说它要“追求 AGI”;Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”;谷歌和 Meta 则都声称自己“正在逼近 AGI”。
10/20/2025 3:43:10 PM
听雨

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

鹭羽 发自 凹非寺. 量子位 | 公众号 QbitAI在某种程度上,GPT-5可以被视作是o3.1。 该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。
10/20/2025 3:42:59 PM
鹭羽

​OpenAI GPT-5 被指数学成就夸大,引发科技界热议

近日,OpenAI 的 GPT-5在数学领域的宣称引发了广泛的争议。 Meta 的首席 AI 科学家 Yann LeCun 形容此次事件为 “自作自受”,而 Google DeepMind 的 CEO Demis Hassabis 则表示 “这太尴尬了”。 图源备注:图片由AI生成,图片授权服务商Midjourney事情的起因是 OpenAI 副总裁 Kevin Weil 在一条已被删除的推文中声称,GPT-5解决了10个之前未解的 Erdős 问题,并在11个其他问题上取得了进展。
10/20/2025 10:17:09 AM
AI在线