AI在线 AI在线

GPT-5

蚂蚁万亿模型震撼开源!数学推理碾压GPT,国产AI首次问鼎奥数银牌

蚂蚁万亿模型震撼开源!数学推理碾压GPT,国产AI首次问鼎奥数银牌

92.6分 vs 94.6分——当我看到蚂蚁集团刚发布的Ring-1T模型在AIME25测试中的成绩时,第一反应是有点不敢相信。 一个国产开源模型,居然能在数学推理上逼近GPT-5的水平? 更震撼的是,这个叫Ring-1T的模型在模拟IMO(国际数学奥林匹克)近十年真题的测试中,正确率达到了银牌选手平均水平的93%。
10/22/2025 12:00:00 AM 阿丸笔记
惊爆!Vercel CEO 称 Kimi K2 在 AI 应用中超越 GPT-5,准确率高出 50%!

惊爆!Vercel CEO 称 Kimi K2 在 AI 应用中超越 GPT-5,准确率高出 50%!

近日,美国初创公司 Vercel 的首席执行官吉列尔莫在社交媒体上发布了一项引人注目的声明,称中国开源模型 Kimi K2在智能体应用场景中的表现远超其对手,包括前沿的闭源模型 GPT-5和 Claude Sonnet4.5。 根据吉列尔莫的分享,Kimi K2不仅在准确率上领先了50%,而且运行速度更是快了整整5倍,这一发现引发了科技界的广泛关注。 在一项真实场景基准测试中,吉列尔莫提供的数据表明,Kimi K2的运行时间仅为2分钟,而其竞争对手 GPT-5和 Sonnet4.5则需要8到10分钟才能完成相同任务。
10/21/2025 5:56:11 PM AI在线
图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”

编辑 | 听雨“什么是 AGI? ”这是所有科技公司都在喊的口号,却也是一个模糊得几乎无法定义的词。 OpenAI 说它要“追求 AGI”;Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”;谷歌和 Meta 则都声称自己“正在逼近 AGI”。
10/20/2025 3:43:10 PM 听雨
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

鹭羽 发自 凹非寺. 量子位 | 公众号 QbitAI在某种程度上,GPT-5可以被视作是o3.1。 该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。
10/20/2025 3:42:59 PM 鹭羽
​OpenAI GPT-5 被指数学成就夸大,引发科技界热议

​OpenAI GPT-5 被指数学成就夸大,引发科技界热议

近日,OpenAI 的 GPT-5在数学领域的宣称引发了广泛的争议。 Meta 的首席 AI 科学家 Yann LeCun 形容此次事件为 “自作自受”,而 Google DeepMind 的 CEO Demis Hassabis 则表示 “这太尴尬了”。 图源备注:图片由AI生成,图片授权服务商Midjourney事情的起因是 OpenAI 副总裁 Kevin Weil 在一条已被删除的推文中声称,GPT-5解决了10个之前未解的 Erdős 问题,并在11个其他问题上取得了进展。
10/20/2025 10:17:09 AM AI在线
OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬

OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬

太尴尬了。 就在周末,GPT-5又双叒带来了数学方面的新突破,一道难题被宣称解决…然鹅……很快就被发现是OpenAI的“营销过度”,小题大作,根本算不上什么突破。 友商大咖们也都不装了。
10/20/2025 9:22:56 AM
GPT-5破解世纪难题,竟是上网抄来的!哈萨比斯:太尴尬了

GPT-5破解世纪难题,竟是上网抄来的!哈萨比斯:太尴尬了

OpenAI团队狂吹了一波GPT-5,结果竟是闹剧一场......事情是这样的。 几天前,OpenAI科学家Sebastien Bubeck激动转发,两位研究员联手GPT-5 Pro,仅用了一个周末,破解了10个「百年悬案」——埃尔德什难题(Erdos problems)紧接着,OpenAI科学副总裁Kevin Weil等人纷纷加入,大肆宣传。 然而,真相很快浮出水面:这十道难题,早就被学界解决,并非由GPT-5独立解决,它只是通过检索网络文献给出了答案。
10/20/2025 9:13:00 AM
GPT-5 数学神话“塌房”:文献检索被当成原创突破。LeCun冷笑:被自家 GPT 傻子坑了吧

GPT-5 数学神话“塌房”:文献检索被当成原创突破。LeCun冷笑:被自家 GPT 傻子坑了吧

10月17日的晚上,AI世界一片喧嚣。 OpenAI研究员、前斯坦福数学家Mark Sellke发推,宣布GPT-5“找到了十个此前未解的Erdős问题的解”。 他列出十个编号,像在展示一场数学奇迹的战利品。
10/20/2025 2:00:00 AM
GPT-5 Pro惊现「神之一手」,30分钟攻克黑洞难题!

GPT-5 Pro惊现「神之一手」,30分钟攻克黑洞难题!

OpenAI真的要放大招了! 今天,黑洞理论物理学家Alex Lupsasca官宣入职,正式成为OpenAI新成立的「科学团队」的一员。 曾经,Alex一直认为AI离科研前沿遥不可及,直到他亲眼见证了GPT-5 Pro的惊人能力——它在短短30分钟内,竟破解了困扰Alex数日的「黑洞微扰」理论难题!
10/17/2025 5:49:11 PM
驳“AI 泡沫论”:一场被误读的、正在进行中的产业结构性调整

驳“AI 泡沫论”:一场被误读的、正在进行中的产业结构性调整

目前流传着一种看似合理的说法:GPT-5 表现未达预期,因此 AI 泡沫正在破裂。 这个观点看似顺理成章,实则是错误的。 这个说法将四个不同维度的事情强行捆绑,硬是揉成了一个整体:(1)产品体验的设计选择;(2)应用层的投资回报;(3)基础设施投入与供应链;(4)科研进展与规模化应用。
10/15/2025 3:15:00 AM Baihai IDP
人类遗忘的难题解法,被GPT-5重新找出来了

人类遗忘的难题解法,被GPT-5重新找出来了

人类遗忘的难题解法,被GPT-5 Pro重新找出来了! 这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。 该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
10/14/2025 8:54:00 AM
马来西亚迎来 AI 新纪元,ChatGPT Go 助力数字化转型

马来西亚迎来 AI 新纪元,ChatGPT Go 助力数字化转型

近日,OpenAI 在马来西亚推出了全新的 ChatGPT Go 订阅服务,月费仅为38.99马币(约9.25美元),大幅降低了 AI 高级功能的使用门槛。 此次推出的 ChatGPT Go 不仅包括了最新的 GPT-5模型,还提供了丰富的功能,如图片生成、文件上传及记忆功能,极大地提升了用户的体验。 这一举措正值马来西亚 AI 用户数量在过去一年中激增的背景下进行,OpenAI 希望通过更亲民的价格吸引中端用户和学生,进而扩展用户基础。
10/13/2025 5:31:58 PM AI在线
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金

大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金

人工智能真是日新月异。 早上看到网友的评论:我们已经 0 天没有吸引注意的 AI 领域新突破了。 记得三个月前,OpenAI 官宣了他们的推理模型在国际数学奥林匹克(IMO)竞赛中获得了金牌。
10/13/2025 1:07:00 PM 机器之心
Open Library 任务为何难倒 GPT-5?SWE-Bench Pro 揭示 AI 编程智能体的真实边界

Open Library 任务为何难倒 GPT-5?SWE-Bench Pro 揭示 AI 编程智能体的真实边界

大家好,我是肆〇柒。 今天要与大家分享的是一项由 Scale AI 研究团队最新发布的重磅研究成果——SWE-Bench Pro。 这项研究增强了我们对 AI 编程智能体能力的认知,它不再满足于测试模型能否完成简单的代码修改,而是直面真实企业环境中那些需要修改数百行代码、跨越多个文件的复杂任务。
10/13/2025 9:33:19 AM 肆零柒
快手KAT-Dev-72B-Exp震撼发布!74.6%解决率碾压GPT-5,编程Agent新王者

快手KAT-Dev-72B-Exp震撼发布!74.6%解决率碾压GPT-5,编程Agent新王者

你有没有想过,什么时候一个国产开源模型能在编程领域真正"碾压"GPT-5? 这个问题的答案,快手给出了。 昨天看到快手开源KAT-Dev-72B-Exp的消息时,我第一反应是——这数据是不是搞错了?
10/13/2025 12:00:05 AM 阿丸笔记
OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型

OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型

根据 OpenAI 的最新研究,刚刚发布的 GPT-5模型在政治偏见方面的表现远远优于以往的同类产品。 这一研究成果由 OpenAI 团队向 Axios 披露,标志着 AI 模型在偏见控制方面的重要进展。 图源备注:图片由AI生成,图片授权服务商Midjourney长期以来,公众和政界人士对 AI 系统的偏见问题表示关注,呼吁提高透明度,并确保这些模型不受偏见的影响。
10/12/2025 9:24:51 AM AI在线
GPT-5偏见测试结果公布:500问验证客观性飞跃,情感化问题仍是挑战

GPT-5偏见测试结果公布:500问验证客观性飞跃,情感化问题仍是挑战

OpenAI最新向Axios披露的研究成果显示,刚刚发布的GPT-5模型在政治偏见控制方面取得突破性进展,偏见水平较前代产品降低30%。 长期以来,AI系统的偏见问题一直是公众和政界关注的焦点。 今年7月,美国政府发布行政命令,要求政府使用的AI系统须剔除"觉醒型"特征,避免政治或意识形态偏见,但具体合规标准仍不明确。
10/12/2025 9:24:09 AM AI在线
刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API

刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API

OpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。 Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩:400 万开发者、8 亿周活 ChatGPT 用户、API 每分钟 60 亿 token 消耗量。 更重要的是,OpenAI 在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime-mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。
10/7/2025 10:16:00 AM 机器之心