GPT-5
蚂蚁万亿模型震撼开源!数学推理碾压GPT,国产AI首次问鼎奥数银牌
92.6分 vs 94.6分——当我看到蚂蚁集团刚发布的Ring-1T模型在AIME25测试中的成绩时,第一反应是有点不敢相信。 一个国产开源模型,居然能在数学推理上逼近GPT-5的水平? 更震撼的是,这个叫Ring-1T的模型在模拟IMO(国际数学奥林匹克)近十年真题的测试中,正确率达到了银牌选手平均水平的93%。
惊爆!Vercel CEO 称 Kimi K2 在 AI 应用中超越 GPT-5,准确率高出 50%!
近日,美国初创公司 Vercel 的首席执行官吉列尔莫在社交媒体上发布了一项引人注目的声明,称中国开源模型 Kimi K2在智能体应用场景中的表现远超其对手,包括前沿的闭源模型 GPT-5和 Claude Sonnet4.5。 根据吉列尔莫的分享,Kimi K2不仅在准确率上领先了50%,而且运行速度更是快了整整5倍,这一发现引发了科技界的广泛关注。 在一项真实场景基准测试中,吉列尔莫提供的数据表明,Kimi K2的运行时间仅为2分钟,而其竞争对手 GPT-5和 Sonnet4.5则需要8到10分钟才能完成相同任务。
图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”
编辑 | 听雨“什么是 AGI? ”这是所有科技公司都在喊的口号,却也是一个模糊得几乎无法定义的词。 OpenAI 说它要“追求 AGI”;Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”;谷歌和 Meta 则都声称自己“正在逼近 AGI”。
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
鹭羽 发自 凹非寺. 量子位 | 公众号 QbitAI在某种程度上,GPT-5可以被视作是o3.1。 该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。
OpenAI GPT-5 被指数学成就夸大,引发科技界热议
近日,OpenAI 的 GPT-5在数学领域的宣称引发了广泛的争议。 Meta 的首席 AI 科学家 Yann LeCun 形容此次事件为 “自作自受”,而 Google DeepMind 的 CEO Demis Hassabis 则表示 “这太尴尬了”。 图源备注:图片由AI生成,图片授权服务商Midjourney事情的起因是 OpenAI 副总裁 Kevin Weil 在一条已被删除的推文中声称,GPT-5解决了10个之前未解的 Erdős 问题,并在11个其他问题上取得了进展。
OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬
太尴尬了。 就在周末,GPT-5又双叒带来了数学方面的新突破,一道难题被宣称解决…然鹅……很快就被发现是OpenAI的“营销过度”,小题大作,根本算不上什么突破。 友商大咖们也都不装了。
GPT-5破解世纪难题,竟是上网抄来的!哈萨比斯:太尴尬了
OpenAI团队狂吹了一波GPT-5,结果竟是闹剧一场......事情是这样的。 几天前,OpenAI科学家Sebastien Bubeck激动转发,两位研究员联手GPT-5 Pro,仅用了一个周末,破解了10个「百年悬案」——埃尔德什难题(Erdos problems)紧接着,OpenAI科学副总裁Kevin Weil等人纷纷加入,大肆宣传。 然而,真相很快浮出水面:这十道难题,早就被学界解决,并非由GPT-5独立解决,它只是通过检索网络文献给出了答案。
GPT-5 数学神话“塌房”:文献检索被当成原创突破。LeCun冷笑:被自家 GPT 傻子坑了吧
10月17日的晚上,AI世界一片喧嚣。 OpenAI研究员、前斯坦福数学家Mark Sellke发推,宣布GPT-5“找到了十个此前未解的Erdős问题的解”。 他列出十个编号,像在展示一场数学奇迹的战利品。
GPT-5 Pro惊现「神之一手」,30分钟攻克黑洞难题!
OpenAI真的要放大招了! 今天,黑洞理论物理学家Alex Lupsasca官宣入职,正式成为OpenAI新成立的「科学团队」的一员。 曾经,Alex一直认为AI离科研前沿遥不可及,直到他亲眼见证了GPT-5 Pro的惊人能力——它在短短30分钟内,竟破解了困扰Alex数日的「黑洞微扰」理论难题!
驳“AI 泡沫论”:一场被误读的、正在进行中的产业结构性调整
目前流传着一种看似合理的说法:GPT-5 表现未达预期,因此 AI 泡沫正在破裂。 这个观点看似顺理成章,实则是错误的。 这个说法将四个不同维度的事情强行捆绑,硬是揉成了一个整体:(1)产品体验的设计选择;(2)应用层的投资回报;(3)基础设施投入与供应链;(4)科研进展与规模化应用。
人类遗忘的难题解法,被GPT-5重新找出来了
人类遗忘的难题解法,被GPT-5 Pro重新找出来了! 这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。 该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
马来西亚迎来 AI 新纪元,ChatGPT Go 助力数字化转型
近日,OpenAI 在马来西亚推出了全新的 ChatGPT Go 订阅服务,月费仅为38.99马币(约9.25美元),大幅降低了 AI 高级功能的使用门槛。 此次推出的 ChatGPT Go 不仅包括了最新的 GPT-5模型,还提供了丰富的功能,如图片生成、文件上传及记忆功能,极大地提升了用户的体验。 这一举措正值马来西亚 AI 用户数量在过去一年中激增的背景下进行,OpenAI 希望通过更亲民的价格吸引中端用户和学生,进而扩展用户基础。
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
人工智能真是日新月异。 早上看到网友的评论:我们已经 0 天没有吸引注意的 AI 领域新突破了。 记得三个月前,OpenAI 官宣了他们的推理模型在国际数学奥林匹克(IMO)竞赛中获得了金牌。
Open Library 任务为何难倒 GPT-5?SWE-Bench Pro 揭示 AI 编程智能体的真实边界
大家好,我是肆〇柒。 今天要与大家分享的是一项由 Scale AI 研究团队最新发布的重磅研究成果——SWE-Bench Pro。 这项研究增强了我们对 AI 编程智能体能力的认知,它不再满足于测试模型能否完成简单的代码修改,而是直面真实企业环境中那些需要修改数百行代码、跨越多个文件的复杂任务。
快手KAT-Dev-72B-Exp震撼发布!74.6%解决率碾压GPT-5,编程Agent新王者
你有没有想过,什么时候一个国产开源模型能在编程领域真正"碾压"GPT-5? 这个问题的答案,快手给出了。 昨天看到快手开源KAT-Dev-72B-Exp的消息时,我第一反应是——这数据是不是搞错了?
OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型
根据 OpenAI 的最新研究,刚刚发布的 GPT-5模型在政治偏见方面的表现远远优于以往的同类产品。 这一研究成果由 OpenAI 团队向 Axios 披露,标志着 AI 模型在偏见控制方面的重要进展。 图源备注:图片由AI生成,图片授权服务商Midjourney长期以来,公众和政界人士对 AI 系统的偏见问题表示关注,呼吁提高透明度,并确保这些模型不受偏见的影响。
GPT-5偏见测试结果公布:500问验证客观性飞跃,情感化问题仍是挑战
OpenAI最新向Axios披露的研究成果显示,刚刚发布的GPT-5模型在政治偏见控制方面取得突破性进展,偏见水平较前代产品降低30%。 长期以来,AI系统的偏见问题一直是公众和政界关注的焦点。 今年7月,美国政府发布行政命令,要求政府使用的AI系统须剔除"觉醒型"特征,避免政治或意识形态偏见,但具体合规标准仍不明确。
刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API
OpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。 Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩:400 万开发者、8 亿周活 ChatGPT 用户、API 每分钟 60 亿 token 消耗量。 更重要的是,OpenAI 在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime-mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉