AI在线 AI在线

GPT-5

Open Library 任务为何难倒 GPT-5?SWE-Bench Pro 揭示 AI 编程智能体的真实边界

大家好,我是肆〇柒。 今天要与大家分享的是一项由 Scale AI 研究团队最新发布的重磅研究成果——SWE-Bench Pro。 这项研究增强了我们对 AI 编程智能体能力的认知,它不再满足于测试模型能否完成简单的代码修改,而是直面真实企业环境中那些需要修改数百行代码、跨越多个文件的复杂任务。
10/13/2025 9:33:19 AM
肆零柒

快手KAT-Dev-72B-Exp震撼发布!74.6%解决率碾压GPT-5,编程Agent新王者

你有没有想过,什么时候一个国产开源模型能在编程领域真正"碾压"GPT-5? 这个问题的答案,快手给出了。 昨天看到快手开源KAT-Dev-72B-Exp的消息时,我第一反应是——这数据是不是搞错了?
10/13/2025 12:00:05 AM
阿丸笔记

OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型

根据 OpenAI 的最新研究,刚刚发布的 GPT-5模型在政治偏见方面的表现远远优于以往的同类产品。 这一研究成果由 OpenAI 团队向 Axios 披露,标志着 AI 模型在偏见控制方面的重要进展。 图源备注:图片由AI生成,图片授权服务商Midjourney长期以来,公众和政界人士对 AI 系统的偏见问题表示关注,呼吁提高透明度,并确保这些模型不受偏见的影响。
10/12/2025 9:24:51 AM
AI在线

GPT-5偏见测试结果公布:500问验证客观性飞跃,情感化问题仍是挑战

OpenAI最新向Axios披露的研究成果显示,刚刚发布的GPT-5模型在政治偏见控制方面取得突破性进展,偏见水平较前代产品降低30%。 长期以来,AI系统的偏见问题一直是公众和政界关注的焦点。 今年7月,美国政府发布行政命令,要求政府使用的AI系统须剔除"觉醒型"特征,避免政治或意识形态偏见,但具体合规标准仍不明确。
10/12/2025 9:24:09 AM
AI在线

刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API

OpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。 Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩:400 万开发者、8 亿周活 ChatGPT 用户、API 每分钟 60 亿 token 消耗量。 更重要的是,OpenAI 在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime-mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。
10/7/2025 10:16:00 AM
机器之心

OpenAI被指欺诈,用户输入可能会被秘密路由到新模型GPT-5-Chat-Safety

今年 8 月,GPT-5 发布,其在多个任务和基准上都表现卓越,但几乎和人世间的所有事物一样,并不是所有人都满意。 尤其是 GPT-5 发布后「OpenAI 移除 ChatGPT 中模型选择器」的做法更是备受诟病(尤其是移除了情感表达更佳的 GPT-4o),甚至引发了诸多用户的「网上请愿」,详见我们的报道《用户痛批 GPT-5,哭诉「还我 GPT-4o」,奥特曼妥协了》。 一位用户在 Reddit 愤怒发帖表示 OpenAI 的做法让他直接取消了订阅,并称「OpenAI 失去了我所有的尊重」。
9/28/2025 3:14:00 PM
机器之心

OpenAI CEO 预测:2030 年前AI可能接管 30%-40% 工作

在最近的一次采访中,OpenAI 的首席执行官萨姆・奥尔特曼分享了关于未来人工智能的见解。 他预测,通用人工智能(AGI)将在2030年前到来,并将会接管人类经济社会中30% 至40% 的工作。 这一预测引发了人们对未来就业市场变化的广泛讨论。
9/28/2025 9:21:11 AM
AI在线

OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

近日,OpenAI 推出了一项新的基准测试,旨在评估其人工智能模型在各行业与人类专业人士的表现差异。 这项名为 GDPval 的测试,是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。 根据 OpenAI 的说法,GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。
9/26/2025 3:01:13 PM
AI在线

GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题

GPT-5,你这家伙! 究竟还有什么事是我不知道的? 在一篇最新论文中,研究人员让它挑战了5个尚未解决的优化猜想。
9/26/2025 9:24:46 AM

ChatGPT新功能Pulse,GPT-5主动给你推消息,大家玩得停不下来

这是 OpenAI CEO 山姆・奥特曼迄今为止最喜欢的 ChatGPT 功能。 本周五凌晨,OpenAI 宣布推出 ChatGPT 新功能「Pulse」的预览版,首先向 Pro 订阅用户开放。 ChatGPT 现在会每天晚上主动进行研究,根据你每天的聊天记录、反馈以及日历等关联应用提供个性化更新。
9/26/2025 9:09:32 AM

刚刚,GPT-5首次通过「哥德尔测试」!破解三大数学猜想

AI迎来历史性一刻! GPT-5成功破解三大猜想,通过了「哥德尔测试」。 图片OpenAI科学家Sebastien Bubeck惊叹地表示,这类开放性问题,顶尖博士生往往耗费数日才能解决。
9/25/2025 10:01:33 AM
新智元

阿里万亿参数大模型震撼发布!Qwen3-Max编程能力超越GPT-5

你有没有想过,什么时候国产AI能在编程领域真正"扳倒"GPT-5? 昨天阿里云栖大会上,这个问题有了答案。 通义千问Qwen3-Max正式发布,直接放出了一个让硅谷都震惊的成绩单:万亿参数规模,编程能力测试全球第一。
9/25/2025 9:09:22 AM
阿丸笔记

马斯克xAI价格屠夫来了!Grok 4 Fast暴降98%,OpenAI慌了?

AI价格战这把火,终于要烧到ChatGPT身上了。 昨天马斯克的xAI悄悄发布了Grok 4 Fast,当我看到定价的时候差点以为自己看错了。 同样的推理能力,价格直接砍了98%。
9/23/2025 9:18:40 AM
阿丸笔记

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转! 表面上看,“御三家”集体翻车,没一家的解决率超过25%:GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。 但深入数据背后,则暗藏玄机。
9/22/2025 5:07:31 PM

ChatGPT负责人深度复盘,爆4o复活内幕!过快下线是失误,将迭代模型人格

「还我GPT-4o! 」GPT-5发布后不到一周,在用户强大的反对声浪中,OpenAI不得不火速宣布GPT-4o等前代模型回归。 至此,大家才意识到:用户对4o等上一代模型,已经产生了深深的「依恋感」。
9/18/2025 12:44:33 PM

GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色

9月初,一篇挂在arXiv的论文在学界扔下一颗炸弹——GPT-5被写进了数学研究成果里。 研究者在文中公开写道:GPT-5在他们的实验中完成了一项此前从未解决的数学工作,并将结果直接纳入正式稿件。 这是大型语言模型首次以「定理贡献者」的身份出现在数学研究论文中。
9/18/2025 12:41:22 PM

ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三

这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。 在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上,OpenAI的系统完美解决全部12道题目,若计入排名将位居第一。 谷歌的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准名列第二。
9/18/2025 9:05:19 AM

OpenAI-GPT-5-Codex震撼发布!AI编程进入动态思考时代

OpenAI在9月16日正式发布了专为软件工程优化的GPT-5-Codex模型,这不只是一个简单的升级版本,而是AI编程领域的一次真正革命。 最让人震撼的是它首次实现了"动态思考"能力——就像人类专家一样,能根据任务复杂度实时调整思考时间。 简单任务时,它的响应速度比GPT-5快了93.7%,基本上是秒级响应。
9/17/2025 9:14:03 AM
阿丸笔记