GPT-5
Open Library 任务为何难倒 GPT-5?SWE-Bench Pro 揭示 AI 编程智能体的真实边界
大家好,我是肆〇柒。 今天要与大家分享的是一项由 Scale AI 研究团队最新发布的重磅研究成果——SWE-Bench Pro。 这项研究增强了我们对 AI 编程智能体能力的认知,它不再满足于测试模型能否完成简单的代码修改,而是直面真实企业环境中那些需要修改数百行代码、跨越多个文件的复杂任务。
10/13/2025 9:33:19 AM
肆零柒
快手KAT-Dev-72B-Exp震撼发布!74.6%解决率碾压GPT-5,编程Agent新王者
你有没有想过,什么时候一个国产开源模型能在编程领域真正"碾压"GPT-5? 这个问题的答案,快手给出了。 昨天看到快手开源KAT-Dev-72B-Exp的消息时,我第一反应是——这数据是不是搞错了?
10/13/2025 12:00:05 AM
阿丸笔记
OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型
根据 OpenAI 的最新研究,刚刚发布的 GPT-5模型在政治偏见方面的表现远远优于以往的同类产品。 这一研究成果由 OpenAI 团队向 Axios 披露,标志着 AI 模型在偏见控制方面的重要进展。 图源备注:图片由AI生成,图片授权服务商Midjourney长期以来,公众和政界人士对 AI 系统的偏见问题表示关注,呼吁提高透明度,并确保这些模型不受偏见的影响。
10/12/2025 9:24:51 AM
AI在线
GPT-5偏见测试结果公布:500问验证客观性飞跃,情感化问题仍是挑战
OpenAI最新向Axios披露的研究成果显示,刚刚发布的GPT-5模型在政治偏见控制方面取得突破性进展,偏见水平较前代产品降低30%。 长期以来,AI系统的偏见问题一直是公众和政界关注的焦点。 今年7月,美国政府发布行政命令,要求政府使用的AI系统须剔除"觉醒型"特征,避免政治或意识形态偏见,但具体合规标准仍不明确。
10/12/2025 9:24:09 AM
AI在线
刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API
OpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。 Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩:400 万开发者、8 亿周活 ChatGPT 用户、API 每分钟 60 亿 token 消耗量。 更重要的是,OpenAI 在今年的开发者大会上可真是发布了不少东西,简单总结起来包括:AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime-mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。
10/7/2025 10:16:00 AM
机器之心
OpenAI被指欺诈,用户输入可能会被秘密路由到新模型GPT-5-Chat-Safety
今年 8 月,GPT-5 发布,其在多个任务和基准上都表现卓越,但几乎和人世间的所有事物一样,并不是所有人都满意。 尤其是 GPT-5 发布后「OpenAI 移除 ChatGPT 中模型选择器」的做法更是备受诟病(尤其是移除了情感表达更佳的 GPT-4o),甚至引发了诸多用户的「网上请愿」,详见我们的报道《用户痛批 GPT-5,哭诉「还我 GPT-4o」,奥特曼妥协了》。 一位用户在 Reddit 愤怒发帖表示 OpenAI 的做法让他直接取消了订阅,并称「OpenAI 失去了我所有的尊重」。
9/28/2025 3:14:00 PM
机器之心
OpenAI CEO 预测:2030 年前AI可能接管 30%-40% 工作
在最近的一次采访中,OpenAI 的首席执行官萨姆・奥尔特曼分享了关于未来人工智能的见解。 他预测,通用人工智能(AGI)将在2030年前到来,并将会接管人类经济社会中30% 至40% 的工作。 这一预测引发了人们对未来就业市场变化的广泛讨论。
9/28/2025 9:21:11 AM
AI在线
OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家
近日,OpenAI 推出了一项新的基准测试,旨在评估其人工智能模型在各行业与人类专业人士的表现差异。 这项名为 GDPval 的测试,是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。 根据 OpenAI 的说法,GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。
9/26/2025 3:01:13 PM
AI在线
GPT-5通过“哥德尔测试”!独创性解决博士生都得花几天时间的开放数学问题
GPT-5,你这家伙! 究竟还有什么事是我不知道的? 在一篇最新论文中,研究人员让它挑战了5个尚未解决的优化猜想。
9/26/2025 9:24:46 AM
ChatGPT新功能Pulse,GPT-5主动给你推消息,大家玩得停不下来
这是 OpenAI CEO 山姆・奥特曼迄今为止最喜欢的 ChatGPT 功能。 本周五凌晨,OpenAI 宣布推出 ChatGPT 新功能「Pulse」的预览版,首先向 Pro 订阅用户开放。 ChatGPT 现在会每天晚上主动进行研究,根据你每天的聊天记录、反馈以及日历等关联应用提供个性化更新。
9/26/2025 9:09:32 AM
刚刚,GPT-5首次通过「哥德尔测试」!破解三大数学猜想
AI迎来历史性一刻! GPT-5成功破解三大猜想,通过了「哥德尔测试」。 图片OpenAI科学家Sebastien Bubeck惊叹地表示,这类开放性问题,顶尖博士生往往耗费数日才能解决。
9/25/2025 10:01:33 AM
新智元
阿里万亿参数大模型震撼发布!Qwen3-Max编程能力超越GPT-5
你有没有想过,什么时候国产AI能在编程领域真正"扳倒"GPT-5? 昨天阿里云栖大会上,这个问题有了答案。 通义千问Qwen3-Max正式发布,直接放出了一个让硅谷都震惊的成绩单:万亿参数规模,编程能力测试全球第一。
9/25/2025 9:09:22 AM
阿丸笔记
马斯克xAI价格屠夫来了!Grok 4 Fast暴降98%,OpenAI慌了?
AI价格战这把火,终于要烧到ChatGPT身上了。 昨天马斯克的xAI悄悄发布了Grok 4 Fast,当我看到定价的时候差点以为自己看错了。 同样的推理能力,价格直接砍了98%。
9/23/2025 9:18:40 AM
阿丸笔记
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转! 表面上看,“御三家”集体翻车,没一家的解决率超过25%:GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。 但深入数据背后,则暗藏玄机。
9/22/2025 5:07:31 PM
ChatGPT负责人深度复盘,爆4o复活内幕!过快下线是失误,将迭代模型人格
「还我GPT-4o! 」GPT-5发布后不到一周,在用户强大的反对声浪中,OpenAI不得不火速宣布GPT-4o等前代模型回归。 至此,大家才意识到:用户对4o等上一代模型,已经产生了深深的「依恋感」。
9/18/2025 12:44:33 PM
GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色
9月初,一篇挂在arXiv的论文在学界扔下一颗炸弹——GPT-5被写进了数学研究成果里。 研究者在文中公开写道:GPT-5在他们的实验中完成了一项此前从未解决的数学工作,并将结果直接纳入正式稿件。 这是大型语言模型首次以「定理贡献者」的身份出现在数学研究论文中。
9/18/2025 12:41:22 PM
ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。 在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上,OpenAI的系统完美解决全部12道题目,若计入排名将位居第一。 谷歌的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准名列第二。
9/18/2025 9:05:19 AM
OpenAI-GPT-5-Codex震撼发布!AI编程进入动态思考时代
OpenAI在9月16日正式发布了专为软件工程优化的GPT-5-Codex模型,这不只是一个简单的升级版本,而是AI编程领域的一次真正革命。 最让人震撼的是它首次实现了"动态思考"能力——就像人类专家一样,能根据任务复杂度实时调整思考时间。 简单任务时,它的响应速度比GPT-5快了93.7%,基本上是秒级响应。
9/17/2025 9:14:03 AM
阿丸笔记
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
大模型
数据
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Stable Diffusion
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
生成
大语言模型
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
DeepMind
架构
生成式AI
编程
视觉
Transformer
预测
AI模型
伟达
亚马逊
MCP