AI在线 AI在线

理论

老黄玩Nano Banana上瘾,拉着哈萨比斯大夸特夸,“不会有人不喜欢吧?”

英伟达CEO黄仁勋也被Nano Banana迷住了。 在伦敦,他面对一众记者,公开宣称自己是Nano Banana的忠实粉丝:怎么会有人不喜欢Nano Banana? 老黄还透露,他前一天也当着DeepMind CEO哈萨比斯的面对Nano Banana大夸特夸。
9/18/2025 12:47:05 PM

ChatGPT负责人深度复盘,爆4o复活内幕!过快下线是失误,将迭代模型人格

「还我GPT-4o! 」GPT-5发布后不到一周,在用户强大的反对声浪中,OpenAI不得不火速宣布GPT-4o等前代模型回归。 至此,大家才意识到:用户对4o等上一代模型,已经产生了深深的「依恋感」。
9/18/2025 12:44:33 PM

GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色

9月初,一篇挂在arXiv的论文在学界扔下一颗炸弹——GPT-5被写进了数学研究成果里。 研究者在文中公开写道:GPT-5在他们的实验中完成了一项此前从未解决的数学工作,并将结果直接纳入正式稿件。 这是大型语言模型首次以「定理贡献者」的身份出现在数学研究论文中。
9/18/2025 12:41:22 PM

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

阿里又双叒叕上大分了! 就在昨天,阿里旗下首个深度研究Agent模型——通义DeepResearch正式开源。 在多项权威基准上,通义DeepResearch狂飙SOTA,仅依靠30B参数(激活3B)就能大杀四方!
9/18/2025 12:39:10 PM

Google AI 推出代理支付协议(AP2):一种支持跨商户与钱包互操作的AI代理结算开放协议

译者 | 涂承烨审校 | 重楼当你的购物代理自动购买了499美元的专业版套餐,而不是49美元的基础版—责任应由谁承担:用户、代理开发者还是商家? 这种信任鸿沟是目前支付渠道上代理主导结算的主要障碍。 Google的代理支付协议(AP2)通过一个开放、可互操作的代理发起支付规范解决了这一问题,它定义了一种可加密验证的通用语言,使得任何兼容的代理都能与全球任何兼容的商户进行交易。
9/18/2025 11:56:50 AM
涂承烨

AI转型并非数字化转型2.0以及其重要性何在

在全球董事会议室里,一场熟悉的剧本正在被匆忙改写。 许多领导者被生成式AI与智能体的力量所吸引,却试图把这些新技术套进旧的数字化转型剧本中。 他们宣称:“这是我们数字化转型的下一阶段”,并把ChatGPT的试点项目和智能体工作流计划交给当初负责云迁移的团队。
9/18/2025 11:47:42 AM
Ajay

对AI输出结果无休止的调整可能削弱IT成效

许多AI用户已对生成结果保持适度的怀疑,但一些专家指出,过度的怀疑正演变成一种趋势:用户不断反复调整输出,几乎陷入无休止的“打磨”中。 这种新出现的现象被称为“doomscrolling(过度提示)”,与“doomscrolling(指盲目滚动智能手机或电脑屏幕浏览大量负面的新闻报道、社交媒体帖子或其他网络分享内容)”类似——后者指人们在社交媒体或负面新闻上无法停下刷屏。 但两者影响不同:doomscrolling或许只是浪费晚餐到睡前的几个小时,让人更悲观,而doomprompting则可能让企业付出高昂代价,员工耗费大量时间与资源,只为“打磨”AI的输出。
9/18/2025 11:45:56 AM
Grant

研究显示生成式 AI 工具答案质量堪忧:三分之一缺乏可靠来源支持

9 月 17 日消息,一项分析显示,生成式人工智能(AI)工具及其驱动的深度研究智能体与搜索引擎,常常会给出未经证实且带有偏见的回答,而这些回答与其引用的信息来源并不相符。 该分析发现,AI工具提供的答案中,约有三分之一缺乏可靠来源支持。 其中,OpenAI 旗下的 GPT-4.5 表现更差,这一比例高达 47%。
9/18/2025 10:49:32 AM
远洋

SEDM:让智能体记忆“越用越聪明”的自进化架构

大家好,我是肆〇柒。 今天这篇研究,是由Gradient(联合浙江大学、多伦多大学等顶尖学府)团队提出的创新性框架——SEDM。 如果你正在为多智能体系统的“记忆过载”和“性能下滑”而头疼,那么这篇将记忆从“被动仓库”升级为“主动大脑”的研究,或许正是你要寻找的答案。
9/18/2025 10:10:31 AM
肆零柒

让机器人「不只是走路」,Nav-R1引领带推理的导航新时代

在机器人与智能体领域,一个长期的挑战是:当你给机器人一个「去客厅把沙发上的书拿来」或者「沿着楼道走到门口,再右转」这一类指令时,机器人能不能不仅「看见环境」,还能「理解指令」、「规划路径」、然后「准确执行动作」? 之前的许多方法表面上看起来也能完成导航任务,但它们往往有这样的问题:推理(reasoning)的过程不够连贯、不够稳定;真实环境中路径规划与即时控制之间难以兼顾;在新的环境里泛化能力弱等。 Nav-R1 出场:什么是 Nav-R1?
9/18/2025 10:06:52 AM

当你的AI助手开始“替你谈判”:虚拟智能体经济如何重塑你的钱包、时间和选择权

大家好,我是肆〇柒。 今天要和大家探讨的,不是遥远的科幻,而是正在你手机和电脑里悄然成型的“第二经济层”。 这项由Google DeepMind研究团队深度剖析的前沿议题《Virtual Agent Economies》,揭示了当你的AI助手开始与其他AI“闪电谈判”时,你的度假预算、工作机会甚至社交生活,都可能被一套看不见的算法规则所主宰。
9/18/2025 9:57:39 AM
肆零柒

通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源

通义 DeepResearch 重磅发布,让 AI 从 “能聊天” 跃迁到 “会做研究”。 在多项权威 Deep Research benchmark 上取得 SOTA,综合能力对标并跑赢海外旗舰模型,同时实现模型、框架、方案全面开源,把深度研究的生产力真正带到每个人手里。 相比于海外的旗舰模型昂贵和限制的调用,通义 DeepResearch 团队做到了完全开源!
9/18/2025 9:56:47 AM

AI编程助手告别免费!阿里20美元、亚马逊强制付费

周一早上,你习惯性地打开常用的AI编程助手,准备开始一天的码农生活。 结果弹出一个对话框:"您的免费额度已用完,请升级到Pro版本继续使用。 "这不是假设,而是正在发生的现实。
9/18/2025 9:14:29 AM
阿丸笔记

震撼!OpenAI在2025国际大学生程序设计竞赛拿下满分夺得第一,谷歌也取得金牌成绩

在阿塞拜疆巴库举行的 2025年国际大学生程序设计竞赛(ICPC)全球总决赛中上,来自 100 多个国家的 139 支大学队伍在五小时内角逐解决 12 个算法问题,最终圣彼得堡国立大学凭借解决 11 个算法问题夺得人类冠军。 在相同约束条件下的并行 AI 赛道上,谷歌的 Gemini 2.5 Deep Think 模型解决了 10 个问题,获得了与金牌相当的成绩。 最震撼的是OpenAI 的内部推理模型获得了 12 /12的满分,超越了所有人类队伍,拿下第一值得注意的是OpenAI和谷歌的模型都解决了所有人类参赛队伍都没有解决的问题c。
9/18/2025 9:07:19 AM

ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三

这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。 在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上,OpenAI的系统完美解决全部12道题目,若计入排名将位居第一。 谷歌的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准名列第二。
9/18/2025 9:05:19 AM

给模型狂堆参数的“大力出奇迹”真的失效了吗?剑桥说:AI的真正潜力才刚开始

在人们都认为疯狂砸钱,拼命地把大语言模型的参数规模往上堆的Scaling Law已经到头了的时候。 一篇叫《递减收益的错觉:衡量LLMs中的长时程执行能力》的论文又给大家来了一剂“强心针”。 这篇报告由剑桥大学、斯图加特大学人工智能研究所、马克斯普朗克智能系统研究所以及图宾根ELLIS研究所的大神们联手发布。
9/18/2025 9:03:11 AM

作为自媒体,我来聊聊使用AIGC的一些真实感受

大家好,我是小枣君。 今天这篇文章,我想和大家聊聊AIGC。 最近这几年,AIGC大模型浪潮的爆发,给整个社会带来了巨大的冲击。
9/17/2025 6:10:51 PM
小枣君

OpenAI 回归机器人:想把大模型推向物理世界

在暂停数年后,OpenAI 正将研究与招聘资源重新投向“具身智能”,并把焦点进一步推向人形系统。 多份权威报道、公开招聘信息与产业动向交叉印证:这家以大模型闻名的公司,正在搭建一个面向现实世界的机器人研发矩阵。 图片WIRED 9 月 15 日的报道,OpenAI 近来密集招募具有人形机器人与物理控制算法背景的科研人才,并在训练路径上强调遥操作(teleoperation)与仿真(包括 Nvidia Isaac 等工具);公司是否自建硬件或与外部制造商合作仍未明朗,但“人形形态”的研究正在加速推进。
9/17/2025 6:03:37 PM