AI在线 AI在线

工程

GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力? 然而,现实可能并不如想象中那么乐观。
8/15/2025 1:12:00 PM
机器之心

追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%

当你的手机突然没信号时,电信工程师在做什么? 想象一下这样的场景:某个周五晚上,你正在用手机追剧,突然网络断了。 与此同时,成千上万的用户也遇到了同样的问题。
8/15/2025 1:06:00 PM
机器之心

Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源

计算机视觉领域的大部分下游任务都是从二维图像理解(特征提取)开始的。 在特征提取、语义理解、图像分割等 CV 基本任务中的模型三幻神分别是 SAM、CLIP 和 DINO,分别代表了全监督、弱监督和自监督三大数据训练范式。 在人工智能领域,自监督学习(SSL)代表了 AI 模型无需人工监督即可自主学习,它已成为现代机器学习中的主流范式。
8/15/2025 11:42:00 AM
机器之心

多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》

本文第一作者为范良伟,国防科技大学讲师。 共同通讯作者分别为沈辉,国防科技大学教授;李国齐,中国科学院自动化研究所研究员、国家杰出青年基金获得者;胡德文,国防科技大学教授、国家杰出青年基金获得者、国防科技大学智能科学学院认知科学团队创始人和带头人,2012、2018 年两次获国家自然科学奖二等奖。 当前人工智能技术迅猛发展的同时,其高能耗问题也日益凸显。
8/15/2025 11:36:00 AM
机器之心

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。 现在,我们或许有了解决方案。 这两天,微软研究员 Dimitris Papailiopoulos 在 𝕏 上曝出一个新成果:Group Filtered Policy Optimization(GFPO)—— 一种颠覆性的强化学习算法。
8/14/2025 1:18:00 PM
机器之心

ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型

本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。 合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。 在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
8/14/2025 1:13:00 PM
机器之心

破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。 该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。 自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。
8/14/2025 10:14:00 AM
机器之心

告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生

本文一作赵海,上海交通大学计算机学院长聘教授、博士生导师,上海交通大学通用人工智能(AGI)研究所所长。 研究兴趣:自然语言处理、人工智能和大模型。 据 MIT 主办的世界大学计算机学科排行榜 csrankings 数据统计,上海交通大学计算机学科排名国内第三,赵海教授在其中的 AI 和 NLP 方向的论文贡献度第一,占整个交大标准发表总量 1/4。
8/13/2025 5:50:00 PM
机器之心

研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

本文作者为徐兴成博士,任上海人工智能实验室青年研究员,北京大学与英国牛津大学联合培养数学博士,上海市启明星项目(扬帆专项)获得者。 研究方向:大模型后训练、强化学习与基础理论研究。 强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
8/13/2025 1:01:00 PM
机器之心

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。 这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统,使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,我们也做了相关报道。 论文地址::,伊利诺伊大学香槟分校博士,微软研究院的首席研究员刘力源、清华大学校友,加州大学圣地亚哥分校计算机科学与工程学院博士生姚峰团队在强化学习的研究中更进一步。
8/12/2025 6:36:00 PM
机器之心

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。 他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。 论文标题:DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors论文链接::,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。
8/12/2025 11:27:00 AM
机器之心

Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。 本文第一作者辛毅为南京大学 & 上海创智学院博士生,现于上海人工智能实验室实习,研究方向为图像 / 视频生成、多模态生成与理解统一等。 通讯作者为上海人工智能实验室青年科学家 — 高鹏。
8/12/2025 10:45:00 AM
机器之心

4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次

4D 空间智能重建是计算机视觉领域的核心挑战,其目标在于从视觉数据中还原三维空间的动态演化过程。 这一技术通过整合静态场景结构与时空动态变化,构建出具有时间维度的空间表征系统,在虚拟现实、数字孪生和智能交互等领域展现出关键价值。 当前研究主要围绕两大技术维度展开:基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取;高阶理解层面则致力于解析场景组件的时空关联与物理约束。
8/11/2025 8:18:00 PM
机器之心

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

本文的第一作者是董冠霆,目前就读于中国人民大学高瓴人工智能学院,博士一年级,导师为窦志成教授和文继荣教授。 他的研究方向主要包括大语言模型推理,多智能体强化学习、深度搜索智能体等。 在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文,并在快手大模型应用组、阿里通义千问组等大模型团队进行实习。
8/9/2025 11:17:00 PM
机器之心

GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5

一觉醒来,朋友圈被 GPT-5 刷了屏。 在昨晚长达一个多小时的发布直播中,OpenAI 介绍了 GPT-5 的性能,演示了诸多实用案例,在此不赘述,感兴趣的朋友可以移步:刚刚,奥特曼发布 GPT-5! 人人免费用「博士级」智能,基准图错误遭全网吐槽。
8/8/2025 4:50:00 PM
机器之心

DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO

众所周知,大型语言模型的训练通常分为两个阶段。 第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。 第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。
8/7/2025 9:46:00 PM
机器之心

让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题

论文第一作者 Han Meng 是新加坡国立大学博士生,从事心理学构建的计算方法研究。 通讯作者 Yi-Chieh Lee 是新加坡国立大学助理教授,在对话式人工智能、人机交互和心理健康技术领域开展研究工作。 共同作者 Renwen Zhang 是南洋理工大学助理教授,专注于计算传播学研究,为本研究提供了传播学视角。
8/7/2025 9:27:00 PM
机器之心

人大高瓴-华为诺亚:大语言模型智能体记忆机制的系列研究

本系列工作第一作者张泽宇,中国人民大学博士生,研究方向为大语言模型智能体的记忆机制和个性化;谭浩然,中国人民大学硕士生,研究方向为大语言模型智能体。 陈旭,中国人民大学预聘副教授,研究方向包括大语言模型,信息检索等。 近期,基于大语言模型的智能体(LLM-based agent)在学术界和工业界中引起了广泛关注。
8/7/2025 11:06:00 AM
机器之心