AI在线 AI在线

AI

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。
8/20/2025 9:13:00 AM

Meta超级智能实验室重组为四个部门,某些高管将离开

据《彭博社》报道,Meta 将重组其超级智能实验室(Meta Superintelligence Labs,MSL)。 具体来说,MSL 以及 Meta 之前的 FAIR 等 AI 部门将被重组为四个专注于 AI 的新部门:TBD Lab,负责人是 Alexandr WangFAIR (Fundamental AI Research),基础 AI 研究Products and Applied Research, 产品和应用研究,由 GitHub 前 CEO Nat Friedman 领导MSL Infra,负责 Meta 的 AI 基础设施Meta 首席 AI 官 Alexandr Wang 在一份内部备忘录中表示,超级智能实验室将被划分为更小的部门,分别专注于 AI 研究、基础设施、硬件、产品集成以及公司的长期超级智能目标。 他写到:「超级智能即将到来,为了认真对待它,我们需要围绕实现它的关键领域进行组织构建。
8/20/2025 9:10:00 AM

DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。 模型地址:,该模型是 DeepSeek-V3 系列最新的基础模型。 至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 —— 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。
8/20/2025 9:08:00 AM

美国专家来中国转了一圈:AI比赛已经结束了

现状来看,美国后继乏力,比赛可能已经结束了。 这就是一个美国专家,近期来中国转了一圈,然后回国后被万千美国网友议论的最新结论。 而且这个结论,不少美国人由衷认同,因为论据核心主要涉及——电力。
8/20/2025 9:04:00 AM

AI教父辛顿:人类需要AI成为“母亲”,李飞飞:反对!

“AI 会统治人类吗? ”这个问题,早已不是科幻小说的专属。 不如我们回顾下《爱,死亡与机器人》中那个荒诞又深刻的故事——《当酸奶统治世界》。
8/20/2025 7:53:01 AM
DataFun

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速新算法STD

基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。 然而,现有的一致性模型在风格化任务中会削弱风格相似性,并损害美学质量 —— 尤其是在处理从部分加噪输入开始去噪的图像到图像(image-to-image)或视频到视频(video-to-video)变换任务时问题尤为明显。 这一核心问题源于当前方法要求学生模型的概率流常微分方程(PF-ODE)轨迹在初始步骤与其不完美的教师模型对齐。
8/20/2025 7:49:28 AM

AI就绪型数据:当下发展最快的技术,到底是什么?

在当今数字时代,人工智能(AI)正以前所未有的速度蓬勃发展,其影响力已深度渗透到商业与社会的各个领域。 在这一过程中,算法迭代与模型创新始终是行业关注的焦点。 然而,当深入探究AI技术落地的核心逻辑时会发现,数据才是支撑这一切的真正引擎。
8/20/2025 12:10:00 AM
Yu

“现在读AI博士已经太晚了”

谷歌生成式AI团队创始成员竟然劝退AI博士? Jad Tarifi,这位在谷歌待了近十年、参与创立了谷歌第一个生成式AI团队的大佬,最近直接开炮:. 别为了赶AI这波热潮去读博士了,等你毕业,AI本身都可能被解决了。
8/19/2025 5:09:11 PM
梦晨

微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?

Copilot作为微软主推的AI对话工具,其积累了海量的用户数据。 而近日的一项研究,用到的数据来自24年微软Copilot对话,以及用户对AI回复是否点赞。 研究者将这些对话分类,发现用户使用AI助手频率最高的任务是获取信息,占比近40%。
8/19/2025 4:19:57 PM
新智元

16岁炒马斯克鱿鱼,SpaceX天才转投北大数学校友赵鹏麾下

16岁的天才小孩哥挥一挥衣袖,宣布从SpaceX离职了。 2年前,14岁的Kairan Quazi从圣克拉拉大学毕业,被马斯克pick,加入入职成功率仅有0.2%的SpaceX,成为Starlink部门最年轻的软件工程师——这是SpaceX工程密度最高的部门之一。 现在,智商超过180的Kairan转身离开,下一站:干金融,搞量化。
8/19/2025 4:17:49 PM

英伟达开源9B参数小模型,比Qwen3快6倍

小模型也开始卷起来了! 在麻省理工学院衍生公司Liquid AI发布了一款小到可以装在智能手表上的新AI视觉模型,以及谷歌发布了一款可以在智能手机上运行的小型模型之后,英伟达也加入了这场浪潮,推出了自己的新型小型语言模型(SLM):Nemotron Nano v2。 这款9B的“小”模型在复杂推理基准测试上的准确率与Qwen3-8B相当或更高,速度快6倍。
8/19/2025 4:10:46 PM

首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025

3B多模态大模型在动作角色扮演游戏的战斗任务中,成功率超越GPT-4o和人类玩家,淘天集团未来生活实验室团队提出了CombatVLA,已被ICCV 2025接收。 在复杂的三维环境中实现实时决策仍面临重大挑战,要求模型能在秒级时间尺度做出响应,具备高分辨率感知能力,并能够在动态条件下进行战术推理。 如下图所示,团队给出了CombatVLA推理得到的AoT解释、解析成Python代码的动作指令,以及执行这些动作后的帧序列。
8/19/2025 4:08:20 PM

GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史

一张基准对比图,彻底火遍了全网。 GPT-5发布近半个月,实际表现未达预期,不少人感慨:苦等OpenAI两年,就是这? 为此,Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上,做了一个直观对比。
8/19/2025 4:05:27 PM

阿里亮剑Ovis2.5:90亿参数挑战巨兽,AI视觉从此不“近视”

在AI界,“参数为王”的信仰似乎坚不可摧,巨头们在千亿、万亿参数的军备竞赛中一路狂奔。 然而,阿里国际数字贸易集团(AIDC)最近却悄然扔出了一枚“深水炸弹”——Ovis2.5。 它没有夸张的参数规模,却用一种近乎“降维打击”的方式,重新定义了什么叫“经济型高性能”。
8/19/2025 10:37:59 AM
墨风如雪

4o-mini华人领队也离职了,这次不怪小扎

哦豁,OpenAI奥特曼又痛失一员大将。 Kevin Lu,领导4o-mini发布,并参与o1-mini、o3发布,主要研究强化学习、小模型和合成数据。 下一站是Thinking Machine Lab,OpenAI前CTO Mira Murati出走后新创立的AI公司,估值已达120亿美元。
8/19/2025 9:22:47 AM

小模型才是 Agent 的未来?这篇立场文把话挑明了

AI圈最近什么最火? 答案里一定有AI Agent。 从能帮你预订机票、规划旅行的私人助理,到能自动编写、调试代码的程序员搭档,AI智能体的浪潮正汹涌而来。
8/19/2025 9:20:02 AM

AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?

AI正在重新定义信息获取的入口和方式。 同时,原生AI新闻产品带来的用户体验与传统新闻截然不同。 一项研究显示,AI已经在世界各地的新闻编辑室中崭露头角。
8/19/2025 9:15:00 AM

超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家

一个小解码器让所有模型当上领域专家! 华人团队新研究正在引起热议。 他们提出了一种比目前业界主流采用的DAPT(领域自适应预训练)和RAG(检索增强生成)更方便、且成本更低的方法。
8/19/2025 9:12:00 AM