AI
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。
8/20/2025 9:13:00 AM
Meta超级智能实验室重组为四个部门,某些高管将离开
据《彭博社》报道,Meta 将重组其超级智能实验室(Meta Superintelligence Labs,MSL)。 具体来说,MSL 以及 Meta 之前的 FAIR 等 AI 部门将被重组为四个专注于 AI 的新部门:TBD Lab,负责人是 Alexandr WangFAIR (Fundamental AI Research),基础 AI 研究Products and Applied Research, 产品和应用研究,由 GitHub 前 CEO Nat Friedman 领导MSL Infra,负责 Meta 的 AI 基础设施Meta 首席 AI 官 Alexandr Wang 在一份内部备忘录中表示,超级智能实验室将被划分为更小的部门,分别专注于 AI 研究、基础设施、硬件、产品集成以及公司的长期超级智能目标。 他写到:「超级智能即将到来,为了认真对待它,我们需要围绕实现它的关键领域进行组织构建。
8/20/2025 9:10:00 AM
DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。 模型地址:,该模型是 DeepSeek-V3 系列最新的基础模型。 至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 —— 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。
8/20/2025 9:08:00 AM
美国专家来中国转了一圈:AI比赛已经结束了
现状来看,美国后继乏力,比赛可能已经结束了。 这就是一个美国专家,近期来中国转了一圈,然后回国后被万千美国网友议论的最新结论。 而且这个结论,不少美国人由衷认同,因为论据核心主要涉及——电力。
8/20/2025 9:04:00 AM
AI教父辛顿:人类需要AI成为“母亲”,李飞飞:反对!
“AI 会统治人类吗? ”这个问题,早已不是科幻小说的专属。 不如我们回顾下《爱,死亡与机器人》中那个荒诞又深刻的故事——《当酸奶统治世界》。
8/20/2025 7:53:01 AM
DataFun
ACM MM 2025 | 小红书AIGC团队提出风格迁移加速新算法STD
基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。 然而,现有的一致性模型在风格化任务中会削弱风格相似性,并损害美学质量 —— 尤其是在处理从部分加噪输入开始去噪的图像到图像(image-to-image)或视频到视频(video-to-video)变换任务时问题尤为明显。 这一核心问题源于当前方法要求学生模型的概率流常微分方程(PF-ODE)轨迹在初始步骤与其不完美的教师模型对齐。
8/20/2025 7:49:28 AM
AI就绪型数据:当下发展最快的技术,到底是什么?
在当今数字时代,人工智能(AI)正以前所未有的速度蓬勃发展,其影响力已深度渗透到商业与社会的各个领域。 在这一过程中,算法迭代与模型创新始终是行业关注的焦点。 然而,当深入探究AI技术落地的核心逻辑时会发现,数据才是支撑这一切的真正引擎。
8/20/2025 12:10:00 AM
Yu
“现在读AI博士已经太晚了”
谷歌生成式AI团队创始成员竟然劝退AI博士? Jad Tarifi,这位在谷歌待了近十年、参与创立了谷歌第一个生成式AI团队的大佬,最近直接开炮:. 别为了赶AI这波热潮去读博士了,等你毕业,AI本身都可能被解决了。
8/19/2025 5:09:11 PM
梦晨
微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
Copilot作为微软主推的AI对话工具,其积累了海量的用户数据。 而近日的一项研究,用到的数据来自24年微软Copilot对话,以及用户对AI回复是否点赞。 研究者将这些对话分类,发现用户使用AI助手频率最高的任务是获取信息,占比近40%。
8/19/2025 4:19:57 PM
新智元
16岁炒马斯克鱿鱼,SpaceX天才转投北大数学校友赵鹏麾下
16岁的天才小孩哥挥一挥衣袖,宣布从SpaceX离职了。 2年前,14岁的Kairan Quazi从圣克拉拉大学毕业,被马斯克pick,加入入职成功率仅有0.2%的SpaceX,成为Starlink部门最年轻的软件工程师——这是SpaceX工程密度最高的部门之一。 现在,智商超过180的Kairan转身离开,下一站:干金融,搞量化。
8/19/2025 4:17:49 PM
英伟达开源9B参数小模型,比Qwen3快6倍
小模型也开始卷起来了! 在麻省理工学院衍生公司Liquid AI发布了一款小到可以装在智能手表上的新AI视觉模型,以及谷歌发布了一款可以在智能手机上运行的小型模型之后,英伟达也加入了这场浪潮,推出了自己的新型小型语言模型(SLM):Nemotron Nano v2。 这款9B的“小”模型在复杂推理基准测试上的准确率与Qwen3-8B相当或更高,速度快6倍。
8/19/2025 4:10:46 PM
首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025
3B多模态大模型在动作角色扮演游戏的战斗任务中,成功率超越GPT-4o和人类玩家,淘天集团未来生活实验室团队提出了CombatVLA,已被ICCV 2025接收。 在复杂的三维环境中实现实时决策仍面临重大挑战,要求模型能在秒级时间尺度做出响应,具备高分辨率感知能力,并能够在动态条件下进行战术推理。 如下图所示,团队给出了CombatVLA推理得到的AoT解释、解析成Python代码的动作指令,以及执行这些动作后的帧序列。
8/19/2025 4:08:20 PM
GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
一张基准对比图,彻底火遍了全网。 GPT-5发布近半个月,实际表现未达预期,不少人感慨:苦等OpenAI两年,就是这? 为此,Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上,做了一个直观对比。
8/19/2025 4:05:27 PM
阿里亮剑Ovis2.5:90亿参数挑战巨兽,AI视觉从此不“近视”
在AI界,“参数为王”的信仰似乎坚不可摧,巨头们在千亿、万亿参数的军备竞赛中一路狂奔。 然而,阿里国际数字贸易集团(AIDC)最近却悄然扔出了一枚“深水炸弹”——Ovis2.5。 它没有夸张的参数规模,却用一种近乎“降维打击”的方式,重新定义了什么叫“经济型高性能”。
8/19/2025 10:37:59 AM
墨风如雪
4o-mini华人领队也离职了,这次不怪小扎
哦豁,OpenAI奥特曼又痛失一员大将。 Kevin Lu,领导4o-mini发布,并参与o1-mini、o3发布,主要研究强化学习、小模型和合成数据。 下一站是Thinking Machine Lab,OpenAI前CTO Mira Murati出走后新创立的AI公司,估值已达120亿美元。
8/19/2025 9:22:47 AM
小模型才是 Agent 的未来?这篇立场文把话挑明了
AI圈最近什么最火? 答案里一定有AI Agent。 从能帮你预订机票、规划旅行的私人助理,到能自动编写、调试代码的程序员搭档,AI智能体的浪潮正汹涌而来。
8/19/2025 9:20:02 AM
AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
AI正在重新定义信息获取的入口和方式。 同时,原生AI新闻产品带来的用户体验与传统新闻截然不同。 一项研究显示,AI已经在世界各地的新闻编辑室中崭露头角。
8/19/2025 9:15:00 AM
超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家
一个小解码器让所有模型当上领域专家! 华人团队新研究正在引起热议。 他们提出了一种比目前业界主流采用的DAPT(领域自适应预训练)和RAG(检索增强生成)更方便、且成本更低的方法。
8/19/2025 9:12:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
具身智能
生成
百度
Sora
工具
GPU
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
架构
DeepMind
亚马逊
编程
特斯拉
视觉
Transformer
AI模型
预测
MCP