AI在线 AI在线

视觉

视觉Token注入CLIP语义,走向多模态理解与生成新范式

让视觉token说话,既能看懂图像,又可以画出图像! 腾讯ARC Lab联合中科院自动化所、香港城市大学、浙江大学等机构提出了一种全新的视觉分词器——TokLIP,即Token CLIP。 可以将低级的离散视觉Token与高级的CLIP语义相结合,实现多模态理解与生成的高效统一。
8/27/2025 9:08:00 AM

DeepMind掌门自曝AGI倒计时5年!算力需求暴增10倍,推理计算吞噬一切

Hassabis绝对是当今世界上最聪明、最有趣的大脑之一。 在最新播客中,他表示「自然界里任何能被发现的规律,都能被机器学习算法高效地学会和模仿。 」AlphaGo和AlphaFold在给可能性多到无法想象的复杂问题建立一个模型。
7/25/2025 10:29:23 AM

舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。 本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。 论文链接: 仓库: GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。
7/17/2025 9:16:20 AM
机器之心

放世界任务成功率82%!美的攻克机器人泛化控制难题

还在担心机器人只能机械执行、不会灵活应变? 美的AI研究院和华东师范大学联合提出ChatVLA-2——一个具有开放世界具身推理能力的视觉-语言-动作模型(VLA)模型。 它引入动态混合专家架构,并结合双阶段训练流程,不仅最大程度保留了视觉-语言模型(VLM)的多模态认知和推理能力,还能将推理结果真正转化为可执行的动作。
7/15/2025 4:28:05 PM

英伟达&MIT等推出Long-RL,长视频训练速度翻倍

请想象……一个 AI—— 它要完整看完一场几十分钟的世界杯决赛,不只是数球门数,更要跨越上百个镜头的线索、情绪、战术细节,甚至要像人一样推断:谁会赢点球大战? 足球比赛预测分析预测《星际争霸 2》这样的即时战略游戏同样需要考虑许多不同的变量,难度也非常巨大。 星际争霸 2 比赛预测分析再换个场景:同样是 AI,在一场紧张的德州扑克超级豪客赛上,面对职业牌手的每一次下注、加注、弃牌,能否像一个顶尖牌手一样,推理出对手藏在手里的那两张底牌?
7/14/2025 2:38:45 PM

模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

作者简介:由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。 北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考:在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。
7/14/2025 8:47:00 AM

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一水 闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
7/3/2025 3:06:44 PM
闻乐

大模型时代,通用视觉模型将何去何从?

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。 它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。
7/2/2025 9:17:13 AM

视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS

用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化

赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。 与输入序列长度呈平方复杂度的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。 注意力的稀疏化(Sparse Attention)与低比特量化(Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。
6/30/2025 2:02:00 PM

CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM

AI进化新里程碑!大模型首次具备人类空间思维能力!

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。 这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。 这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。
6/23/2025 10:00:48 AM
AI在线

​月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级

近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。
6/23/2025 9:00:38 AM
AI在线

√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

Transformer 及其核心的注意力机制在自然语言处理和计算机视觉等领域带来了革命性进展,展现出强大的深度上下文建模和数据间复杂依赖关系捕捉能力。 然而,其在处理视觉数据时面临两大核心挑战:二次计算复杂度使其难以高效处理高分辨率图像等长上下文数据;忽略空间结构,将多维图像视为无结构的一维标记序列,破坏了图像固有的空间连贯性,而这种信息对于依赖空间关系的视觉任务至关重要。 为克服效率瓶颈,近期研究如线性注意力和状态空间模型(如 Mamba) 致力于将复杂度降低至线性。
6/18/2025 1:59:11 PM

首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能

想象一下:你正在浏览社交媒体,看到一张震撼的图片或一段令人震撼的视频。 它栩栩如生,细节丰富,让你不禁信以为真。 但它究竟是真实记录,还是由顶尖 AI 精心炮制的「杰作」?
6/16/2025 8:51:00 AM

英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍

视觉注意力机制,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。 然而,面对高分辨率图像时,传统自注意力有两个大难题:计算量巨大:O(N²) 的复杂度让处理长上下文变得非常耗时。
6/11/2025 9:06:00 AM

李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型

因为眼睛受伤暂时失去立体视觉,李飞飞更加坚定了做世界模型的决心。 在a16z的最新播客节目中,“AI教母”李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历:尽管凭借多年经验能想象出三维世界,但一只眼睛看东西时,我开始害怕开车。 但作为一名科学家,她也把这次经历当成一次宝贵的“实验”机会。
6/10/2025 8:43:00 AM

2025年,Mamba“联姻”Transformer,打造史上最强视觉骨干网络!

一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络,首次将状态空间模型(SSM)与自注意力机制融合,显著提升图像分类、检测和分割任务的准确率与效率,达到新一代性能-速度最优前沿。 核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力,但其自回归结构难以高效捕捉图像中的全局空间依赖,限制了在计算机视觉中的表现。 如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖,是本研究要解决的核心问题。
6/5/2025 2:15:00 AM
萍哥学AI