视觉

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力

「小明买了3个苹果，每个5元，他付了20元，应该找回多少钱？」这是典型的小学数学应用题。但在日常生活中，我们更常遇到的是它的视觉版本：看到货架上的苹果标价牌，数出购物篮里的苹果数量，估算总价，再从收银员手中接过找零，快速判断对不对。

10/20/2025 9:12:00 AM

NeurIPS Spotlight｜运动遮挡都不怕，0先验、一段视频精准预测相机参数

论文一作李放，美国伊利诺伊大学香槟分校 (UIUC) 博二学生，研究方向为 4D 视觉定位、重建/新视角合成以及理解。第二作者为美国伊利诺伊大学香槟分校博四学生张昊。通讯作者是 Narendra Ahuja, 美国伊利诺伊大学香槟分校 Donald Biggar Willet Professor（Ming-hsuan Yang, Jia-bin Huang 博士导师）。

9/26/2025 9:12:49 AM

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

继π0后，具身智能基座模型在中国也终于迎来了真正的开源——刚刚，WALL-OSS宣布正式开源！在多项指标中，它还超越了π0。如果你是搞具身的开发者，了解它的基本资料，你就一定不会想错过它：它是一个通用基础具身模型，泛化性和推理能力一流，你可以在自有本体上部署，快速微调后用起来。

9/8/2025 3:09:59 PM

视觉Token注入CLIP语义，走向多模态理解与生成新范式

让视觉token说话，既能看懂图像，又可以画出图像！腾讯ARC Lab联合中科院自动化所、香港城市大学、浙江大学等机构提出了一种全新的视觉分词器——TokLIP，即Token CLIP。可以将低级的离散视觉Token与高级的CLIP语义相结合，实现多模态理解与生成的高效统一。

8/27/2025 9:08:00 AM

DeepMind掌门自曝AGI倒计时5年！算力需求暴增10倍，推理计算吞噬一切

Hassabis绝对是当今世界上最聪明、最有趣的大脑之一。在最新播客中，他表示「自然界里任何能被发现的规律，都能被机器学习算法高效地学会和模仿。」AlphaGo和AlphaFold在给可能性多到无法想象的复杂问题建立一个模型。

7/25/2025 10:29:23 AM

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生，指导老师为王鑫超，研究方向是多模态大模型与可信深度模型。本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。论文链接：仓库： GPT 引爆大语言模型热潮以来，自回归的大语言模型（LLMs）与多模态模型（MLLMs）已成为智能系统的基石。

7/17/2025 9:16:20 AM

机器之心

放世界任务成功率82%！美的攻克机器人泛化控制难题

还在担心机器人只能机械执行、不会灵活应变？美的AI研究院和华东师范大学联合提出ChatVLA-2——一个具有开放世界具身推理能力的视觉-语言-动作模型（VLA）模型。它引入动态混合专家架构，并结合双阶段训练流程，不仅最大程度保留了视觉-语言模型（VLM）的多模态认知和推理能力，还能将推理结果真正转化为可执行的动作。

7/15/2025 4:28:05 PM

英伟达&MIT等推出Long-RL，长视频训练速度翻倍

请想象……一个 AI—— 它要完整看完一场几十分钟的世界杯决赛，不只是数球门数，更要跨越上百个镜头的线索、情绪、战术细节，甚至要像人一样推断：谁会赢点球大战？足球比赛预测分析预测《星际争霸 2》这样的即时战略游戏同样需要考虑许多不同的变量，难度也非常巨大。星际争霸 2 比赛预测分析再换个场景：同样是 AI，在一场紧张的德州扑克超级豪客赛上，面对职业牌手的每一次下注、加注、弃牌，能否像一个顶尖牌手一样，推理出对手藏在手里的那两张底牌？

7/14/2025 2:38:45 PM

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

作者简介：由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究，作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋，通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究，欢迎关注。快执行与慢思考：在机器人操控领域，实现高频响应与复杂推理的统一，一直是一个重大技术挑战。

7/14/2025 8:47:00 AM

Gemini负责人爆料！多模态统一token表示，视觉至关重要

一水闻乐发自凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。

7/3/2025 3:06:44 PM

闻乐

大模型时代，通用视觉模型将何去何从？

过去几年，通用视觉模型（Vision Generalist Model，简称 VGM）曾是计算机视觉领域的研究热点。它们试图构建统一的架构，能够处理图像、点云、视频等多种视觉模态输入，以及分类、检测、分割等多样的下游任务，向着「视觉模型大一统」的目标迈进。然而，随着大语言模型 LLM 的迅猛发展，研究热点已经悄然发生转移。

7/2/2025 9:17:13 AM

视觉语言模型如何突破感知边界？上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令，若让一台具身智能体（Embodied Agent）执行，其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。如何让 AI 理解任务的潜台词、合理分解步骤，并在真实视觉输入中找准对象并正确执行，正是当前具身智能与多模态学习面临的最大挑战之一。具身智能与多模态规划的研究背景具身智能（Embodied Intelligence）可以被视为 AI 研究“从认知走向行为”的转折点。

7/1/2025 1:35:00 AM

FlerkenS

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

赵天辰，清华大学电子工程系高能效计算实验室研究生，研究方向主要是：面向视觉生成的高效算法，与软硬件协同设计近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。与输入序列长度呈平方复杂度的 Attention 操作，成为主要的性能瓶颈（可占据全模型的 60-80% 的开销），有明显的效率优化需求。注意力的稀疏化（Sparse Attention）与低比特量化（Attention Quantization）为常用的 Attention 优化技巧，在许多现有应用中取得优秀的效果。

6/30/2025 2:02:00 PM

CVPR 2025 | 零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征

当前大型视觉语言模型（LVLMs）普遍存在「物体幻觉」问题：模型会凭空生成图像中不存在的物体描述。为了高效地实现幻觉消除，西安交通大学研究团队提出了一种利用「幻觉子空间」（HalluSpace）进行零空间投影的高效模型权重编辑方法Nullu（Null space of HalluSpace）。论文地址：：：从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。

6/30/2025 8:15:00 AM

AI进化新里程碑！大模型首次具备人类空间思维能力！

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作，推出了名为 ViLaSR-7B 的模型，专注于空间推理任务。这个模型通过一种名为 “边看边画” 的训练方法，能够在理解图像的同时进行空间推理，从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。

6/23/2025 10:00:48 AM

AI在线

月之暗面开源 Kimi-2506：多模态智能体，视觉理解能力重大升级

近日，国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接]，而在线演示可在 [此处插入链接] 进行体验。

6/23/2025 9:00:38 AM

AI在线

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

Transformer 及其核心的注意力机制在自然语言处理和计算机视觉等领域带来了革命性进展，展现出强大的深度上下文建模和数据间复杂依赖关系捕捉能力。然而，其在处理视觉数据时面临两大核心挑战：二次计算复杂度使其难以高效处理高分辨率图像等长上下文数据；忽略空间结构，将多维图像视为无结构的一维标记序列，破坏了图像固有的空间连贯性，而这种信息对于依赖空间关系的视觉任务至关重要。为克服效率瓶颈，近期研究如线性注意力和状态空间模型（如 Mamba）致力于将复杂度降低至线性。

6/18/2025 1:59:11 PM

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

想象一下：你正在浏览社交媒体，看到一张震撼的图片或一段令人震撼的视频。它栩栩如生，细节丰富，让你不禁信以为真。但它究竟是真实记录，还是由顶尖 AI 精心炮制的「杰作」？

6/16/2025 8:51:00 AM

资讯热榜

OpenAI更新ChatGPT规则：10月29日起禁止医疗、法律与财务建议 eBay携手ChatGPT开启智能电商新时代，购物体验将全面升级！ Reddit CEO直言：AI聊天机器人并未带来流量红利，搜索仍是核心引擎看完刘润年度演讲，教你做好AI时代的能力迁徙！ OpenAI 开放 Sora2视频工具，面向美国、加拿大、日本和韩国用户从AI到泰勒·斯威夫特——源于生活的案例与启示库克:苹果将在人工智能领域寻求更多收购与合作机会 OpenAI年收入已远超130亿美元，上市计划仍遥遥无期

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景深度学习架构生成式AI DeepMind 编程亚马逊视觉 Transformer AI模型预测特斯拉 MCP

视觉