视觉

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

继π0后，具身智能基座模型在中国也终于迎来了真正的开源——刚刚，WALL-OSS宣布正式开源！在多项指标中，它还超越了π0。如果你是搞具身的开发者，了解它的基本资料，你就一定不会想错过它：它是一个通用基础具身模型，泛化性和推理能力一流，你可以在自有本体上部署，快速微调后用起来。

9/8/2025 3:09:59 PM

视觉Token注入CLIP语义，走向多模态理解与生成新范式

让视觉token说话，既能看懂图像，又可以画出图像！腾讯ARC Lab联合中科院自动化所、香港城市大学、浙江大学等机构提出了一种全新的视觉分词器——TokLIP，即Token CLIP。可以将低级的离散视觉Token与高级的CLIP语义相结合，实现多模态理解与生成的高效统一。

8/27/2025 9:08:00 AM

DeepMind掌门自曝AGI倒计时5年！算力需求暴增10倍，推理计算吞噬一切

Hassabis绝对是当今世界上最聪明、最有趣的大脑之一。在最新播客中，他表示「自然界里任何能被发现的规律，都能被机器学习算法高效地学会和模仿。」AlphaGo和AlphaFold在给可能性多到无法想象的复杂问题建立一个模型。

7/25/2025 10:29:23 AM

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生，指导老师为王鑫超，研究方向是多模态大模型与可信深度模型。本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。论文链接：仓库： GPT 引爆大语言模型热潮以来，自回归的大语言模型（LLMs）与多模态模型（MLLMs）已成为智能系统的基石。

7/17/2025 9:16:20 AM

机器之心

放世界任务成功率82%！美的攻克机器人泛化控制难题

还在担心机器人只能机械执行、不会灵活应变？美的AI研究院和华东师范大学联合提出ChatVLA-2——一个具有开放世界具身推理能力的视觉-语言-动作模型（VLA）模型。它引入动态混合专家架构，并结合双阶段训练流程，不仅最大程度保留了视觉-语言模型（VLM）的多模态认知和推理能力，还能将推理结果真正转化为可执行的动作。

7/15/2025 4:28:05 PM

英伟达&MIT等推出Long-RL，长视频训练速度翻倍

请想象……一个 AI—— 它要完整看完一场几十分钟的世界杯决赛，不只是数球门数，更要跨越上百个镜头的线索、情绪、战术细节，甚至要像人一样推断：谁会赢点球大战？足球比赛预测分析预测《星际争霸 2》这样的即时战略游戏同样需要考虑许多不同的变量，难度也非常巨大。星际争霸 2 比赛预测分析再换个场景：同样是 AI，在一场紧张的德州扑克超级豪客赛上，面对职业牌手的每一次下注、加注、弃牌，能否像一个顶尖牌手一样，推理出对手藏在手里的那两张底牌？

7/14/2025 2:38:45 PM

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

作者简介：由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究，作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋，通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究，欢迎关注。快执行与慢思考：在机器人操控领域，实现高频响应与复杂推理的统一，一直是一个重大技术挑战。

7/14/2025 8:47:00 AM

Gemini负责人爆料！多模态统一token表示，视觉至关重要

一水闻乐发自凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。

7/3/2025 3:06:44 PM

闻乐

大模型时代，通用视觉模型将何去何从？

过去几年，通用视觉模型（Vision Generalist Model，简称 VGM）曾是计算机视觉领域的研究热点。它们试图构建统一的架构，能够处理图像、点云、视频等多种视觉模态输入，以及分类、检测、分割等多样的下游任务，向着「视觉模型大一统」的目标迈进。然而，随着大语言模型 LLM 的迅猛发展，研究热点已经悄然发生转移。

7/2/2025 9:17:13 AM

视觉语言模型如何突破感知边界？上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令，若让一台具身智能体（Embodied Agent）执行，其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。如何让 AI 理解任务的潜台词、合理分解步骤，并在真实视觉输入中找准对象并正确执行，正是当前具身智能与多模态学习面临的最大挑战之一。具身智能与多模态规划的研究背景具身智能（Embodied Intelligence）可以被视为 AI 研究“从认知走向行为”的转折点。

7/1/2025 1:35:00 AM

FlerkenS

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

赵天辰，清华大学电子工程系高能效计算实验室研究生，研究方向主要是：面向视觉生成的高效算法，与软硬件协同设计近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。与输入序列长度呈平方复杂度的 Attention 操作，成为主要的性能瓶颈（可占据全模型的 60-80% 的开销），有明显的效率优化需求。注意力的稀疏化（Sparse Attention）与低比特量化（Attention Quantization）为常用的 Attention 优化技巧，在许多现有应用中取得优秀的效果。

6/30/2025 2:02:00 PM

CVPR 2025 | 零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征

当前大型视觉语言模型（LVLMs）普遍存在「物体幻觉」问题：模型会凭空生成图像中不存在的物体描述。为了高效地实现幻觉消除，西安交通大学研究团队提出了一种利用「幻觉子空间」（HalluSpace）进行零空间投影的高效模型权重编辑方法Nullu（Null space of HalluSpace）。论文地址：：：从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。

6/30/2025 8:15:00 AM

AI进化新里程碑！大模型首次具备人类空间思维能力！

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作，推出了名为 ViLaSR-7B 的模型，专注于空间推理任务。这个模型通过一种名为 “边看边画” 的训练方法，能够在理解图像的同时进行空间推理，从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。

6/23/2025 10:00:48 AM

AI在线

月之暗面开源 Kimi-2506：多模态智能体，视觉理解能力重大升级

近日，国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接]，而在线演示可在 [此处插入链接] 进行体验。

6/23/2025 9:00:38 AM

AI在线

资讯热榜

姚顺雨离职OpenAI，「亿元入职腾讯」传闻引爆AI圈，鹅厂辟谣了 OpenAI与微软达成非约束性协议：允许将营利部门转型公益股份公司狠人研究公开！ChatGPT底层记忆系统终于被逆向了！没有RAG！用户设备信息、使用习惯统统存下来，用户知识记忆是新的研究热点！腾讯辟谣！OpenAI 前研究员姚顺雨 “百万年薪” 入职传闻不实迎战软件3.0时代：新范式、新挑战、新工程国家发改委：加大人工智能领域金融和财政支持力度 ChatGPT支持MCP了！一句Prompt即可全自动化 OpenAI与英伟达联手巨资投资英国数据中心

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术 AI新词图像 Gemini 智能体马斯克 AI创作 Anthropic 英伟达论文训练代码算法 LLM Stable Diffusion 芯片腾讯苹果蛋白质 Claude 开发者 AI for Science Agent 生成式神经网络机器学习 3D xAI 研究人形机器人生成 AI视频百度工具计算 Sora GPU 华为大语言模型 RAG 具身智能 AI设计字节跳动搜索大型语言模型场景 AGI 深度学习视频生成预测视觉伟达架构 Transformer 编程神器推荐 DeepMind 亚马逊特斯拉 AI模型

视觉

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

视觉Token注入CLIP语义，走向多模态理解与生成新范式

DeepMind掌门自曝AGI倒计时5年！算力需求暴增10倍，推理计算吞噬一切

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

放世界任务成功率82%！美的攻克机器人泛化控制难题

英伟达&MIT等推出Long-RL，长视频训练速度翻倍

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

Gemini负责人爆料！多模态统一token表示，视觉至关重要

大模型时代，通用视觉模型将何去何从？

视觉语言模型如何突破感知边界？上海 AI 新势力提出“世界意识”赋能真实环境规划

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

CVPR 2025 | 零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征

AI进化新里程碑！大模型首次具备人类空间思维能力！

月之暗面开源 Kimi-2506：多模态智能体，视觉理解能力重大升级

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

英伟达港大联手革新视觉注意力机制！GSPN高分辨率生成加速超84倍

李飞飞自曝详细创业经历：五年前因眼睛受伤，坚定要做世界模型

视觉

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

视觉Token注入CLIP语义，走向多模态理解与生成新范式

DeepMind掌门自曝AGI倒计时5年！算力需求暴增10倍，推理计算吞噬一切

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

放世界任务成功率82%！美的攻克机器人泛化控制难题

英伟达&amp;MIT等推出Long-RL，长视频训练速度翻倍

模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

Gemini负责人爆料！多模态统一token表示，视觉至关重要

大模型时代，通用视觉模型将何去何从？

视觉语言模型如何突破感知边界？上海 AI 新势力提出“世界意识”赋能真实环境规划

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

CVPR 2025 | 零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征

AI进化新里程碑！大模型首次具备人类空间思维能力！

​月之暗面开源 Kimi-2506：多模态智能体，视觉理解能力重大升级

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

英伟达港大联手革新视觉注意力机制！GSPN高分辨率生成加速超84倍

李飞飞自曝详细创业经历：五年前因眼睛受伤，坚定要做世界模型

英伟达&MIT等推出Long-RL，长视频训练速度翻倍

月之暗面开源 Kimi-2506：多模态智能体，视觉理解能力重大升级