视觉

AI图像分割新王者：BiRefNet如何重新定义视觉精度边界？

一、当“抠图”变成毫米级手术：BiRefNet的技术突破你是否想过，为什么电商商品图能精准抠出发丝？为什么自动驾驶车辆能瞬间识别行人轮廓？答案可能藏在一种名为BiRefNet的AI模型中。

4/28/2025 3:22:45 AM

智Echo

CVPR2025 | 即插即用！清华国科大等推出视觉微调框架，仅需调整5%骨干网络参数

仅调整5%的骨干网络参数，就能超越全参数微调效果？还是在实例分割、目标检测、旋转目标检测这样的经典视觉任务场景。这是来自清华、国科大、上海交大、阿里巴巴的一项研究，相关论文已被CVPR2025接受。

4/26/2025 4:44:45 PM

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

首次在统一框架内实现理解与生成的“双优表现”，打破了多模态统一建模的僵局！复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案，在一个框架内兼顾了图文理解与图像生成任务，并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征，有效缓解了以往方法中“任务干扰”和“表示割裂”的问题，为多模态统一建模提供了新的范式。

4/25/2025 9:10:00 AM

o3被曝「无视」前成果？华人博士生实名指控，谢赛宁等大牛激烈争辩

在视觉感知方面，o3和o4-mini在思维链中进行图像推理，代表了一个重要突破。华盛顿大学计算机科学博士生施惟佳站出来表示，o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。论文链接：，曾提出通过可视化辅助增强模型推理。

4/21/2025 4:32:29 PM

新智元

纯自回归图像生成模型开源来了，复旦联手字节seed共同捍卫自回归

基于Transformer的自回归架构在语言建模上取得了显著成功，但在图像生成领域，扩散模型凭借强大的生成质量和可控性占据了主导地位。虽然一些早期工作如Parti、LlamaGen，尝试用更强的视觉tokenizer和Transformer架构来提升自回归生成的效果，但他们论文中的结果表明，只有更多的参数量才能让自回归模型勉强和扩散模型“掰掰手腕”。这也让越来越多的研究者质疑自回归视觉生成是否是一条可行、值得探索的路径。

4/21/2025 8:20:00 AM

量子位

视觉自回归生成理解编辑大一统！北大团队多模态新突破，训练数据代码全面开源

最近Google的Gemini Flash和OpenAI的GPT-4o等先进模型又一次推动了AI浪潮。这些模型通过整合文本、图像、音频等多种数据形式，实现了更为自然和高效的生成和交互。北京大学团队继VARGPT实现视觉理解与生成任务统一之后，再度推出了VARGPT-v1.1版本。

4/16/2025 2:55:00 AM

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

在视觉问题解答（VQA）等多模态环境中，当前视觉自监督学习（SSL）的表现还比不上语言图像预训练（CLIP）。这种差距通常归因于语言监督引入的语义，尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。在最近的一项研究中，Yann LeCun、谢赛宁等研究者探讨了一个基本问题：语言监督对于多模态建模的视觉表征预训练是否必要？

4/3/2025 11:11:50 AM

机器之心

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。最新1-bit多模态大模型KV cache量化方案CalibQuant来了。通过结合后缩放和校准方法，可显著降低显存与计算成本，无需改动原模型即可直接使用。

4/3/2025 10:29:06 AM

量子位

快手可灵AI全面焕新升级上新“AI音效”、“资产管理”等新功能

快手旗下的可灵AI平台宣布进行全面焕新升级。此次更新以“可灵AI，灵感成真”为核心理念，从视觉体系到交互体验进行了全方位的优化，旨在为创作者提供更高效、更便捷的创意素材生产与管理工具。在视觉设计方面，可灵AI采用了极简主义风格，全新的Logo设计简洁而富有现代感，搭配自然的排版和黑白主色调，极大地减少了视觉干扰，让创作者的创意能够更加突出地展现出来。

3/28/2025 8:28:00 AM

AI在线

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

3月27日，腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。这一技术旨在通过单个Transformer架构实现高效的多模态融合，显著提升AI在视觉和语言交互中的表现，特别是在细粒度视觉理解任务上。在人工智能领域，多模态大模型（LMMs）近年来迅速崛起，它们能够实现复杂的视觉-语言对话和交互。

3/27/2025 5:36:00 PM

AI在线

Groundlight 开源框架，搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队，近日放大招，宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理，让AI不仅能“看图识物”，更能像福尔摩斯一样，从图像中推理出更深层次的信息。我们都知道，现在的AI在识别猫猫狗狗方面已经炉火纯青，但要让它们理解图片背后的逻辑关系，进行更复杂的推理，就常常“卡壳”。 Groundlight 的研究人员指出，当前的视觉语言模型（VLM）在理解图像本身尚且不足的情况下，更难以完成需要深度解读的任务。

3/17/2025 3:00:00 PM

AI在线

CVPR'25跨模态因果对齐，让机器更懂视觉证据

跨模态因果对齐，让机器更懂视觉证据！来自中山大学、新加坡南洋理工大学等团队提出跨模态因果对齐框架（CRA），通过因果干预和跨模态对齐，显著提升时空定位的准确性与可解释性。相关论文已被CVPR 2025接收，代码已开源。

3/17/2025 10:25:28 AM

CVPR 2025：无需物理引擎，一个模型搞定图像渲染与分解

无需物理引擎，单个模型也能实现“渲染逆渲染”了！在计算机图形和视觉领域，渲染是指将3D模型变成逼真的2D图片，逆渲染则是从2D图片分析出3D模型的各种属性（如材质、光照等）。现在，从材质分解（逆渲染）——材质编辑——物体渲染的整个流程，都被统一到了一个框架中，且在性能方面达到了新SOTA。

3/17/2025 9:20:00 AM

量子位

CVPR2025最新！探索3D场景推理问答新高度：双视觉感知网络

0.背景信息在人工智能的前沿领域，3D场景问答（3D QA）正在成为视觉与语言理解的关键挑战。相比于传统的2D视觉问答（VQA），3D QA需要模型不仅能够感知复杂的三维空间结构，还要理解语言描述与场景之间的关系。然而，目前的3D QA方法大多依赖于3D点云数据，而忽视了多视角图像提供的丰富局部纹理信息，这使得模型在面对小型、扁平物体时表现受限。

3/14/2025 10:26:58 AM

Jingzhou Luo等

迈向视觉大一统：UnifiedReward，多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿，论文提出了一个视觉领域通用的奖励模型UnifiedReward，能够对图像/视频的生成与理解进行pairwise（成对比较）或 pointwise（单样本打分）评估，可用于视觉各领域的直接偏好优化 (DPO)，提升各类视觉模型的表现。论文介绍近年来，大模型时代的多模态生成与理解技术取得了飞跃式发展。然而，如何让AI真正“看懂”世界，并更好地对齐人类偏好，仍是一个核心挑战。

3/13/2025 10:18:42 AM

Yibin Wang

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！眼睛一闭一睁，阿里通义实验室薄列峰团队又开卷了，哦是开源，R1-Omni来了。同样在杭州，这是在搞什么「开源双feng」（狗头保命）？

3/11/2025 1:47:10 PM

量子位

武大等发布大视觉模型最新安全综述：全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知，大型视觉语言模型（LVLMs）正以前所未有的速度重塑AI世界，这些能够理解视觉信息并生成自然语言响应的智能系统，已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。然而，当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容，我们是否该感到担心？近期，武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述，系统性总结了LVLMs在安全性上的挑战，并提出了全面而系统的安全分类框架。

3/11/2025 1:44:24 PM

新智元

华科字节推出 Liquid：重新定义多模态模型的生成与理解

近年来，大语言模型（LLM）在人工智能领域取得了显著进展，尤其是在多模态融合方面。华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid，旨在解决当前主流多模态模型在视觉处理上的局限性。传统的多模态大模型依赖复杂的外部视觉模块，这不仅增加了系统的复杂性，还限制了其扩展性。

3/4/2025 9:41:00 AM

AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 2024年12月AI微信公众号排行榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码苹果 AI for Science 算法 Agent 腾讯 Claude 芯片 Stable Diffusion 具身智能蛋白质 xAI 开发者人形机器人生成式神经网络机器学习 3D AI视频 RAG 大语言模型 Sora 百度研究字节跳动 GPU 生成工具华为 AGI 计算大型语言模型 AI设计生成式AI 搜索视频生成亚马逊 AI模型 DeepMind 特斯拉场景深度学习 Transformer 架构 Copilot MCP 编程视觉

视觉

AI图像分割新王者：BiRefNet如何重新定义视觉精度边界？

CVPR2025 | 即插即用！清华国科大等推出视觉微调框架，仅需调整5%骨干网络参数

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

o3被曝「无视」前成果？华人博士生实名指控，谢赛宁等大牛激烈争辩

纯自回归图像生成模型开源来了，复旦联手字节seed共同捍卫自回归

视觉自回归生成理解编辑大一统！北大团队多模态新突破，训练数据代码全面开源

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

快手可灵AI全面焕新升级 上新“AI音效”、“资产管理”等新功能

AI “看图说话” 更懂细节！腾讯开源多模态理解技术HaploVL

Groundlight 开源框架，搞定复杂的视觉推理

CVPR'25跨模态因果对齐，让机器更懂视觉证据

CVPR 2025：无需物理引擎，一个模型搞定图像渲染与分解

CVPR2025最新！探索3D场景推理问答新高度：双视觉感知网络

迈向视觉大一统：UnifiedReward，多模态生成与理解的通用奖励模型

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

武大等发布大视觉模型最新安全综述：全面分类攻击策略、防御机制和评估方法

华科字节推出 Liquid：重新定义多模态模型的生成与理解

快手可灵AI全面焕新升级上新“AI音效”、“资产管理”等新功能