视觉
AAAI2025 | ICLR 2025爆款!CHiP创新引入视觉偏好,幻觉率腰斩
一眼概览CHiP 提出了一种跨模态分层偏好优化方法,通过视觉与文本偏好双重引导,显著提升多模态大模型(MLLMs)在幻觉检测任务中的表现,最高减少55.5%的幻觉率。 核心问题多模态大模型(如GPT-4V、LLaVA)虽具强大能力,但常产生“幻觉”——即图文语义不一致、生成不符合图像内容的描述。 现有DPO方法仅基于文本偏好,难以有效对齐图像和文本的表示,也无法细粒度定位幻觉段落,限制了模型可信度与实用性。
4/28/2025 12:28:27 PM
萍哥学AI
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
GPT-4o生成的第一视角机器人打字图这次,来自Meta等机构的研究者,发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。 研究者提出了一种简单而新颖的Transformer图像token压缩方法:Token-Shuffle。 他们设计了两项关键操作:token混洗(token-shuffle):沿通道维度合并空间局部token,用来减少输入token数;token解混(token-unshuffle):在Transformer块后解构推断token,用来恢复输出空间结构。
4/28/2025 9:10:00 AM
新智元
AI图像分割新王者:BiRefNet如何重新定义视觉精度边界?
一、当“抠图”变成毫米级手术:BiRefNet的技术突破你是否想过,为什么电商商品图能精准抠出发丝? 为什么自动驾驶车辆能瞬间识别行人轮廓? 答案可能藏在一种名为BiRefNet的AI模型中。
4/28/2025 3:22:45 AM
智Echo
CVPR2025 | 即插即用!清华国科大等推出视觉微调框架,仅需调整5%骨干网络参数
仅调整5%的骨干网络参数,就能超越全参数微调效果? 还是在实例分割、目标检测、旋转目标检测这样的经典视觉任务场景。 这是来自清华、国科大、上海交大、阿里巴巴的一项研究,相关论文已被CVPR2025接受。
4/26/2025 4:44:45 PM
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
首次在统一框架内实现理解与生成的“双优表现”,打破了多模态统一建模的僵局! 复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新的范式。
4/25/2025 9:10:00 AM
o3被曝「无视」前成果?华人博士生实名指控,谢赛宁等大牛激烈争辩
在视觉感知方面,o3和o4-mini在思维链中进行图像推理, 代表了一个重要突破。 华盛顿大学计算机科学博士生施惟佳站出来表示,o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。 论文链接:,曾提出通过可视化辅助增强模型推理。
4/21/2025 4:32:29 PM
新智元
纯自回归图像生成模型开源来了,复旦联手字节seed共同捍卫自回归
基于Transformer的自回归架构在语言建模上取得了显著成功,但在图像生成领域,扩散模型凭借强大的生成质量和可控性占据了主导地位。 虽然一些早期工作如Parti、LlamaGen,尝试用更强的视觉tokenizer和Transformer架构来提升自回归生成的效果,但他们论文中的结果表明,只有更多的参数量才能让自回归模型勉强和扩散模型“掰掰手腕”。 这也让越来越多的研究者质疑自回归视觉生成是否是一条可行、值得探索的路径。
4/21/2025 8:20:00 AM
量子位
视觉自回归生成理解编辑大一统!北大团队多模态新突破,训练数据代码全面开源
最近Google的Gemini Flash和OpenAI的GPT-4o等先进模型又一次推动了AI浪潮。 这些模型通过整合文本、图像、音频等多种数据形式,实现了更为自然和高效的生成和交互。 北京大学团队继VARGPT实现视觉理解与生成任务统一之后,再度推出了VARGPT-v1.1版本。
4/16/2025 2:55:00 AM
视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知
在视觉问题解答(VQA)等多模态环境中,当前视觉自监督学习(SSL)的表现还比不上语言图像预训练(CLIP)。 这种差距通常归因于语言监督引入的语义,尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。 在最近的一项研究中,Yann LeCun、谢赛宁等研究者探讨了一个基本问题: 语言监督对于多模态建模的视觉表征预训练是否必要?
4/3/2025 11:11:50 AM
机器之心
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
在InternVL-2.5上实现10倍吞吐量提升,模型性能几乎无损失。 最新1-bit多模态大模型KV cache量化方案CalibQuant来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本,无需改动原模型即可直接使用。
4/3/2025 10:29:06 AM
量子位
快手可灵AI全面焕新升级 上新“AI音效”、“资产管理”等新功能
快手旗下的可灵AI平台宣布进行全面焕新升级。 此次更新以“可灵AI,灵感成真”为核心理念,从视觉体系到交互体验进行了全方位的优化,旨在为创作者提供更高效、更便捷的创意素材生产与管理工具。 在视觉设计方面,可灵AI采用了极简主义风格,全新的Logo设计简洁而富有现代感,搭配自然的排版和黑白主色调,极大地减少了视觉干扰,让创作者的创意能够更加突出地展现出来。
3/28/2025 8:28:00 AM
AI在线
AI “看图说话” 更懂细节!腾讯开源多模态理解技术HaploVL
3月27日,腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。 这一技术旨在通过单个Transformer架构实现高效的多模态融合,显著提升AI在视觉和语言交互中的表现,特别是在细粒度视觉理解任务上。 在人工智能领域,多模态大模型(LMMs)近年来迅速崛起,它们能够实现复杂的视觉-语言对话和交互。
3/27/2025 5:36:00 PM
AI在线
Groundlight 开源框架,搞定复杂的视觉推理
一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。 我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务。
3/17/2025 3:00:00 PM
AI在线
CVPR'25跨模态因果对齐,让机器更懂视觉证据
跨模态因果对齐,让机器更懂视觉证据! 来自中山大学、新加坡南洋理工大学等团队提出跨模态因果对齐框架(CRA),通过因果干预和跨模态对齐,显著提升时空定位的准确性与可解释性。 相关论文已被CVPR 2025接收,代码已开源。
3/17/2025 10:25:28 AM
CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解
无需物理引擎,单个模型也能实现“渲染 逆渲染”了! 在计算机图形和视觉领域,渲染是指将3D模型变成逼真的2D图片,逆渲染则是从2D图片分析出3D模型的各种属性(如材质、光照等)。 现在,从材质分解(逆渲染)——材质编辑——物体渲染的整个流程,都被统一到了一个框架中,且在性能方面达到了新SOTA。
3/17/2025 9:20:00 AM
量子位
CVPR2025最新!探索3D场景推理问答新高度:双视觉感知网络
0.背景信息在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。 相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。 然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。
3/14/2025 10:26:58 AM
Jingzhou Luo等
迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang
阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉