AI在线 AI在线

视觉

识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力

多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准JourneyBench,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力:多模态链式数学推理 (Multimodal Chain-of-Thought)多图像视觉问答 (Multi-image VQA)细粒度跨模态检索 (Fine-grained Cross-modal Retrieval)包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers)非常见图像的描述 (Unusual Image Captioning)JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个综合性的视觉语言理解的训练以及评价基准JourneyBench。
2/27/2025 10:08:19 AM
量子位

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。 作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。 OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!
2/26/2025 10:24:47 AM
Junliang Chen等

Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025

理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢? 光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集重建。 该论文已被ICRA 2025接收。
2/24/2025 2:22:00 PM
量子位

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强,模型们普遍“过于自信”! 这个结果来自首个面向事实知识的中文视觉问答基准ChineseSimpleVQA。 该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。
2/24/2025 9:12:00 AM
量子位

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢? 为此,来自港中文MMLab的研究者们提出了MME-CoT。 这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。
2/24/2025 8:30:00 AM
量子位

IC-Portrait:打造逼真个性化肖像的新纪元

在数字内容创作、虚拟形象、游戏和增强现实等领域,肖像生成已成为计算机图形学研究的热点。 尽管近年来肖像生成模型取得了显著进展,能够生成越来越逼真和吸引人的肖像,但仍面临诸多挑战。 今天,给大家介绍一种个性化肖像生成框架IC-Portrait,该框架引入了一种创建逼真肖像图像的创新方法。
2/11/2025 10:30:00 AM
AIGC Studio

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

AI的新进展频频,人才动态也愈加重磅。 新年第一则大牛人事动向,引发业内关注。 许主洪,IEEE Fellow,新加坡管理大学终身教授,被曝加盟阿里。
2/8/2025 8:40:00 AM
量子位

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。
1/28/2025 5:34:00 PM
新闻助手

复盘旷视十三年:高光、谷底与重生

01 年轻人的时代印奇对人工智能的执著,比旷视成立要早几年。 2006 年,这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。 报考专业时,他特地询问招生办的老师:“我想研究人工智能,应该选什么系?
1/18/2025 4:54:00 PM
陈彩娴

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证……当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。 应对挑战,淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型(VLM)安全对齐方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。 PSA-VLM通过基于概念瓶颈模型(CBM)的架构创新,允许模型在生成答案时干预模型的中间层概念预测,从而优化大模型的最终回复,显著提升VLM在应对视觉安全风险方面的性能。
1/17/2025 1:30:00 PM
量子位

真正实时地图更新!GS-LIVO:首个可部署在资源受限嵌入式系统上的实时高斯SLAM框架

本文经3D视觉之心公众号授权转载,转载请联系出处。 实时地图更新近年来,随着同步定位与建图(SLAM)技术的发展,出现了多种显式地图表示方法,包括稠密彩色点云、稀疏基于块的结构,以及基于网格或基于曲面元素(surfel)的重建。 这些形式通常与基于特征的方法或直接方法相结合,在无人机和移动机器人等平台上支持高效、实时操作。
1/17/2025 9:45:00 AM
3D视觉之心

会捡垃圾、能干家务,元萝卜“视觉+机械臂”技术扫地机器人应用首秀

在2025开年科技盛宴CES(国际消费电子展)上,AI机器人无疑成为全场焦点,而其中来自中国科技企业展示和发布的仿生多关节机械手技术在扫地机器人产品上的应用,更获得了全球媒体的高度关注。 通过将视觉感知与机械臂技术相结合,能够自主完成拾取垃圾入桶等任务,不仅展示了家用机器人发展的未来形态,也让大众看到了具身智能机器人融入家庭生活的广阔前景。 随着大模型技术和具身智能浪潮汹涌而至,家用机器人正迎来全新发展机遇,中国企业的创新力也愈发凸显。
1/15/2025 10:59:00 AM
新闻助手

性能爆拉30%!英伟达DreamDrive:时空一致下的生成重建大一统新方案~

写在前面 & 笔者的个人理解从自车的驾驶轨迹中生成真实的视觉图像是实现自动驾驶模型可扩展训练的关键一步。 基于重建的方法从log中生成3D场景,并通过神经渲染合成几何一致的驾驶视频,但它们对昂贵标注的依赖限制了它们在野外驾驶场景中的泛化能力。 另一方面,生成模型可以以更通用的方式合成动作条件驾驶视频,但往往难以保持3D视觉的一致性。
1/14/2025 11:00:00 AM
Jiageng Mao等

组件可控个性化生成方法MagicTailor:生成过程可自由地定制ID

本文经AIGC Studio公众号授权转载,转载请联系出处。 文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。 相关链接论文阅读::(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。
1/10/2025 10:15:00 AM
AIGC Studio

OCR-Omni来了!字节&华师提出统一的多模态生成模型TextHarmony

本文经AIGC Studio公众号授权转载,转载请联系出处。 在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。 目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。
1/6/2025 10:00:00 AM
AIGC Studio

突破非视距条件依赖!大规模区域、低成本的UWB-LiDAR标定与单次定位框架

本文经3D视觉之心公众号授权转载,转载请联系出处。 UWB大规模实时工业定位超宽带(UWB)是一种短距离、节能的无线电通信技术,主要用于精确的定位检测和相对距离测量。 例如,Apple 的 AirTags 和 Android 的 SmartTags 等设备因其能够精确追踪家用物品而越来越受欢迎。
1/3/2025 9:42:15 AM
3D视觉之心

计算机视觉开发者必备:十大顶尖工具深度解析

在科技日新月异的今天,计算机视觉领域正以前所未有的速度发展,其应用已经渗透到医疗健康、自动驾驶、安全监控以及零售等多个行业。 对于计算机视觉开发者而言,掌握一系列高效、强大的工具是提升技能、加速项目开发的关键。 本文将深入介绍十款无论是初学者还是高级用户都应熟练掌握的计算机视觉开发工具,帮助开发者在这一领域取得更大的突破。
12/20/2024 9:14:31 AM
AGI

计算机视觉项目实战:提升简历,精进技能

在计算机视觉领域,实践是检验理论、提升技能的试金石。 无论是初学者还是希望进一步提升自己的专业人士,通过参与实际项目都是至关重要的。 本文将引导您探索一系列计算机视觉项目,这些项目按照难度分类,旨在帮助您构建并展示您的专业技能。
12/13/2024 9:17:45 AM
AGI