视觉

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

复盘旷视十三年:高光、谷底与重生

01 年轻人的时代印奇对人工智能的执著,比旷视成立要早几年。 2006 年,这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。 报考专业时,他特地询问招生办的老师:“我想研究人工智能,应该选什么系?

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证……当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。 应对挑战,淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型(VLM)安全对齐方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。 PSA-VLM通过基于概念瓶颈模型(CBM)的架构创新,允许模型在生成答案时干预模型的中间层概念预测,从而优化大模型的最终回复,显著提升VLM在应对视觉安全风险方面的性能。

真正实时地图更新!GS-LIVO:首个可部署在资源受限嵌入式系统上的实时高斯SLAM框架

本文经3D视觉之心公众号授权转载,转载请联系出处。 实时地图更新近年来,随着同步定位与建图(SLAM)技术的发展,出现了多种显式地图表示方法,包括稠密彩色点云、稀疏基于块的结构,以及基于网格或基于曲面元素(surfel)的重建。 这些形式通常与基于特征的方法或直接方法相结合,在无人机和移动机器人等平台上支持高效、实时操作。

会捡垃圾、能干家务,元萝卜“视觉+机械臂”技术扫地机器人应用首秀

在2025开年科技盛宴CES(国际消费电子展)上,AI机器人无疑成为全场焦点,而其中来自中国科技企业展示和发布的仿生多关节机械手技术在扫地机器人产品上的应用,更获得了全球媒体的高度关注。 通过将视觉感知与机械臂技术相结合,能够自主完成拾取垃圾入桶等任务,不仅展示了家用机器人发展的未来形态,也让大众看到了具身智能机器人融入家庭生活的广阔前景。 随着大模型技术和具身智能浪潮汹涌而至,家用机器人正迎来全新发展机遇,中国企业的创新力也愈发凸显。

性能爆拉30%!英伟达DreamDrive:时空一致下的生成重建大一统新方案~

写在前面 & 笔者的个人理解从自车的驾驶轨迹中生成真实的视觉图像是实现自动驾驶模型可扩展训练的关键一步。 基于重建的方法从log中生成3D场景,并通过神经渲染合成几何一致的驾驶视频,但它们对昂贵标注的依赖限制了它们在野外驾驶场景中的泛化能力。 另一方面,生成模型可以以更通用的方式合成动作条件驾驶视频,但往往难以保持3D视觉的一致性。

组件可控个性化生成方法MagicTailor:生成过程可自由地定制ID

本文经AIGC Studio公众号授权转载,转载请联系出处。 文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。 相关链接论文阅读::(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。

OCR-Omni来了!字节&华师提出统一的多模态生成模型TextHarmony

本文经AIGC Studio公众号授权转载,转载请联系出处。 在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。 目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。

突破非视距条件依赖!大规模区域、低成本的UWB-LiDAR标定与单次定位框架

本文经3D视觉之心公众号授权转载,转载请联系出处。 UWB大规模实时工业定位超宽带(UWB)是一种短距离、节能的无线电通信技术,主要用于精确的定位检测和相对距离测量。 例如,Apple 的 AirTags 和 Android 的 SmartTags 等设备因其能够精确追踪家用物品而越来越受欢迎。

计算机视觉开发者必备:十大顶尖工具深度解析

在科技日新月异的今天,计算机视觉领域正以前所未有的速度发展,其应用已经渗透到医疗健康、自动驾驶、安全监控以及零售等多个行业。 对于计算机视觉开发者而言,掌握一系列高效、强大的工具是提升技能、加速项目开发的关键。 本文将深入介绍十款无论是初学者还是高级用户都应熟练掌握的计算机视觉开发工具,帮助开发者在这一领域取得更大的突破。

计算机视觉项目实战:提升简历,精进技能

在计算机视觉领域,实践是检验理论、提升技能的试金石。 无论是初学者还是希望进一步提升自己的专业人士,通过参与实际项目都是至关重要的。 本文将引导您探索一系列计算机视觉项目,这些项目按照难度分类,旨在帮助您构建并展示您的专业技能。

多榜单SOTA!SplatAD:首个实现Lidar & 视觉重建大一统框架,仿真闭环再下一城~

写在前面&笔者的个人理解在实际部署之前,大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。 从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。 与成本高昂、耗时且受物理约束限制的实际测试不同,模拟可以快速、低成本地探索多种场景,有助于优化自动驾驶车辆的安全性、舒适性和效率。

极智嘉发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案,在设备内完成所有深度计算

极智嘉(Geek )昨日(11 月 4 日)宣布,携手英特尔发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案。 ▲ 纯视觉机器人在仓储场景的实际应用AI在线获悉,极智嘉成立于 2015 年,公司总部位于北京。 极智嘉纯视觉机器人方案包含 M600 和 MP1000R 两款产品,将在 11 月 5~8 日首次亮相 2024 CeMAT 亚洲物流展极智嘉展台。

视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号 | ECCV 2024

视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。 随着多模态推理系统的普及,如视觉问答和图像描述,视觉定位的重要性愈加凸显。 已有的研究大致可以分为三类:两阶段方法、单阶段方法和基于Transformer的方法。

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

AI 解放碳基生物双手,甚至能让你的手机自己玩自己! 你没听错 —— 这其实就是移动任务自动化。 在 AI 飞速发展下,这逐渐成为一个新兴的热门研究领域。

一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限

长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。 然而,现有的多模态大模型在处理 10 分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。 对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型 Video-XL。

端侧最强开源 AI 模型 Llama 3.2 登场:可在手机运行,从 1B 纯文本到 90B 多模态,挑战 OpenAI 4o mini

Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型,代表了 Meta 在大型语言模型(LLMs)方面的最新进展,在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs (11B 和 90B),以及轻量级纯文本模型(1B 和 3B),此外提供预训练和指令微调(instruction-tuned)版本。AI在线附

MAIA 新系统亮相:洞悉 AI 模型内在机制,审查其安全性

麻省理工学院计算机科学与人工智能实验室的研究人员开发了一种名为“MAIA”的多模式自动化可解释性代理系统,该系统可以使用视觉语言模型来自动执行各种神经网络可解释性任务。麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)最新研发了名为 MAIA 系统,可以使用视觉语言模型来自动执行各种神经网络可解释性任务。MAIA 的全称是 Multimodal Automated Interpretability Agent,直译过来为“多模态自动可解释性代理”,主要利用视觉语言模型,自动执行各种神经网络可解释性任务,