AI在线 AI在线

多模态大模型

商汤「日日新V6.5」登顶OpenCompass全球多模态大模型榜单

根据权威评测平台OpenCompass多模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(SenseNova-V6.5 Pro)多模态大模型以82.2的综合成绩登顶榜首,领先Gemini 2.5 Pro以及GPT-5等国际顶尖模型。 这一佳绩不仅意味着商汤「日日新 V6.5」成为全球最强多模态大模型之一,同时也是商汤在“多模态通用智能”技术战略下的成果印证。 商汤科技联合创始人、执行董事、首席科学家林达华在《迈向多模态通用智能:商汤的思考》中指出,智能的核心是与外界进行自主交互的能力,多模态信息感知与处理的能力是AGI的核心要求,使AI能像人类一样,通过视觉、听觉等多种感官接收并融合信息,实现更深层次的理解与推理,是迈向AGI的必由之路。
9/10/2025 4:58:13 PM
量子位的朋友们

VLDB2025 | Magnus: 字节跳动面向大规模机器学习的数据管理方案

导读机器学习广泛应用于字节跳动,数据作为机器学习训练的核心要素,如何高效灵活的管理支撑大规模训练数据的存储、生产以及训练,成为数据基础设施的一大挑战;近两年大模型迅猛发展,对数据集管理也提出了更多新的场景需求。 字节跳动在开源 Apache Iceberg 的基础上,打造了一套面向大规模机器学习的数据管理解决方案 Magnus,在存储格式、索引、元数据管理、更新机制、训练框架集成等多个维度实现优化。 Magnus 已在字节内部部署超过五年,在搜索、广告、推荐、大模型等核心业务中大规模落地,数据规模超5EB,相关成果已被 VLDB 2025收录。
9/10/2025 9:59:52 AM
基础技术训练设施

全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球

近日,优必选自主研发的人形机器人Walker最强大脑——百亿参数基座的多模态大模型:优必选Thinker,在机器人感知与规划领域三大国际权威基准测试——分别由微软、谷歌等发起与提出的MS COCO Detection Challenge、RoboVQA与Egoplan-bench2中,针对二十一个场景、四大类型的任务规划等命题,优必选一举斩获四项全球榜单第一。 榜单吸引了来自英伟达、北京智源研究院、上海AI Lab等全球顶尖团队,角逐激烈。 优必选这次取得的成绩不仅体现了其机器人在复杂环境感知、语义理解与长程任务规划方面的全方位技术领先性,也标志着人形机器人Walker S系列的“最强大脑”实现关键进化。
9/9/2025 11:54:20 AM
量子位的朋友们

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。 通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。 团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。
9/5/2025 12:59:00 PM
机器之心

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

本研究由腾讯混元和中科院自动化所联合研发,团队成员包括 Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng背景:多模态大模型的思考困境当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。 无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。 它们距离真正意义上的“智能思考”仍有距离。
9/1/2025 2:14:00 PM
机器之心

理想i8正式发布:首款纯电SUV,售价32.18万元起

7 月 29 日晚,理想汽车正式发布家庭六座纯电 SUV—— 理想 i8。 作为旗下首款纯电 SUV,理想 i8 价格定位在 32.18 万元 - 36.98 万元,并将于 8 月 20 日开启交付,目前已可以在全国零售门店试驾体验了。 理想 i8 的设计理念源于游艇,其延续了 MEGA 的前脸设计风格,尾部则与理想 L 系 SUV 类似,首发提供五款车身外观色,三款内饰配色,可选 20、21 英寸轮毂。
7/29/2025 11:45:00 PM
新闻助手

尖峰对话17分钟全记录:Hinton与周伯文的思想碰撞

7 月 26 日下午,人工智能教父 Geoffrey Hinton 与上海人工智能实验室主任、首席科学家周伯文教授开展了一场浓缩高密度智慧的尖峰对话,将 Hinton 的上海之行推向新高潮。 77 岁的 Geoffrey Hinton 第一次飞越重洋踏上了中国,当他步入会场时,全场起立鼓掌,观众们高举手机长达数分钟,直播画面中一度无法看到台上的嘉宾。 在 17 分钟的对话中,两位科学家谈及 AI 多模态大模型前沿、“主观体验” 和 “意识”、如何训练 “善良” 的超级智能、AI 与科学发现,以及给年轻科学家的建议。
7/26/2025 11:15:00 PM
机器之心

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。 本文的第一作者为北京航空航天大学硕士生周恩申,主要研究方向为具身智能和多模态大模型。 本文的共一作者兼项目负责人为北京智源研究院研究员迟程。
7/6/2025 9:31:00 PM
机器之心

阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者

2025年6月29日,阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**,标志着其在多模态人工智能领域的又一重大突破。 作为Ovis系列的最新力作,Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体,展现了强大的跨模态处理能力,为开发者、研究者和行业应用提供了全新的可能性。 以下是AIbase对Ovis-U1的详细报道。
6/30/2025 10:00:59 AM
AI在线

通义千问发布多模态统一理解与生成模型Qwen VLo

近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。 该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。
6/28/2025 10:00:43 AM
AI在线

全新 GoT-R1 多模态模型发布:让 AI 画图更聪明,图像生成新纪元!

近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。 这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能力,成功应对复杂的文本提示生成高保真、语义一致的图像。 这一进展标志着图像生成技术的又一次飞跃。
6/26/2025 1:00:48 PM
AI在线

立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。 由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。 与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。
6/24/2025 5:00:42 PM
AI在线

云从科技的多模态大模型获全球认可,登顶 OpenCompass 榜单

近日,云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出,荣登榜首。 这一成就标志着中国在人工智能领域的进一步突破,尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。 “从容 V2.0” 模型的成功不仅得益于其在技术上的创新,更是云从科技在多模态人工智能研究领域多年耕耘的成果。
5/30/2025 10:01:19 AM
AI在线

蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni

5月27日,在蚂蚁技术日上,蚂蚁集团旗下的百灵大模型(Ling)团队宣布正式开源统一多模态大模型Ming-lite-omni。 据蚂蚁方面介绍,这是一款基于Ling-lite构建的MoE架构的全模态模型,其总参数22B,激活参数3B。  据悉,Ming-lite-omni当前模型权重和推理代码已开源,后续会陆续开源训练代码和训练数据。
5/29/2025 11:27:00 AM
郭海惟

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。 该基准的推出,旨在填补当前评估体系中对模型视觉输出能力的空白,以便更全面地了解现有模型的性能。 RBench-V 基准测试包含803道题目,涉及多个领域,包括几何与图论、力学与电磁学、多目标识别和路径规划等。
5/28/2025 12:01:20 PM
AI在线

商汤坐上大模型核心牌桌

过去两年,关于大模型的讨论视角很少从商汤这样成立不过十年、资源与技术积累正当青壮年的人工智能公司出发。 造成这一现象的主要原因是两个技术周期的迥异:2023 年之前,商汤的人工智能技术路径以计算机视觉模型为主,不同于 ChatGPT 为代表的新技术浪潮:以自然语言处理为主、大规模参数模型为核心。 一个是视觉、一个是语言,在外界看来两个赛道还没有发生直接的关系。
5/9/2025 11:42:00 AM
陈彩娴

共同阶跃星辰与原力灵机达成战略合作

阶跃星辰与原力灵机在北京签署了战略合作协议,双方将利用各自的技术优势,在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。 此次合作的目标是实现 “实现在物理世界的推理”,共同开发一种名为 “RoboAgent” 的智能机器人,推动通用人工智能(AGI)在实际应用中的落地。 签约仪式上,阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。
4/24/2025 2:00:46 PM
AI在线

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天,上海人工智能实验室再次引领潮流,推出了全新的多模态大模型 “书生・万象3.0”。 这一升级版本不仅在技术上进行了全面提升,还在多模态预训练和后训练方法的加持下,展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力,这使得它在多个应用场景中都能表现出色。
4/17/2025 2:01:15 PM
AI在线