AI在线 AI在线

多模态大模型

理想i8正式发布:首款纯电SUV,售价32.18万元起

7 月 29 日晚,理想汽车正式发布家庭六座纯电 SUV—— 理想 i8。 作为旗下首款纯电 SUV,理想 i8 价格定位在 32.18 万元 - 36.98 万元,并将于 8 月 20 日开启交付,目前已可以在全国零售门店试驾体验了。 理想 i8 的设计理念源于游艇,其延续了 MEGA 的前脸设计风格,尾部则与理想 L 系 SUV 类似,首发提供五款车身外观色,三款内饰配色,可选 20、21 英寸轮毂。
7/29/2025 11:45:00 PM
新闻助手

尖峰对话17分钟全记录:Hinton与周伯文的思想碰撞

7 月 26 日下午,人工智能教父 Geoffrey Hinton 与上海人工智能实验室主任、首席科学家周伯文教授开展了一场浓缩高密度智慧的尖峰对话,将 Hinton 的上海之行推向新高潮。 77 岁的 Geoffrey Hinton 第一次飞越重洋踏上了中国,当他步入会场时,全场起立鼓掌,观众们高举手机长达数分钟,直播画面中一度无法看到台上的嘉宾。 在 17 分钟的对话中,两位科学家谈及 AI 多模态大模型前沿、“主观体验” 和 “意识”、如何训练 “善良” 的超级智能、AI 与科学发现,以及给年轻科学家的建议。
7/26/2025 11:15:00 PM
机器之心

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。 本文的第一作者为北京航空航天大学硕士生周恩申,主要研究方向为具身智能和多模态大模型。 本文的共一作者兼项目负责人为北京智源研究院研究员迟程。
7/6/2025 9:31:00 PM
机器之心

阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者

2025年6月29日,阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**,标志着其在多模态人工智能领域的又一重大突破。 作为Ovis系列的最新力作,Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体,展现了强大的跨模态处理能力,为开发者、研究者和行业应用提供了全新的可能性。 以下是AIbase对Ovis-U1的详细报道。
6/30/2025 10:00:59 AM
AI在线

通义千问发布多模态统一理解与生成模型Qwen VLo

近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。 该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。
6/28/2025 10:00:43 AM
AI在线

全新 GoT-R1 多模态模型发布:让 AI 画图更聪明,图像生成新纪元!

近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。 这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能力,成功应对复杂的文本提示生成高保真、语义一致的图像。 这一进展标志着图像生成技术的又一次飞跃。
6/26/2025 1:00:48 PM
AI在线

立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。 由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。 与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。
6/24/2025 5:00:42 PM
AI在线

云从科技的多模态大模型获全球认可,登顶 OpenCompass 榜单

近日,云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出,荣登榜首。 这一成就标志着中国在人工智能领域的进一步突破,尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。 “从容 V2.0” 模型的成功不仅得益于其在技术上的创新,更是云从科技在多模态人工智能研究领域多年耕耘的成果。
5/30/2025 10:01:19 AM
AI在线

蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni

5月27日,在蚂蚁技术日上,蚂蚁集团旗下的百灵大模型(Ling)团队宣布正式开源统一多模态大模型Ming-lite-omni。 据蚂蚁方面介绍,这是一款基于Ling-lite构建的MoE架构的全模态模型,其总参数22B,激活参数3B。  据悉,Ming-lite-omni当前模型权重和推理代码已开源,后续会陆续开源训练代码和训练数据。
5/29/2025 11:27:00 AM
郭海惟

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。 该基准的推出,旨在填补当前评估体系中对模型视觉输出能力的空白,以便更全面地了解现有模型的性能。 RBench-V 基准测试包含803道题目,涉及多个领域,包括几何与图论、力学与电磁学、多目标识别和路径规划等。
5/28/2025 12:01:20 PM
AI在线

商汤坐上大模型核心牌桌

过去两年,关于大模型的讨论视角很少从商汤这样成立不过十年、资源与技术积累正当青壮年的人工智能公司出发。 造成这一现象的主要原因是两个技术周期的迥异:2023 年之前,商汤的人工智能技术路径以计算机视觉模型为主,不同于 ChatGPT 为代表的新技术浪潮:以自然语言处理为主、大规模参数模型为核心。 一个是视觉、一个是语言,在外界看来两个赛道还没有发生直接的关系。
5/9/2025 11:42:00 AM
陈彩娴

共同阶跃星辰与原力灵机达成战略合作

阶跃星辰与原力灵机在北京签署了战略合作协议,双方将利用各自的技术优势,在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。 此次合作的目标是实现 “实现在物理世界的推理”,共同开发一种名为 “RoboAgent” 的智能机器人,推动通用人工智能(AGI)在实际应用中的落地。 签约仪式上,阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。
4/24/2025 2:00:46 PM
AI在线

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天,上海人工智能实验室再次引领潮流,推出了全新的多模态大模型 “书生・万象3.0”。 这一升级版本不仅在技术上进行了全面提升,还在多模态预训练和后训练方法的加持下,展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力,这使得它在多个应用场景中都能表现出色。
4/17/2025 2:01:15 PM
AI在线

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

第一作者为哈尔滨工业大学(深圳)博士生王霄和华为大模型研究员佀庆一,该工作完成于王霄在华为实习期间。 王霄的研究方向为多模态视频理解和生成,佀庆一的研究方向为多模态理解、LLM post-training和高效推理。 随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。
4/4/2025 1:39:00 PM
机器之心

百度发布文心4.5与X1大模型,价格大幅降低引关注

近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用户可在文心一言官网免费体验这两款先进的模型。 文心4.5是百度首个原生多模态大模型,专注于多模态理解和逻辑推理,其性能在多项基准测试中超越了 GPT-4.5,API 调用价格仅为后者的1%。 这一显著的价格优势,无疑会吸引更多开发者和企业的关注。
3/16/2025 11:35:00 AM
AI在线

阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

3月13日,阿里巴巴正式推出其AI旗舰应用——新夸克。 这款全新升级的夸克基于阿里通义领先的推理及多模态大模型,打造了一个无边界的“AI超级框”,为用户带来全新的AI体验。 新夸克的创新之处在于将AI对话、深度思考、深度搜索、深度研究和深度执行等功能整合到一个极简的“AI超级框”中,一站式满足用户多样化的需求。
3/13/2025 11:29:00 AM
AI在线

​谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低 10 倍

谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。 Gemma-3提供了四种不同参数规模的选项,分别为10亿、40亿、120亿和270亿参数。 令人惊讶的是,最大参数的270亿模型只需一张 H100显卡即可高效推理,而同类模型往往需要十倍的算力,这使 Gemma-3成为目前算力要求最低的高性能模型之一。
3/13/2025 8:52:00 AM
AI在线

华为昇腾携手阶跃星辰推出开源多模态模型,进军 AI 新领域

近日,魔乐社区(Modelers)正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。 这两款模型分别用于视频生成和语音交互,旨在为开发者和企业用户提供更强大的 AI 工具。 Step-Video 模型的全名为 Step-Video-T2V,这是一款参数量高达300亿的全球最大开源视频生成模型。
3/10/2025 4:04:00 PM
AI在线