多模态大模型

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

6/26/2025 1:00:48 PM AI在线

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试 ——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。与传统的平面几何相比，立体几何的复杂性在于它需要理解三维结构及其空间关系。

6/24/2025 5:00:42 PM AI在线

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

近日，云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出，荣登榜首。这一成就标志着中国在人工智能领域的进一步突破，尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。 “从容 V2.0” 模型的成功不仅得益于其在技术上的创新，更是云从科技在多模态人工智能研究领域多年耕耘的成果。

5/30/2025 10:01:19 AM AI在线

蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni

5月27日，在蚂蚁技术日上，蚂蚁集团旗下的百灵大模型（Ling）团队宣布正式开源统一多模态大模型Ming-lite-omni。据蚂蚁方面介绍，这是一款基于Ling-lite构建的MoE架构的全模态模型，其总参数22B，激活参数3B。据悉，Ming-lite-omni当前模型权重和推理代码已开源，后续会陆续开源训练代码和训练数据。

5/29/2025 11:27:00 AM 郭海惟

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基准的推出，旨在填补当前评估体系中对模型视觉输出能力的空白，以便更全面地了解现有模型的性能。 RBench-V 基准测试包含803道题目，涉及多个领域，包括几何与图论、力学与电磁学、多目标识别和路径规划等。

5/28/2025 12:01:20 PM AI在线

商汤坐上大模型核心牌桌

过去两年，关于大模型的讨论视角很少从商汤这样成立不过十年、资源与技术积累正当青壮年的人工智能公司出发。造成这一现象的主要原因是两个技术周期的迥异：2023 年之前，商汤的人工智能技术路径以计算机视觉模型为主，不同于 ChatGPT 为代表的新技术浪潮：以自然语言处理为主、大规模参数模型为核心。一个是视觉、一个是语言，在外界看来两个赛道还没有发生直接的关系。

5/9/2025 11:42:00 AM 陈彩娴

共同阶跃星辰与原力灵机达成战略合作

阶跃星辰与原力灵机在北京签署了战略合作协议，双方将利用各自的技术优势，在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。此次合作的目标是实现 “实现在物理世界的推理”，共同开发一种名为 “RoboAgent” 的智能机器人，推动通用人工智能（AGI）在实际应用中的落地。签约仪式上，阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。

4/24/2025 2:00:46 PM AI在线

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天，上海人工智能实验室再次引领潮流，推出了全新的多模态大模型 “书生・万象3.0”。这一升级版本不仅在技术上进行了全面提升，还在多模态预训练和后训练方法的加持下，展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力，这使得它在多个应用场景中都能表现出色。

4/17/2025 2:01:15 PM AI在线

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

第一作者为哈尔滨工业大学（深圳）博士生王霄和华为大模型研究员佀庆一，该工作完成于王霄在华为实习期间。王霄的研究方向为多模态视频理解和生成，佀庆一的研究方向为多模态理解、LLM post-training和高效推理。随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。

4/4/2025 1:39:00 PM 机器之心

百度发布文心4.5与X1大模型，价格大幅降低引关注

3/16/2025 11:35:00 AM AI在线

阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

3月13日，阿里巴巴正式推出其AI旗舰应用——新夸克。这款全新升级的夸克基于阿里通义领先的推理及多模态大模型，打造了一个无边界的“AI超级框”，为用户带来全新的AI体验。新夸克的创新之处在于将AI对话、深度思考、深度搜索、深度研究和深度执行等功能整合到一个极简的“AI超级框”中，一站式满足用户多样化的需求。

3/13/2025 11:29:00 AM AI在线

谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍

谷歌 CEO 桑达尔・皮查伊（Sundar Pichai）在一场发布会上宣布，谷歌开源了最新的多模态大模型 Gemma-3，该模型以低成本、高性能为特点，备受关注。 Gemma-3提供了四种不同参数规模的选项，分别为10亿、40亿、120亿和270亿参数。令人惊讶的是，最大参数的270亿模型只需一张 H100显卡即可高效推理，而同类模型往往需要十倍的算力，这使 Gemma-3成为目前算力要求最低的高性能模型之一。

3/13/2025 8:52:00 AM AI在线

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

近日，魔乐社区（Modelers）正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互，旨在为开发者和企业用户提供更强大的 AI 工具。 Step-Video 模型的全名为 Step-Video-T2V，这是一款参数量高达300亿的全球最大开源视频生成模型。

3/10/2025 4:04:00 PM AI在线

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

今日，阶跃星辰与吉利汽车集团宣布，联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中，阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量，能够直接生成204帧、540P分辨率的高质量视频，确保生成内容信息密度高、一致性强。

2/18/2025 8:55:00 AM AI在线

当虹科技的BlackEye大模型与DeepSeek深度融合

近日，当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。随着科技的迅猛发展，多模态大模型正逐渐成为推动各行业创新的重要力量。

2/5/2025 3:25:00 PM AI在线

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

试想一个场景，职场中接到一个香港客户的单子，但是在交付的过程中耽搁了时间，现在要进行线上沟通解释，那么你面对的情况大致是这样的：如果不对这段音频进行标注，可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。但其实，这是由 AI 完成的配音，背后所使用的工具是海螺语音。今年 1 月，继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后，再次推出了升级的语音大模型 T2A-01 系列，搭载于海螺 AI 之上，开辟海螺语音板块。

1/22/2025 2:07:00 PM 王悦

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/15/2024 10:12:00 PM 机器之心

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

9/21/2024 8:31:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

多模态大模型

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

商汤坐上大模型核心牌桌

共同阶跃星辰与原力灵机达成战略合作

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

百度发布文心4.5与X1大模型，价格大幅降低引关注

阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

​谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

当虹科技的BlackEye大模型与DeepSeek深度融合

几十个测试后，发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍