字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

作者：AI在线 2025-05-14 12:00

在人工智能领域竞争日益激烈的今天，字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL，旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练，不仅具备强大的通用多模态理解和推理能力，还显著降低了推理成本。与谷歌近期推出的 Gemini2.5Pro 相比，Seed1.5-VL 在性能上表现不相上下。

在人工智能领域竞争日益激烈的今天，字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL，旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练，不仅具备强大的通用多模态理解和推理能力，还显著降低了推理成本。

与谷歌近期推出的 Gemini2.5Pro 相比，Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解，并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示，尽管 Seed1.5-VL 的激活参数仅为200亿，但在60个公开评测基准中，Seed1.5-VL 在38个基准测试中达到了最新最优性能（SOTA），其中包括在19项视频基准测试中赢得14项，以及7个 GUI(图形用户界面)代理任务中的3项。

在具体能力方面，Seed1.5-VL 展现了卓越的视觉推理、图像问答和视频理解等能力。在与智能体相关的任务中，该模型在7个 GUI 任务中取得了 SOTA 成绩。此外，Seed1.5-VL 在设计上简化了架构，降低了计算需求，使其更加适合交互式应用，能够在 PC 和手机等不同平台上顺利完成复杂任务，比如收集和处理信息。

不过，Seed1.5-VL 仍面临一些挑战。在细粒度视觉感知方面，模型在目标计数、图像差异识别和复杂空间关系解释时遇到了一些困难，尤其是在处理不规则排列、颜色相似或部分遮挡的情况下。此外，模型在高层次推理任务上，有时会出现无根据的假设或不完整的响应，表明其在这些任务中还有提升空间。

尽管如此，Seed1.5-VL 的发布标志着字节跳动在多模态技术上的持续进步。该模型目前已在火山引擎上开放 API，用户可以直接体验这一新技术。

仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

在上海举办的火山引擎 FORCE LINK AI 创新巡展上，字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，成为此次活动的焦点，吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。

5/14/2025 3:00:52 PM AI在线

小米多模态大模型Xiaomi MiMo-VL开源

近日，小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒，在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B，在GUI Grounding任务上的表现更是可与专用模型相媲美，为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然，尽管参数规模仅为7B，却在奥林匹克竞赛（OlympiadBench）和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，同时也超越了闭源模型GPT-4o。

5/30/2025 10:01:14 AM AI在线

多模态检索新突破！智源开源多模态向量模型BGE-VL

2025年3月6日，北京智源人工智能研究院宣布开源多模态向量模型BGE-VL，这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果，显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs，该数据集通过结合多模态表征模型、多模态大模型和大语言模型，从海量图文语料库中高效挖掘多模态三元组数据。

3/6/2025 2:46:00 PM AI在线

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

相关资讯

​仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

小米多模态大模型Xiaomi MiMo-VL开源

多模态检索新突破！智源开源多模态向量模型BGE-VL

仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA