AI在线 AI在线

字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro

在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。 该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。 与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。

在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。

与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解,并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示,尽管 Seed1.5-VL 的激活参数仅为200亿,但在60个公开评测基准中,Seed1.5-VL 在38个基准测试中达到了最新最优性能(SOTA),其中包括在19项视频基准测试中赢得14项,以及7个 GUI(图形用户界面)代理任务中的3项。

image.png

在具体能力方面,Seed1.5-VL 展现了卓越的视觉推理、图像问答和视频理解等能力。在与智能体相关的任务中,该模型在7个 GUI 任务中取得了 SOTA 成绩。此外,Seed1.5-VL 在设计上简化了架构,降低了计算需求,使其更加适合交互式应用,能够在 PC 和手机等不同平台上顺利完成复杂任务,比如收集和处理信息。

image.png

不过,Seed1.5-VL 仍面临一些挑战。在细粒度视觉感知方面,模型在目标计数、图像差异识别和复杂空间关系解释时遇到了一些困难,尤其是在处理不规则排列、颜色相似或部分遮挡的情况下。此外,模型在高层次推理任务上,有时会出现无根据的假设或不完整的响应,表明其在这些任务中还有提升空间。

尽管如此,Seed1.5-VL 的发布标志着字节跳动在多模态技术上的持续进步。该模型目前已在火山引擎上开放 API,用户可以直接体验这一新技术。

相关资讯

​仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。 该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。
5/14/2025 3:00:52 PM
AI在线

多模态检索新突破!智源开源多模态向量模型BGE-VL

2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。
3/6/2025 2:46:00 PM
AI在线

智源开源多模态向量模型BGE-VL,助力多模态检索!

智源研究院开源了多模态向量模型BGE-VL,助力主要多模态检索任务达到SOTA。 论文地址:: : :现有的多模态检索模型大多基于预训练的视觉-语言模型,这些模型主要通过文本-图像匹配任务进行预训练,对于其他常见的多模态任务(如组合图像检索和多模态文档检索)表现不足。 为了增强模型的多任务能力,研究者们开始采用指令微调的方法,但高质量的指令微调数据稀缺且难以大规模获取。
3/19/2025 9:30:00 AM
Glodma
  • 1