AI在线 AI在线

​仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。 该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。

Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比,Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外,新增的视频理解和多模态智能体功能,使其在处理复杂任务时表现更加出色。

image.png

超高性能与低成本优势

尽管 Seed1.5-VL 的激活参数仅为20B,但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中,Seed1.5-VL 在38个任务上取得了 SOTA(state-of-the-art)表现,尤其是在视频理解、视觉推理和多模态智能体能力方面,均处于行业领先地位。

在推理成本方面,Seed1.5-VL 也表现出色,其推理输入价格为每千 tokens 仅0.003元,输出价格为每千 tokens 仅0.009元,极具性价比。

image.png

便捷的 API 接入

目前,Seed1.5-VL 已经在火山引擎全面开放 API,开发者只需登录后选择 Doubao-1.5-thinking-vision-pro,即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

为验证 Seed1.5-VL 的实际性能,记者进行了多项测试。通过上传一张货架图片,Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中,Seed1.5-VL 也显示出了其强大的推理能力,能够在短时间内捕捉并推导出其中的规律,完成难度较大的逻辑任务。

Seed1.5-VL 作为 Seed 系列最新一代多模态模型,经过在超过3T token 的多模态数据上进行预训练,展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成,包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机(MLP)适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。

  • GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL

  • https://seed.bytedance.com/zh/tech/seed1_5_vl

相关资讯

字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro

在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。 该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。 与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。
5/14/2025 12:00:52 PM
AI在线

小米多模态大模型Xiaomi MiMo-VL开源

近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。 该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。
5/30/2025 10:01:14 AM
AI在线

多模态检索新突破!智源开源多模态向量模型BGE-VL

2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。
3/6/2025 2:46:00 PM
AI在线
  • 1