AI在线 AI在线

字节发布 Seed1.5-VL 视觉-语言多模态大模型,20B 参数狂揽 60 项公开评测基准中 38 项 SOTA!

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。 同时,Data Agent 和 Trae 等产品也有了新进展。 今天给大家介绍的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

图片

今天给大家介绍的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。

图片

示例展示

基础感知能力

图片

视觉定位

图片

视觉谜题

图片

相关链接

  • 官网:https://seed.bytedance.com/tech/seed1_5_vl
  • 代码:https://github.com/ByteDance-Seed/Seed1.5-VL
  • API:https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428图片

模型架构

Seed1.5-VL 包含一个 5.32 亿参数的视觉编码器,以及一个激活参数规模达 200 亿的混合专家(MoE)大语言模型。

Seed1.5-VL 模型结构图Seed1.5-VL 模型结构图

模型由以下三个核心组件组成:

  1. SeedViT:用于对图像和视频进行编码;
  2. MLP 适配器:将视觉特征投射为多模态 token;
  3. 大语言模型:用于处理多模态输入并执行推理。

Seed1.5-VL 支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。在视频处理方面,提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记(timestamp token)。

预训练数据与 Scaling Law

Seed1.5-VL 的预训练语料库包含 3 万亿个多样化且高质量的源标记(source tokens)。这些数据根据模型目标能力的需求进行了分类。

在预训练阶段观察到大多数子类别的数据训练损失与训练标记数量之间遵循幂律关系。此外,某一子类别的训练损失与该类别对应的下游任务评估指标之间呈现对数线性关系(例如:评估指标 ∼ log(训练损失))的趋势,尤其在局部区域内尤为显著。(a) OCR 相关数据集的训练损失随训练标记数量的变化曲线; (b) ChartQA 的 Top-1 准确率随训练损失的变化曲线; (c) InfographicVQA 的 Top-1 准确率随训练损失的变化曲线; (d) 定位(grounding)相关数据集的训练损失随训练标记数量的变化曲线; (e) RefCOCO 的准确率随训练损失的变化曲线; (f) RefCOCO+ 的准确率随训练损失的变化曲线。 需要注意的是,图中所展示的评估指标为模型在预训练后直接获得的性能表现,因此与最终结果(即通过强化学习进一步优化后获得的性能)并不直接可比。

后训练

Seed1.5-VL 的后训练过程采用了结合拒绝采样(rejection sampling)和在线强化学习(online reinforcement learning)的迭代更新方法。我们构建了一条完整的数据 pipeline,用于收集和筛选复杂提示,以增强后训练阶段的数据质量。

强化学习实现的一个关键特点是,监督信号通过奖励模型(reward models)和规则验证器(rule verifiers)仅作用于模型生成的最终输出结果。我们特意避免对模型的详细链式思维推理(chain-of-thought reasoning)过程进行监督。这一区别在插图的右侧部分得到了重点说明。Seed1.5-VL 后训练流程

基准测试

Seed1.5-VL 在 60 项公开基准测试中取得了 38 项的最新最优性能(state-of-the-art performance),其中包括 19 项视频基准测试中的 14 项,以及 7 项 GUI 代理任务中的 3 项。

图片图片图片

局限性

尽管 Seed1.5-VL 展现了出色能力,但仍存在一些局限性,尤其是在细粒度视觉感知、三维空间推理以及复杂组合搜索任务方面。解决这些挑战是我们持续研究的核心部分,研究方向包括统一现有模型能力与图像生成,以及引入更健全的工具使用机制。

相关资讯

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作

无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
2/27/2025 1:00:00 PM
量子位

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
1/20/2025 8:46:00 AM
量子位

史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1

史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位
  • 1