AI在线 AI在线

字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

图片字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏“万物皆可吉卜力”玩法~)。 可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。

图片图片

字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。(轻松拿捏“万物皆可吉卜力”玩法~)。可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。

字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

效果展示

聊天

图片

BAGEL 是一个统一的生成和理解模型,它基于大型语言模型进行初始化预训练,从而为其提供了推理和对话的基础能力。BAGEL 可以处理图像和文本的混合格式输入和输出。

生成效果

图片

BAGEL 已基于大规模交错视频和网页数据进行预训练,使其能够生成高保真、逼真的图像、视频帧或交错的图文内容。交错数据经过适当的对齐,能够构建自然的多模态思维链,使模型能够生成视觉输出。

编辑

图片

通过对交错视频片段进行预训练,BAGEL 能够自然地学习保留视觉特征和精细细节,同时还能捕捉视频中复杂的视觉运动,从而高效地进行图像编辑。凭借源自视觉语言模型的强大推理能力,BAGEL 的智能编辑能力轻松超越了基础编辑任务。

风格转换

字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

凭借对视觉内容和风格的深刻理解,BAGEL 可以轻松地将图像从一种风格转换为另一种风格,甚至可以将其转换为完全不同的风格,只需使用最少的对齐数据即可。

作品

图片

BAGEL 从视频、网络和语言数据中学习广泛的知识和能力,使其能够进行推理、建模物理动态、预测未来帧等等——所有这些都通过统一的多模态界面实现。凭借其组合能力,BAGEL 可以无缝地进行多轮对话。

相关链接

  • 主页:https://bagel-ai.org/
  • 论文:https://arxiv.org/abs/2505.14683
  • 模型:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

方法

BAGEL 采用混合 Transformer-专家 (MoT) 架构,以最大限度地提升模型从丰富多样的多模态信息中学习的能力。遵循同样的容量最大化原则,它利用两个独立的编码器来捕捉图像的像素级和语义级特征。整体框架遵循“下一组标记预测”范式,其中模型被训练为预测下一组语言或视觉标记作为压缩目标。

图片

BAGEL 通过对涵盖语言、图像、视频和网络数据的数万亿个交错多模态标记进行预训练、持续训练和监督微调来扩展 MoT 的容量。它在标准理解和生成基准上超越了开放模型,并展示了先进的上下文多模态能力,例如自由格式图像编辑、未来帧预测、3D 操作、世界导航和序列推理。

图片随着我们扩展 BAGEL 的预训练,添加更多多模态标记,我们观察到理解、生成和编辑任务的性能持续提升。不同的能力在不同的训练阶段显现——多模态理解和生成能力出现较早,随后是基础编辑能力,而复杂的智能编辑能力则在后期显现。这种阶段性进展表明了一种新兴模式,即高级多模态推理建立在完善的基础技能之上。消融研究进一步表明,将 VAE 与 ViT 特征相结合可以显著提升智能编辑能力,这凸显了视觉语义语境在实现复杂多模态推理方面的重要性,并进一步支持了其在高级能力涌现中的作用。

基准

理解

图片图片

相关资讯

5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了

现在,打个游戏都用上Transformer了? 老黄的DLSS进行了一波大升级,换上了基于Transformer的新大脑。 用上新模型之后,光线重建和超分辨率,效果都变得更细腻了。
1/20/2025 7:00:00 AM
量子位

o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
1/20/2025 9:28:00 AM
新智元

两分钟完成论文调研!ByteDance Research推出论文检索智能体PaSa,远超主流检索工具

2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化学习的智能体应用:论文检索智能体。 它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。 繁琐冗长的论文调研,现在,只需要两分钟。
1/24/2025 8:45:00 AM
机器之心
  • 1