AI在线 AI在线

​字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破

字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。 BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。 此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。

字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。

image.png

BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。更重要的是,BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型。

image.png

BAGEL 采用了一种名为混合变换器专家(MoT)的架构,旨在最大化模型对多样化多模态信息的学习能力。它使用两个独立的编码器,分别捕捉图像的像素级和语义级特征。模型的整体框架遵循 “下一个标记组预测” 范式,训练时旨在预测下一个语言或视觉标记,从而达到压缩的目标。

在预训练过程中,BAGEL 利用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。经过持续训练和监督微调,BAGEL 在标准的理解和生成基准测试中超过了开源模型,展示了先进的上下文多模态能力,如自由形式图像编辑、未来帧预测、三维操作和世界导航等。

随着 BAGEL 的预训练逐步扩大,研究者们发现模型在理解、生成和编辑任务中的表现持续提升。不同的能力在训练的不同阶段出现,早期展现出多模态理解和生成的能力,而更复杂的智能编辑能力则在后期显现。

研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力,强调了视觉 - 语义上下文在复杂多模态推理中的重要性。

项目:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

划重点:

🌟 BAGEL 是一款开源多模态基础模型,拥有70亿个活跃参数,超越多项标准基准测试。  

🖼️ 该模型在图像生成和编辑任务中表现出色,能够进行自由形式的图像编辑和世界导航。  

📈 通过多模态预训练,BAGEL 展示了持续的性能提升,适应了复杂的多模态推理任务。  

相关资讯

字节发布14B参数多模态神器BAGEL,碾压Qwen2.5-VL,图像生成媲美SD3

字节跳动Seed团队在Hugging Face平台重磅发布BAGEL,一款基于混合专家(MoE)架构的开源多模态基础模型,拥有14亿总参数和7亿活跃参数。 BAGEL在数万亿token的交错多模态数据集上预训练,性能超越Qwen2.5-VL和InternVL-2.5,图像生成质量媲美SD3,并支持复杂推理任务如自由图像编辑、未来帧预测和3D生成,引发全球AI社区热议。 AIbase综合最新社交媒体动态,深入解析BAGEL的技术亮点及其对多模态AI领域的革命性影响。
5/22/2025 6:00:45 PM
AI在线

腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

近日,腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下,正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think),并宣布全面开源。 这一创新模型不仅具备了强大的长链推理能力,还首次实现了在视觉任务中 “思考” 的能力,使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。 统一多模态奖励模型的推出,标志着奖励模型在各类视觉任务中的应用达到了新的高度。
5/14/2025 10:01:03 AM
AI在线

阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。 这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。 AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。
5/13/2025 10:01:07 AM
AI在线
  • 1