AI在线 AI在线

开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! 技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院作者: Size Wu*,  Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy开源代码: : [email protected]架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用三大核心优势🏗️ 架构极简仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简⚡ 参数高效1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当 📂 完全开源模型权重 训练代码 2300 万数据集全部公开架构设计与训练策略OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:1.256 个可学习查询 - 从用户指令中提取条件信息2.

随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。

南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源!

图片

  • 技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
  • 机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院
  • 作者: Size Wu*,  Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
  • 开源代码: https://github.com/wusize/OpenUni
  • 联系方式: [email protected]

图片

架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)

图片

图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用

三大核心优势

  • 🏗️ 架构极简

仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简

  • ⚡ 参数高效

1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当

  •  📂 完全开源

模型权重 + 训练代码 + 2300 万数据集全部公开

架构设计与训练策略

OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:

1.256 个可学习查询 - 从用户指令中提取条件信息

2. 冻结的 InternVL - 保持原有理解能力

3.6 层 transformer 连接器 - 基于 ViT 架构

4.SANA 扩散模型 - 高效图像生成

模型对比

图片

* 对于 BLIP3-o,将预测 CLIP 特征的 DiT 视为连接器

关键特点: - 连接器参数大幅减少 - 使用更小的 MLLM 和扩散模型 - 训练数据完全公开

两阶段训练策略

第一阶段:预训练(2300 万图文对)

  • 目标:训练可学习查询和连接器
  • 策略:冻结 MLLM 和扩散模型
  • 数据:公开数据集,使用 LLM/MLLM 重新标注

第二阶段:微调(6 万图文对)

  • 目标:提升生成质量
  • 策略:解冻扩散模型,联合优化
  • 数据:BLIP3-o 贡献的高质量数据集

图片

性能验证

OpenUni 在参数效率上表现出色:

  • OpenUni-B-512:1.1B 激活参数,GenEval 达到 0.84 分,与 BLIP3-o-8B 持平
  • OpenUni-L-512:3.1B 激活参数,GenEval 达到 0.85 分
  • OpenUni-L-1024:3.1B 激活参数,GenEval 达到 0.86 分,为开源统一模型最佳

其他基准测试

  • DPG-Bench:OpenUni-L-1024 获得 83.08 分,超越所有 MetaQuery 和 BLIP3-o 变体
  • WISE:OpenUni-L 达到 0.52 分,与 BLIP3-o-8B(公开数据版)持平

生成效果展示

图片

图 2:OpenUni-L-1024 生成的多样化高质量图像

多模态理解能力

由于采用冻结 InternVL3 的策略,OpenUni 继承了其理解能力:

图片

图 3:OpenUni-L 的多模态理解能力展示

理解基准测试

图片

应用前景与开源贡献

OpenUni 提供完整的开源资源:

✅ 模型权重 - 所有训练阶段的 checkpoint

✅ 训练代码 - 完整训练 pipeline

✅ 2300 万训练数据 - 包含重新生成的 caption

✅ 详细文档 - 训练配置和复现指南

研究团队指出了当前的局限:

  • 生成图像中渲染文字的能力有限
  • 最大模型基于 2B MLLM 和 1.6B 扩散模型,有待扩展
  • 图像到图像生成任务将在未来版本支持
  • GenEval 的局限性,由于 prompt 范式固定,模型经过 GPT4o 蒸馏数据(BLIP4o-60K)微调后在 GenEval 上大幅提升;作为统一模型(Show-o,Janus,Harmon,Bagel)常用的指标,GenEval 难以再真正衡量模型能力

总结

OpenUni 为统一多模态模型提供了一个简单但强大的基线。通过极简的架构设计和高效的参数利用,OpenUni 展示了:

  • 更少的参数可以达到有竞争力的性能
  • 简单的设计往往更有效
  • 完全开源促进社区研究和创新

作为一个持续进行的项目,OpenUni 为研究社区提供了清晰、可复现、易扩展的基线实现。

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元
  • 1