新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

作者：AI在线 2025-06-30 03:00

近日，北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。与2024年发布的第一代 OmniGen 相比，OmniGen2采用了两条独立的解码路径:一条用于文本生成，另一条用于图像生成，且各自拥有独立的参数和解耦的图像标记器。

近日，北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。

与2024年发布的第一代 OmniGen 相比，OmniGen2采用了两条独立的解码路径:一条用于文本生成，另一条用于图像生成，且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时，有效地提升了多模态语言模型的表现。

OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型（MLLM）。在图像生成方面，该系统使用了一种自定义的扩散变换器，参数量达到约40亿。模型在遇到特殊的 “<|img|>” 标记时会自动切换到图像生成模式。值得一提的是，OmniGen2能够处理多种提示和艺术风格，但其生成的照片级图像在清晰度上仍有待提升。

为了训练 OmniGen2，研究团队使用了大约1.4亿张来自开源数据集和专有集合的图像。此外，他们还开发了新技术，通过提取视频中的相似帧（例如，一个微笑和不微笑的面孔），并利用语言模型生成相应的编辑指令。

OmniGen2的另一大亮点是其反思机制，能够让模型自我评估生成的图像，并在多个轮次中进行改进。该系统可以发现生成图像中的缺陷，并提出具体的修正建议。

为了评估该系统的性能，研究团队引入了 OmniContext 基准测试，包括角色、物体和场景三大类，每类下有八个子任务和各50个示例。评估是通过 GPT-4.1进行的，主要打分标准包括提示的准确性和主题的一致性。OmniGen2的总分为7.18，超越了所有其他开源模型，而 GPT-4o 的得分为8.8。

尽管 OmniGen2在多个基准测试中表现优异，但仍存在一些不足之处:英文提示的效果优于中文，身体形态的变化较为复杂，输出质量也受到输入图像的影响。对于模糊的多图像提示，系统需要明确的对象放置指示。

研究团队计划将模型、训练数据和构建管道发布到 Hugging Face 平台。

划重点:
🌟 OmniGen2是一个开源的图文生成系统，采用独立的文本和图像解码路径。
🎨 它能够处理多种艺术风格的图像生成，并具备自我反思和改进功能。
📈 OmniGen2在多个基准测试中表现出色，特别是在图像编辑方面创下了新的开放源代码模型纪录。

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。

1/28/2025 7:48:15 AM 归泷（实习）

阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

继 DeepSeek R1之后，阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M，再次引发业界关注。此次发布的 Qwen2.5-1M 系列包含两个开源模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。这是通义千问首次推出能够原生支持百万Token上下文长度的模型，并在推理速度上实现了显著提升。

1/27/2025 11:08:00 AM AI在线

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验

2月25日，阿里巴巴宣布推出基于Qwen2.5-Max的推理模型QwQ-Max-Preview，并计划全面开源其最新推理模型QwQ-Max和Qwen2.5-Max。此次发布的QwQ-Max-Preview是一个预览版本，阿里巴巴表示，正式版本将很快推出，并基于Apache2.0许可证全面开源。与以往不同的是，此次开源不仅包括模型本身，还涵盖了更小的版本，如QwQ-32B，这些版本可以部署在本地设备上，进一步推动AI技术的普及和应用。

2/25/2025 8:35:00 AM AI在线

新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

相关资讯

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

阿里通义千问推出推理模型QwQ-Max预览版 可在qwen.ai域名体验

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验