腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

今天凌晨，腾讯开源最新图像模型混元Image 2.1。混元Image 2.1支持原生2K分辨率图像和1000 token的超长篇复杂提示词，并且在文本语义理解和文字嵌入方面非常强几乎完美，能将中英文无缝写入到图像中，很适用于产品封面、插画、海报设计等专业场景此外，腾讯还开源了基于MeanFlow的加速版模型权重，该版本可将推理步数从100步大幅缩减至仅8步，以及业内首个工业级提示词改写模型 PromptEnhancer，能对提示词进行优化，帮助用户生成更细腻、富有表现力的图像。开源地址： 2.1Github： 2.1?tab=readme-ov-file在线体验： 2.1案例目前，混元Image 2.1已经可以使用，下面给大家展示一下它的生成效果。

今天凌晨，腾讯开源最新图像模型混元Image 2.1。

混元Image 2.1支持原生2K分辨率图像和1000 token的超长篇复杂提示词，并且在文本语义理解和文字嵌入方面非常强几乎完美，能将中英文无缝写入到图像中，很适用于产品封面、插画、海报设计等专业场景

此外，腾讯还开源了基于MeanFlow的加速版模型权重，该版本可将推理步数从100步大幅缩减至仅8步，以及业内首个工业级提示词改写模型 PromptEnhancer，能对提示词进行优化，帮助用户生成更细腻、富有表现力的图像。

开源地址：https://huggingface.co/tencent/混元Image 2.1

Github：https://github.com/Tencent-Hunyuan/混元Image 2.1?tab=readme-ov-file

在线体验：

https://hunyuan.tencent.com/modelSquare/home/play?modelId=286&from=open-source-image-zh-0

混元Image 2.1案例

目前，混元Image 2.1已经可以使用，下面给大家展示一下它的生成效果。

它生成的图像尺寸是可以更改包含1:1、3:4、4:3、9:16、16:9五种类型，一次最多可以生成4张图像。

我们先试几个超难得中英文混合文字嵌入。

提示词：阳光明媚的街角户外书店场景，画面左侧是挂在木质挂钩上的米色帆布包，包身正面用靛蓝色粗体中文印着 “读书行路・见世界”，下方用浅灰色细体英文 “Read & Walk, See the World” 作为点缀，字体下方有简约的黑色线条勾勒出的书本与道路图案；画面右侧是书店的木质招牌，招牌主体为深绿色，顶部用白色宋体中文写着 “转角书店”，下方用白色斜体英文 “Corner Bookstore”。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

文字嵌入几乎完美，字体、格式、布局也符合文本提示。

提示词：超写实风格的复古黑胶唱片店宣传海报，画面中央是深棕色木质唱片架，架上整齐摆放着贴有彩色标签的黑胶唱片，唱片架正上方悬挂着米白色亚麻布横幅，横幅左侧用烫金宋体清晰印着中文 “时光回响・黑胶盛宴”，右侧用复古花体英文 “Echoes of Time: Vinyl Feast” 与之对称，字体边缘带有细微的金色光晕；

海报左下角放着一台银色老式唱片机，唱针轻触黑胶唱片，唱片边缘印着黑色英文小字 “Limited Edition 2024”，右下角则用红色楷体标注中文 “每周六下午 2 点・唱片品鉴会”。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

提示词：写实风格的街头潮牌 T 恤平铺场景，T 恤主体为黑色，胸前左侧用荧光绿色涂鸦风格字体印着中文 “破界而生”，字体带有不规则的白色泼墨效果，右侧对应位置用荧光粉色英文 “Break Boundaries, Born New”，字体边缘有渐变的银色轮廓；T 恤下摆处用白色小字印着中文 “2024 夏季限定款” 和英文 “Summer Limited Edition 2024”，字体呈弧形排列。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

提示词：清晨五点半的阿尔卑斯山脉腹地，朝阳穿过薄纱般的淡粉色晨雾，在覆盖着零星残雪的墨绿色冷杉林顶端洒下金橙色光斑，近处覆着白霜的高山草甸上点缀着紫色龙胆花与黄色毛茛，山脚下的冰川融水溪流泛着淡蓝色光泽，水面倒映着远处锯齿状的雪山轮廓，溪流中几枚半透明的鹅卵石清晰可见，空气里漂浮着湿润的泥土与松针气息，整体画面采用2K超高清分辨率，光影遵循自然侧逆光规律，色调偏清冷却带着晨光的暖意，细节需呈现冷杉树皮的粗糙纹理、霜花的六角结晶结构及溪流水面的微波光斑。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

提示词：未来的城市环境，特征是用透明材料建造的高塔建筑，由光桥相互连接，飞行汽车在空中快速穿梭，全息广告投射在建筑物侧面，反映出科技与自然完美融合的社会，具有精确细节和动态角度的建筑设计可视化。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

混元Image 2.1架构简单介绍

混元Image 2.1使用了分层的语义信息，包括短、中、长、超长四个层次，这显著提升了模型对复杂语义的响应能力。还引入了OCR代理和IP RAG，解决了通用视觉语言模型在密集文本和世界知识描述方面的不足，并通过双向验证策略确保描述的准确性。

文本到图像模型的架构采用了32×压缩率的VAE，大幅减少了DiT模型的输入token数量。通过与DINOv2特征对齐，加速了高压缩率VAE的训练。多桶、多分辨率的REPA损失函数将DiT特征与高维语义特征空间对齐，加速了模型收敛。

此外，模型还配备了双文本编码器，包括一个用于更好地理解场景描述、人物动作和详细要求的多模态大语言模型，以及一个专注于文本生成和多语言表达的多语言ByT5文本编码器。整个网络是一个拥有170亿参数的单流和双流扩散变换器。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

在模型训练的后处理阶段，混元Image 2.1采用了两阶段的后训练方法，包括监督微调和强化学习。为了确保强化学习的稳定性和改进效果，团队引入了奖励分布对齐算法，将高质量图像作为选择样本。

混元Image 2.1 还提出了第一个系统级的工业重写模型。通过SFT训练，该模型能够结构化地重写用户文本指令，丰富视觉表达。GRPO训练使用细粒度语义AlignEvaluator奖励模型，显著提升了重写文本生成图像的语义质量。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了

AlignEvaluator覆盖了6大类和24个细粒度评估点。PromptEnhancer支持中文和英文的重写，并在开源和专有文本到图像模型中展现出通用性。为了进一步提升模型的效率，混元Image 2.1 提出了一种基于均值流的新型蒸馏方法。这种方法解决了标准均值流训练中存在的不稳定性和低效性问题，并且能够在仅用几个采样步骤的情况下生成高质量的图像。据所知，这是首次将均值流成功应用于工业级模型。

在性能对比方面，混元Image 2.1 采用了SSAE和GSB评估方法。SSAE是一种基于先进多模态大语言模型的智能评估指标，用于评估图像与文本的对齐程度。通过对12个类别中的3500个关键点进行评估，使用多模态大语言模型自动比较生成图像与这些关键点的视觉内容，并进行评分。

从评估结果来看，混元Image 2.1在语义对齐方面达到了开源模型中的最优性能，并且与闭源商业模型的性能非常接近。

腾讯开源混元Image 2.1：2K高清+完美文字嵌入，图文天花板来了