在图像生成赛道上,新模型层出不穷,但真正能把“图像编辑”做得又稳又强的,还屈指可数。比如上周刚发布的 Qwen-Image-Edit 真的很强!这是 Qwen-Image 的图像编辑版本,基于千问自研的 20B 参数 Qwen-Image 模型进一步训练而成,它不仅延续了 Qwen-Image 独特的 文本渲染能力,更将这一能力拓展到图像编辑领域,实现了对图片中内容的精准增删改。
Modifying backgrounds
Modifying clothing
Qwen-Image-Edit 的强大之处,在于它同时将输入图像送入 Qwen2.5-VL(负责视觉语义控制)和 VAE Encoder(负责视觉外观控制),因此能够兼具 语义编辑与外观编辑两种能力:
- 语义编辑(high-level):比如角色创作、物体旋转、风格迁移等,高层次的创意变换,允许整体像素发生变化,但始终保持语义一致。
- 外观编辑(low-level):比如在图像中添加、删除或修改局部元素,同时保证其他区域“像素级别”不被破坏。
此外,Qwen-Image-Edit 还支持 中英文双语文字编辑,不仅能修改海报上的大标题,还能精准修改小字注释,并在保留字体、字号、排版风格的情况下无缝替换,真正做到了文字编辑的自然与精细。
语义与外观双重编辑
Qwen-Image-Edit 最大的亮点,就是同时兼具“语义”和“外观”的双重编辑能力。语义编辑意味着它可以在保持图像语义不变的前提下,重新生成一个完全不同的画面。
这对于 IP 创作、角色延展来说是颠覆性的。你可以基于一个卡皮巴拉形象,轻松生成 MBTI 十六型人格的表情包,而不用担心形象不统一。
图片
另一方面,外观编辑则强调在局部保持绝对一致的情况下,对图像做出像素级修改。
例如在一张风景照中添加一个路牌,Qwen-Image-Edit 不仅能把路牌加进去,还能自动生成倒影,做到细节自然;
图片
或者删除一根小小的头发丝,让图像更加干净;
图片
甚至可以只把图片中的一个字母“n”改成蓝色,而其他部分完全不变。
图片
此外,新颖的视图合成是语义编辑的另一个关键应用场景。如下面的两张示例图像所示,Qwen-Image-Edit不仅可以将对象旋转90度,还可以进行完整的180度旋转,让我们直接看到对象的背面:
图片
精准文字编辑:中英文无缝切换
过去很多图像生成模型对文字处理都不够理想,不是写错字,就是字体风格对不上。但 Qwen-Image-Edit 在文字渲染方面有着深厚积累,可以在保持原有 字体、字号、排版风格的前提下,对文字进行增删改。
比如一张英文海报,想把英文替换为中文(宋体);
图片
对于中文海报,哪怕是细小的说明文字,它也能准确调整。更重要的是,Qwen-Image-Edit 同时支持 中文和英文,这对于中文用户来说尤其友好。
图片
多样化的应用场景
Qwen-Image-Edit 的能力远不止“修图”那么简单,它几乎可以应用在所有和图像创作相关的领域:
- IP 创作与角色扩展:围绕一个形象,生成不同风格、不同表情的延展作品。
- 视角转换与场景变换:实现物体 90°/180° 旋转,或者将角色置于不同背景中。
- 艺术风格迁移:把照片转换为吉卜力风格、油画风格,甚至科幻未来风格。
- 电商与广告设计:修改产品展示图的背景,替换广告中的文字信息。
- 细节修复与局部修改:比如去掉多余的元素、修复错误笔画、修改字体颜色。
这些应用场景意味着它既能服务于专业设计师、插画师,也能让普通用户轻松完成创意表达。
最后
在多个公开基准测试中,Qwen-Image-Edit 已展现出 SOTA(state-of-the-art)性能,成为当下图像编辑领域的一股强大力量。如果你想体验,已经可以在 Qwen Chat 中选择“图像编辑”功能,亲手感受它的魅力。
图片
图片
体验地址:https://chat.qwen.ai/c/0f3b58f5-046a-468b-800a-5eca6245a507