前言
在 AI 图像生成与编辑的浪潮中,如何在“自由度”和“保真度”之间取得平衡,一直是技术前沿的挑战。近期,阿里巴巴团队发布的 Qwen-Image-Edit 模型引起关注。它是在 Qwen-Image(20B 参数版本) 基础上延伸出来的图像编辑能力模块,专门用于在已有图像上做精细化/语义化编辑,同时对文本元素(中英文)也支持高度精确的增删改动。
Qwen-Image-Edit 不仅仅是简单地“涂涂改改”,而是在视觉语义控制与外观控制两方面都有所突破:一方面让整体语义(如物体、风格、视角、语境等)可以被调整;另一方面让某些区域可以精确保持原样,只编辑所需的部分,不影响其他区域。
如何体验
如果你想体验 Qwen-Image-Edit,可以前往https://modelscope.cn/aigc/imageGeneration?tab=default,选择“快速生图”中的“Qwen Image Edit”。上传图片,输入提示内容,并选择图片比例,然后点击【开始生图】即可生成。
核心能力亮点
下面是 Qwen-Image-Edit 的几个核心能力/技术亮点:
语义编辑 + 外观编辑共存
- 语义编辑:例如改变对象旋转角度、风格转化、IP 形象创造等。即使整体像素大量变化,但语义一致性(例如人物、角色、物体)得以保留。
- 外观编辑:例如某一区域的组件添加/删除/修改(比如给人像换衣服、给图片中某物添加标志牌等),其它区域尽可能保持不变。
精准文字编辑能力(中英双语)
对于含有文字的图像(如海报、标识牌、手写或印刷文字),可以直接修改、删除或新增文字,同时保留字体、大小、风格等原有特征。无论是英文标识还是中文海报,Qwen-Image-Edit 都展示了强大的文字写入与校正能力。
强 benchmark 性能与可用性
在多个公开的图像编辑 benchmark 上,Qwen-Image-Edit 的性能为目前 SOTA(state-of-the-art)水平。模型开源、License 为 Apache-2.0,也降低了应用与部署门槛。
操作灵活、可组合编辑
可以通过链式(chained)编辑方式来逐步细化:例如先大致修改,再对某个小区域精修。适合复杂场景,比如书法或者细节文字有误需纠正时。
典型应用场景
1. 风格切换
提示词: 改为宫崎骏动漫风格
原图
生成图片
2. 视角切换
提示词: 小狗朝向右侧
原图
生成图片
3. AI消除
提示词: 移除图中的矿泉水
原图
生成图片
4. 穿搭模拟
提示词: 用浅蓝色衬衫替换圆点衬衫
原图
生成图片
5. IP 形象创作
提示词: 给熊穿上一套蓝色和白色的运动服,右手拿着一个橙色的篮球,左腿弯曲
原图
生成图片
6. 修复旧照片
提示词: 修复旧照片,去除划痕,减少噪点,增强细节
原图
生成图片
7. 添加文字
提示词: 将这盘菜放到白色大理石餐桌上,上方添加文字“扬州炒饭”,下方添加小字“农家大排档”。
原图
生成图片
结语
Qwen-Image-Edit 是当前图像编辑领域中一个非常有竞争力的模型,它在文字编辑、语义与外观控制两个维度上的能力让很多传统图像编辑任务变得更为简单和智能。对于设计师、内容创作者、广告/视觉艺术领域从业者,甚至普通用户来说,都具有很大吸引力。