AI在线 AI在线

Qwen开源版Banana来了!原生支持ControlNet

Qwen版Banana来了! 刚刚,Qwen推出了新图像编辑模型——Qwen-Image-Edit-2509。 不仅支持多图融合,提供“人物 人物”,“人物 商品”,“人物 场景” 等多种玩法,还增强了人物、商品、文字等单图一致性。

Qwen版Banana来了!

刚刚,Qwen推出了新图像编辑模型——Qwen-Image-Edit-2509。

不仅支持多图融合,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等单图一致性

Qwen开源版Banana来了!原生支持ControlNet

除此之外,它还原生支持ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。

图像编辑之余,Qwen还开源了端到端全模态模型Qwen3-omni,表现也可圈可点。既可当语音翻译助手,还能立不同的人设,甚至支持方言输出。

下面具体来看。

支持多图输入

新图像编辑的首要更新就是支持了多图输入

先看一个“人物+人物”生成结婚照的例子。

输入两张图片:

Qwen开源版Banana来了!原生支持ControlNet

然后,输入以下提示词:

Qwen开源版Banana来了!原生支持ControlNet

结果闪亮登场:

Qwen开源版Banana来了!原生支持ControlNet

不喜欢中式婚礼的也没事,我们还可以生成西式的,主打一个用户就是上帝。

Qwen开源版Banana来了!原生支持ControlNet

再看“人物+场景”的应用,感觉可轻轻松松实现环球旅行。

Qwen开源版Banana来了!原生支持ControlNet

令我比较惊讶的是,这还真不是简单的图像拼接,它甚至贴合场景改变了主角的神态,闭眼享受阳光的动作、躺椅上的影子,说实话,p图我都p不出来这么细。

下面轮到“人物+物体”了,我把它称为最快拥有奢侈品包包和豪车的方式。

Qwen开源版Banana来了!原生支持ControlNet

此外,多图输入也支持ControlNet常用的关键点图,比如改变人物姿势。

Qwen开源版Banana来了!原生支持ControlNet

还能在改变关键点的同时,进行换装。

Qwen开源版Banana来了!原生支持ControlNet

除此之外,普通证件照、形象照、生活照也是so easy。

Qwen开源版Banana来了!原生支持ControlNet

想要Banana大火的美式精英风?无论是半身还是全身照,你想要的Qwen都有。

Qwen开源版Banana来了!原生支持ControlNet

还能进行不同的姿势编辑,俏皮、比心、举黑板都是不在话下。

Qwen开源版Banana来了!原生支持ControlNet

基于新模型上述图像编辑能力,再加上其本身特色的文字生成能力,团队发现它还很擅长制作表情包。

Qwen开源版Banana来了!原生支持ControlNet

当然,对于更长的文字,新模型也依然可以在保持人物一致性的前提下进行渲染。

Qwen开源版Banana来了!原生支持ControlNet

更有意思的是,它还可以给老照片进行修复,比如给照片上色。

Qwen开源版Banana来了!原生支持ControlNet

还可以修复破损照片。

Qwen开源版Banana来了!原生支持ControlNet

但是,这个美颜……

除了真实人物,生成卡通玩偶、文创也是分分钟的事啦。

Qwen开源版Banana来了!原生支持ControlNet

咦?这左下角不就是Nano Banana爆火的手办吗?Qwen新模型效果看起来也是很不错的。

1个物品太简单了,咱们再换个有14只猫的图片试一下。

Qwen开源版Banana来了!原生支持ControlNet

哇哦,猫的数量是对的,效果也是相当可以。

除了图像方面,新模型还专门增强了文字一致性,支持了包括字体类型编辑、字体颜色编辑和字体材质编辑。

Qwen开源版Banana来了!原生支持ControlNet

此外,它还支持定点文字编辑,细致到可将圈出来的错字进行定点修改。

效果是这样滴:

Qwen开源版Banana来了!原生支持ControlNet

不仅如此,新模型还支持深度图控制,保持物体与场景的一致性。

Qwen开源版Banana来了!原生支持ControlNet

哎呀,这泥泞的道路、茂盛的丛林、真实的车辙印,真的不是户外山地车的广告吗?

只有关键点也不耽误出图,无论男女、无论古代还是现代、无论什么穿着,Qwen都能统统搞定。

Qwen开源版Banana来了!原生支持ControlNet

最后就是根据草图来控制生图,这一老一少真给人一种时光穿梭的感觉,再配个bgm氛围感直接拉满。

Qwen开源版Banana来了!原生支持ControlNet

还有端到端全模态模型

Qwen不仅在图像编辑上表现优异,它还开源了端到端、全模态大模型Qwen3-omni,不仅能够无缝处理文本、音频、图像和视频等多种输入形式,还能边生成文字边实时合成语音。

Qwen开源版Banana来了!原生支持ControlNet

主要特点如下所示:

跨模态的领先性能:在36项音频及音视频基准测试中,Qwen3-omni斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。

Qwen开源版Banana来了!原生支持ControlNet

多语言方面:Qwen3-omni支持119种文本语言、19种语音输入语言和10种语音输出语言。

效果be like:

Qwen开源版Banana来了!原生支持ControlNet

不仅是实时翻译助手,还能直接总结网页内容,然后用你所需要的语言输出。

更快响应:端到端音频对话延迟低至211ms,视频对话延迟低至507ms。

长音频:支持长达30分钟音频理解。

Qwen开源版Banana来了!原生支持ControlNet

个性化:支持system prompt随意定制,可以修改回复风格,人设等。

比如广东幼儿园老师或是四川女汉子。

Qwen开源版Banana来了!原生支持ControlNet

咦,那么问题来了,这些方言是否标准噻?

工具调用:支持function call,实现与外部工具/服务的高效集成。

开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

Qwen开源版Banana来了!原生支持ControlNet

不仅能分析音乐风格,还能推理数学题,甚至还能当起语音助手唤醒其他应用。

这花里胡哨的功能真是令人眼花缭乱,感兴趣的读者赶紧去试试吧。

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元
  • 1