AI在线 AI在线

让文字真正“写进”图像:阿里巴巴发布Qwen-Image

阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。 1.这并非简单地在图片上“加字”。 Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。

阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。

1.这并非简单地在图片上“加字”。

Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。

图片

在这张由Qwen-Image生成的古代集市画面中,出现了多个阿里云门店的招牌,分别售卖云存储、算力、AI平台与模型服务。街景复杂,信息密集,所有的文字元素却丝毫不突兀。

图片

在这张PPT中,阿里巴巴将“通义千问视觉基础模型”的名称镶嵌在一张科技蓝背景的幻灯片上,四周点缀抽象植物图案,文字清晰、工整、准确地匹配PPT结构。

2.结构重构,技术更迭

为了实现这种“写得准、嵌得牢”的文字图像融合,Qwen团队对模型结构进行了彻底革新。

Qwen-Image的架构由三大核心部分组成。

第一部分是Qwen2.5-VL,专注于图文理解。它识别图像中的物体与结构,同时理解文字内容与语义。

第二部分是一个变分自编码器(Variational AutoEncoder),用于压缩图像信息,提升效率。

第三部分是多模态扩散变换器(Multimodal Diffusion Transformer),负责生成最终输出。

但最关键的创新来自于一种全新的位置编码方法——MSRoPE。传统方法将文字当作一串字符,在图像中以横排或网格方式简单排布。

图片

MSRoPE从图像中央出发,沿对角线方向布置文字位置编码。这种布局更贴合图像的自然结构,让模型能够在不同分辨率下依然精准定位每个文字元素。

结果就是:不论是幻灯片、街头广告、海报设计,甚至是漫画对话框中的对话,文字都不会跑偏、错位或重叠。

这项技术不仅提升了对中文复杂字符的渲染能力,还让模型在中英文切换中保持流畅。

3.不靠AI图训练,照样超越对手

图片

生成文字图像的最大风险,在于训练数据的质量。整个训练集共分为四类:55%为自然图片、27%为设计类内容(如海报和PPT)、13%为人物照片,剩下5%为受控合成数据。

所有图像都必须通过多级筛选流程,亮度、饱和度、色彩熵、清晰度四项指标全面把关,极端异常的图像会被标记并复查。

在此基础上,Qwen-Image采用三种训练策略:纯渲染策略,即在简单背景上显示清晰文字;组合渲染策略,将文字置于真实场景中;复杂渲染策略,则处理多栏排版、手写风格、演示幻灯片等高难度格式。

这三种策略协同发力,覆盖从基础到高级的各种文本图像组合,构建出多层次、强鲁棒性的训练数据集。。

在一项包含一万多次匿名对比评估的测试中,Qwen-Image的表现优于GPT-Image-1与Flux.1 Context等商业模型。

整体排名第三,仅次于少数研究性模型。在图像生成、图像编辑、中英文文字渲染这三项指标上,Qwen-Image几乎全面领先。

图片

图注:在与 Seedream 3.0、GPT-Image-1、Flux.1 和 Bagel 的正面测试中,Qwen-Image 在图像生成与编辑方面表现领先。该模型在中文文本渲染方面也位居第一,并在英文表现上与竞争对手持平。

在最关键的中文渲染测试中,它一骑绝尘,稳居第一。在业界认可的GenEval测试中,Qwen-Image在对象生成项目上得分高达0.91,远高于其他同类模型。

这说明,它不仅擅长生成“看起来好”的图像,更能处理结构复杂、任务精细的图文嵌合内容。

阿里巴巴也在同步推进一个名为Qwen VLo的模型,用于文字能力更强的图文任务。

Qwen-Image现已在GitHub与Hugging Face平台开放,可免费试用,亦提供在线演示。

Github:https://github.com/QwenLM/Qwen-Image?tab=readme-ov-file

demo:https://huggingface.co/spaces/Qwen/Qwen-Image

paper:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

相关资讯

阿里 Qwen Chat 平台上线“深度思考”功能:基于 QwQ-Max-Preview 推理模型,支持联网搜索

今日阿里 Qwen 团队在 Qwen Chat 平台上线了“深度思考 (QwQ)”功能。深度思考 (QwQ) 由 QwQ-Max-Preview 支持,这是一个基于 Qwen2.5-Max 的推理模型,擅长数学理解、编程、AI 智能体等。目前,“深度思考 (QwQ)”仍处于预览阶段,团队表示模型仍在持续优化中。IT之家注意到,该模型不仅具备推理能力,还支持联网搜索功能。
2/25/2025 11:16:26 AM
远洋

阿里巴巴蔡崇信自曝:被 DeepSeek 逼急了,工程师春节睡办公室搞研发

阿里巴巴董事会主席蔡崇信坦言公司曾“迷失方向”,如今全力押注AI。面对DeepSeek的竞争压力,阿里工程师春节不休,加速推出Qwen系列模型。蔡崇信表示开源Qwen是为了推动AI普及,反哺云计算业务。#阿里巴巴AI战略# #Qwen开源模型#
6/12/2025 3:22:29 PM
易句

忘掉 DeepSeek:Qwen 2.5 VL 与 Qwen Max 来了

Qwen 系列又推出了两款令人瞩目的新模型:Qwen 2.5 VL 和 Qwen 2.5 Max。 如果还停留在“DeepSeek 是最强”那一档,就可能要重新考虑一下,因为这两款模型的实力相当惊艳。 什么是 Qwen 2.5 VL?
2/24/2025 8:10:00 AM
de
  • 1