AI在线 AI在线

通义千问发布多模态统一理解与生成模型Qwen VLo

近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。 该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。

近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。

据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。

Qwen VLo的独特之处在于其渐进式生成方式。模型在生成图片时,采用从左到右、从上到下的逐步构建策略,过程中不断对预测内容进行优化调整,确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果,还为用户提供了更灵活、可控的创作过程。

微信截图_20250628093705.png

在内容理解与再创造方面,Qwen VLo展现了强大的能力。与以往的多模态模型相比,Qwen VLo在生成过程中能够更好地保持语义一致性,避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如,当用户输入一张汽车照片并要求更换颜色时,Qwen VLo能准确识别车型,保留原有结构特征,并自然转换色彩风格,使生成结果既符合预期又不失真实感。

此外,Qwen VLo还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令,如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令,并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰,Qwen VLo都能轻松应对。

值得一提的是,Qwen VLo还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令,为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言,只需简单描述需求,模型便能快速理解并输出理想结果。

在实际应用中,Qwen VLo展现了多样化的功能。它可以直接生成图像并进行修改,如替换背景、添加主体或进行风格迁移等。同时,模型还能完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。此外,Qwen VLo还支持多张图像的输入理解和生成,以及图像检测、标注等功能。

除了图文同时输入的情况外,Qwen VLo还支持文本到图像的直接生成,包括通用图像和中英文海报等。模型采用动态分辨率训练,支持任意分辨率和长宽比的图像生成,使用户能够根据实际需求生成适配不同场景的图像内容。

目前,Qwen VLo还处于预览阶段,虽然已展现出强大的能力,但仍存在一些不足之处。例如,在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示,他们将持续迭代模型,不断提升其性能和稳定性。

体验地址:chat.qwen.ai

相关资讯

新一代AI图像生成模型Reve Image震撼登场,引领创作新潮流

一款名为Reve Image的全新AI图像生成模型正式亮相,迅速引发科技与设计圈的广泛关注。 据悉,该模型由Reve团队从零开始打造,专注于提升美学表现、精准的提示遵循能力以及出色的排版设计,旨在为用户提供高质量的视觉创作体验。 Reve Image的推出被视为AI图像生成领域的一大突破。
3/24/2025 11:02:00 AM
AI在线

国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招
7/5/2024 3:02:00 PM
新闻助手

华为云董理斌:做难事解难题,盘古大模型以“智”重塑千行万业

7 月 5 日,2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题,以‘智’重塑千行万业” 主题演讲中,华为云 Marketing 部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新能力,以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域,重塑千行万业的应用进展。他表示,盘古大模型 5.0 通过更多的模态和更强的思维能力,重塑云服务,为开发者、客户和伙伴提供更强大、更丰富
7/5/2024 3:08:00 PM
新闻助手
  • 1