AI在线 AI在线

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。 Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。 Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:跨模态最先进表现:通过早期以文本为核心的预训练和混合多模态训练,模型具备原生多模态能力。

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:

  • 跨模态最先进表现:通过早期以文本为核心的预训练和混合多模态训练,模型具备原生多模态能力。在实现强大音频与音视频性能的同时,单模态的文本与图像效果保持不降。在 36 项音频 / 视频基准测试中,22 项达到了最新水平,其中 32 项在开源范围内处于领先;在自动语音识别(ASR)、音频理解与语音对话方面表现可与 Gemini 2.5 Pro 相当。
  • 多语言:支持 119 种文本语言、19 种语音输入语言以及 10 种语音输出语言。
  • 语音输入语言:英语、中文、韩语、日语、德语、俄语、意大利语、法语、西班牙语、葡萄牙语、马来语、荷兰语、印尼语、土耳其语、越南语、粤语、阿拉伯语、乌尔都语。
  • 语音输出语言:英语、中文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。
  • 创新架构:基于 MoE(专家混合)的“思考者–表达者”设计,并结合 AuT 预训练以获得强大的通用表征能力,同时采用多码本设计以将延迟降至最低。
  • 实时音频 / 视频交互:低延迟流式交互,支持自然的轮流对话和即时的文本或语音响应。
  • 灵活控制:可通过系统提示词自定义行为,实现细粒度控制与轻松适配。
  • 精细音频描述: Qwen3-Omni-30B-A3B-Captioner 已开源,这是一个通用型、细节丰富、低幻觉率的音频描述模型,填补了开源社区在该领域的空白。

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

IT之家附官方地址:

  • GitHub:https://github.com/QwenLM/Qwen3-Omni
  • 抱抱脸:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
  • 魔塔:https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
  • Demo:https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

TTS 即文本转语音,阿里云此次发布的 TTS 支持 17 种音色选择,每一种音色均支持 10 种语言。其中不仅包含多国语言,有:普通话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语;还支持了更多中国方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

此外,Qwen3-TTS-Flash 在多项评估基准上均取得了 SoTA 的表现,超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特别是在语音稳定性和音色相似度。

延迟对比

Qwen3-TTS-Flash

Qwen-TTS

并发数

双卡 12 并发

双卡 6 并发

首包延迟(单并发)

97ms

200ms

首包延迟(满并发)

420ms

733ms

首包大小(满并发且越大越好)

320ms

190ms

RTF(单并发)

0.30

0.43

RTF(满并发)

0.51

0.72

官方地址:

  • Demo:https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
  • 博客:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升级版本,和字节前几天发布的即梦 4.0 图像模型一样主要是一致性上巨大提升。

与 8 月份发布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改进包括:

  • 多图像编辑支持:对于多图像输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架构,并通过图像拼接进一步训练,以实现多图像编辑。它支持各种组合,如“人 + 人”、“人 + 产品”和“人 + 场景”。目前在 1 到 3 张输入图像时表现最佳。
  • 增强的单图像一致性:对于单图像输入,Qwen-Image-Edit-2509 显著提高了编辑的一致性,特别是在以下方面:
  • 改进的人像编辑一致性:更好地保留面部身份,支持各种肖像风格和姿势变换;
  • 改进的产品编辑一致性:更好地保留产品身份,支持产品海报编辑;
  • 改进的文字编辑一致性:除了修改文字内容外,还支持编辑文字字体、颜色和材质;
  • 原生支持 ControlNet:包括深度图、边缘图、关键点图等。

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

官方地址:

  • 博客:https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
  • 魔塔:https://modelscope.cn/models/Qwen/Qwen-Image-Edit-2509
  • 抱抱脸:https://huggingface.co/Qwen/Qwen-Image-Edit-2509
  • GitHub:https://github.com/QwenLM/Qwen-Image

另外,Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已经开源:

  • 抱抱脸:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
  • 魔塔:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

相关资讯

神级模型 In-Context LoRA 爆火!10种场景精准出图!

大家好,我是花生~. 阿里通义实验室在月初推出的一个新开源项目 In-Context(上下文) LoRA 最近越来越火了,因为大家发现它实在太好用了,无论是保持人物/场景一致性,还是进行服装、风格、Logo、字体样式、页面版式的学习迁移,效果都非常不错,一下就解决了很多大家之前头疼的问题。 目前 In-Context LoRA 已经在摄影、电商设计、样机制作、头像生成等方面有了落地应用,极大满足了大家对精准控制出图的需求,那今天我们就一起来看看 In-Context LoRA (以下简称 IC LoRA)究竟有哪些神奇之处。
11/21/2024 1:39:32 AM
夏花生

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

大家好,我是肆〇柒。 本文一篇来自阿里巴巴通义实验室(Tongyi Lab, Alibaba Group)的研究,是通义 Deepresearch 发布的系列研究之一。 这篇论文不仅推出了一个名为WebResearcher的新型AI智能体,更重要的是,它提出了一种名为"IterResearch"的全新范式,期望从根本上解决长程推理任务中的核心瓶颈。
9/24/2025 10:24:57 AM
肆零柒

谨以此文,向飞天奖的AI整活视频「致敬」

AI好好用报道编辑:杨文5款对口型的AI产品,总有一款适合你。AI 最大的受害者,原来是娱乐圈的明星们。咋回事呢?前段时间,飞天奖官方整了个花活儿,让明星和电视剧中的 AI 角色合唱了一首《中国梦・我的梦》。那效果,简直一言难尽……(视频来源:B 站博主神仙颜颜_)视频链接:「扎心」:这个东西一端上来就有种淡淡的疯感。台下明星笑得最真心的一次。天呐唐嫣那个... 我都想替她报警了。每一个都好离谱又恐怖,李沁都没牙齿了。不会整就不要整啊,太抽象了,我真的是哈哈哈哈哈哈哈。第一个胡歌出来我就没绷住。笑死我了,满脑子都是
10/8/2024 6:14:00 PM
AI好好用
  • 1