AI在线 AI在线

Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场

阿里杀疯了,Qwen团队刚刚接连发布了两款重要模型:Qwen3-Omni,业界首个原生端到端全模态AI模型;以及Qwen-Image-Edit-2509,对标谷歌nano banana 图像编辑工具,根据预告,明天还有“大的”要发布。 Qwen3-Omni:真正的一体化AIQwen3-Omni的问世,旨在解决长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。 它是一款真正意义上的全能选手,在同一个模型中无缝统一了文本、图像、音频和视频的处理能力。

阿里杀疯了,Qwen团队刚刚接连发布了两款重要模型:Qwen3-Omni,业界首个原生端到端全模态AI模型;以及Qwen-Image-Edit-2509,对标谷歌nano banana 图像编辑工具,根据预告,明天还有“大的”要发布。

Qwen3-Omni:真正的一体化AI

Qwen3-Omni的问世,旨在解决长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。它是一款真正意义上的全能选手,在同一个模型中无缝统一了文本、图像、音频和视频的处理能力。

Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场

web端体验:

https://chat.qwen.ai/?models=qwen3-omni-flash

抱抱脸上这个体验demo,可以直接去这里体验

https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场

核心亮点:

性能卓越:在36项音频及音视频基准测试中,Qwen3-Omni在其中22项上达到了业界顶尖水平(SOTA)。

Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场

全球化的语言能力:模型能力覆盖广泛,支持119种语言的文本处理、19种语言的语音输入以及10种语言的语音输出

极致高效:延迟仅为211毫秒,并能轻松理解长达30分钟的音频内容

高度可控:支持通过系统提示词(System Prompts)进行完全自定义,满足个性化需求

功能强大:内置工具调用(Tool Calling)功能,可与其他应用和服务轻松集成。

开源字幕模型:同时开源了一个低幻觉的Captioner(字幕生成)模型,为音视频内容处理提供了可靠工具

开源

为了推动技术发展和应用创新,Qwen团队已开源了Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-ThinkingQwen3-Omni-30B-A3B-Captioner等多个版本,旨在赋能全球开发者,探索从指令遵循到创意任务等多样化的应用场景。

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

Qwen-Image-Edit-2509

这是Qwen-Image升级版本,和字节前几天发布的即梦4.0图像模型一样主要是一致性上巨大提升。

多图编辑,无缝融合,现在,可以将“人物+产品”或“人物+场景”等多张图片拖入编辑,保持一致性同时进行推理。

Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场

单图编辑,高度一致:

人脸保真:无论变换姿势、滤镜还是风格,人物的面部特征始终保持一致

产品保真:在广告、海报等应用中,产品能维持其核心特征,确保品牌识别度

文字编辑:支持对图像中的文字进行全面修改,包括内容、字体、颜色,甚至材质纹理

内置ControlNet,精准控制深度、边缘、关键点……Qwen-Image-Edit-2509内置了强大的ControlNet功能,让用户可以即插即用,实现对图像生成的精准控制

Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场

qwen的发布博客里有详细清晰的示例,大家可以去看看:

https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list

相关资讯

首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁

首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元

2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%

当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge)两天完成人类12年工作——医学研究领域中,系统评价(SRs)作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。
6/17/2025 9:00:00 AM

关于自动驾驶,尤其是端到端自动驾驶:到底有哪些可能的量产技术路线?

0.1 什么是端到端? 首先定义端到端,当然有很多说法。 我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。
2/10/2025 10:35:00 AM
南木
  • 1