AI在线 AI在线

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。 这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。 这一创新标志着阿里在多模态人工智能领域的进一步突破。

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

image.png

Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得更流畅、更自然的体验。

image.png

显存优化,兼容性增强

与 Qwen2.5-Omni-7B 模型相比,3B 版本在处理长上下文序列时,显存显著降低,使得其在24GB 的消费级 GPU 上仍能支持长达30秒的音视频交互。这一优化不仅提升了模型的适用性,也让更多用户能够在个人计算机上实现高效的多模态处理,解决了以往因显存不足导致的使用障碍。

实时语音与视频聊天功能

Qwen2.5-Omni 的核心优势之一是其支持完全实时的语音和视频聊天功能。该模型能够处理分块输入并即时输出响应,展现出卓越的鲁棒性和自然度。这种技术使得在语音生成方面,Qwen2.5-Omni 的表现超越了许多现有的流式和非流式模型,为用户提供了更加人性化的互动体验。

在多模态任务中,Qwen2.5-Omni 展现出令人瞩目的性能,无论是在单一模态任务,如语音识别、翻译、音频理解、图像推理,还是在需要多模态融合的复杂任务中,该模型都能表现出色。在与同规模的单模态模型对比中,Qwen2.5-Omni 不仅在音频能力上超越了 Qwen2-Audio,还在图像和视频任务中达到了与 Qwen2.5-VL-7B 相当的水平,证明了其多模态处理的强大能力。

github地址:https://github.com/QwenLM/Qwen2.5-Omni

在线体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

相关资讯

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。 这一全新模型专为全方位多模态感知而设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。 Qwen2.5-Omni采用了创新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。
3/27/2025 8:21:00 AM
AI在线

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云发布了新一代端到端多模态旗舰模型Qwen2.5-Omni,该模型支持文本、图像、音频和视频的全模态感知与生成,采用Thinker-Talker架构,实现实时流式响应。
3/27/2025 6:39:17 AM
问舟

阿里开源 支持10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。
3/30/2022 6:08:00 PM
阿里云大数据AI技术
  • 1