阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

作者：AI在线 2025-05-01 10:00

在开源大模型的竞争中，阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%，在同等处理能力下，更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。

Qwen2.5-Omni 是一款端到端的多模态模型，能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构，模型能够在实时互动中灵活运用多种输入，生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中，能够获得更流畅、更自然的体验。

显存优化，兼容性增强

与 Qwen2.5-Omni-7B 模型相比，3B 版本在处理长上下文序列时，显存显著降低，使得其在24GB 的消费级 GPU 上仍能支持长达30秒的音视频交互。这一优化不仅提升了模型的适用性，也让更多用户能够在个人计算机上实现高效的多模态处理，解决了以往因显存不足导致的使用障碍。

实时语音与视频聊天功能

Qwen2.5-Omni 的核心优势之一是其支持完全实时的语音和视频聊天功能。该模型能够处理分块输入并即时输出响应，展现出卓越的鲁棒性和自然度。这种技术使得在语音生成方面，Qwen2.5-Omni 的表现超越了许多现有的流式和非流式模型，为用户提供了更加人性化的互动体验。

在多模态任务中，Qwen2.5-Omni 展现出令人瞩目的性能，无论是在单一模态任务，如语音识别、翻译、音频理解、图像推理，还是在需要多模态融合的复杂任务中，该模型都能表现出色。在与同规模的单模态模型对比中，Qwen2.5-Omni 不仅在音频能力上超越了 Qwen2-Audio，还在图像和视频任务中达到了与 Qwen2.5-VL-7B 相当的水平，证明了其多模态处理的强大能力。

github地址:https://github.com/QwenLM/Qwen2.5-Omni

在线体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

3月27日，阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。 Qwen2.5-Omni采用了创新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本、图像、音频、视频的跨模态理解，并以流式方式生成文本和自然语音响应。

3/27/2025 8:21:00 AM AI在线

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

阿里云发布了新一代端到端多模态旗舰模型Qwen2.5-Omni，该模型支持文本、图像、音频和视频的全模态感知与生成，采用Thinker-Talker架构，实现实时流式响应。

3/27/2025 6:39:17 AM 问舟

阿里开源支持10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T，模型参数已经从万亿跃迁到10万亿，规模远超业界此前发布的万亿级模型，成为当前全球最大的AI预训练模型。

3/30/2022 6:08:00 PM 阿里云大数据AI技术

阿里开源多模态模型Qwen2.5-Omni：显存大幅降低暴降 50%

相关资讯

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

阿里开源 支持10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

阿里开源支持10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)