使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

作者：贝塔街的万事 2025-04-09 10:47

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。

相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。

但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

关于vllm和ollama的对比可以看文章：ollama和vllm部署对比那个更合适

vLLM本地环境准备

vllm需要使用最新的0.7.3版本，支持思考过程增加<think>标签。

建议用conda新建一个环境来安装

复制

pip install vllm==0.7.3

python环境我这里使用的是python3.8，显卡为a40显卡40g显存版本。

模型权重下载

因为网络问题，建议在阿里魔塔社区下载QWQ模型。

选择好对应的版本后，使用pip安装modelscope，便可以下载选中的版本模型了：

复制

from modelscope import snapshot_download 
model_dir = snapshot_download('qwen/QWQ-32B')

vLLM部署运行模型

因为之前已经配置好vLLM的环境，所以使用以下命令可以运行模型：

复制

/root/miniconda3/envs/vllm/bin/python  
-m vllm.entrypoints.openai.api_server 
--served-model-name qwq-32b 
--model /root/.cache/modelscope/hub/qwen/QWQ-32B

参数解析：

模型路径：--model /root/.cache/modelscope/hub/qwen/QWQ-32B

模型名称：–served-model qwq-32b

QWQ的推理效果可以查看文章 QwQ总结能力测评，32b小模型真能超过deepseek吗

写在最后

2025年的今天，AI创新已如井喷，几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人，我坚信AI不是替代人类，而是让我们从重复工作中解放出来，专注于更有创造性的事情，关注我们公众号口袋大数据，一起探索大模型落地的无限可能！

Ollama与vLLM部署对比：哪个更合适？

Ollama：简单易用的LLM部署工具 Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂，即使是新手也能快速上手。 Ollama支持多种LLM模型，并提供便捷的命令行界面进行管理和运行。

4/9/2025 8:20:00 AM 耗子

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近，大语言模型（LLM）的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎，在大模型推理领域迅速崛起。今天，我就带大家从零开始，在 Ubuntu 22.04 RTX 4090 Docker 环境下，部署 DeepSeek模型，并让它跑起来！

3/12/2025 12:37:50 PM 写代码的中年人

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

vLLM（Virtual Large Language Model）是由加州大学伯克利分校团队开发的高性能大模型推理框架，其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。对比 ollama 作为个人开发者部署模型工具而言，vLLM 专注于高并发请求和大规模生产环境，适用于企业级应用和需要高效推理的场景。 vLLM 通过优化内存管理和并发处理，适合处理高负载的生产环境。

4/9/2025 3:25:00 AM

使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

vLLM本地环境准备

模型权重下载

vLLM部署运行模型

写在最后

相关资讯

Ollama与vLLM部署对比：哪个更合适？

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型