如何在本地运行量化版的DeepSeek-R1-0528？

译者 | 布加迪审校 | 重楼DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本，需要715GB的磁盘空间，使其成为市面上最大的开源模型之一。然而由于来自Unsloth 的先进的量化技术，该模型的大小可以缩减至162GB，整整缩减了80%。这使得用户能够以显著降低的硬件要求体验模型的全部功能，尽管性能略有下降。

译者 | 布加迪

审校 | 重楼

DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本，需要715GB的磁盘空间，使其成为市面上最大的开源模型之一。然而由于来自Unsloth 的先进的量化技术，该模型的大小可以缩减至162GB，整整缩减了80%。这使得用户能够以显著降低的硬件要求体验模型的全部功能，尽管性能略有下降。

在本教程中，我们将：

设置Ollama和Open Web UI，以便在本地运行DeepSeek-R1-0528 模型。
下载并配置该模型的 1.78 位量化版（IQ1_S）。
使用GPU + CPU和纯CPU两种配置环境运行该模型。

先决条件

要运行IQ1_S 量化版本，你的系统必须满足以下要求：

GPU要求：至少1个24GB GPU（比如英伟达RTX 4090或A6000）和128GB RAM。在此配置下，预期生成速度约为每秒5个token。
RAM要求：运行该模型至少需要64GB RAM；可以不使用 GPU 运行该模型，但性能将限制为每秒1个token。
最佳设置：为了获得最佳性能（每秒5个以上token），你至少需要180GB的统一内存或180GB的RAM + VRAM组合内存。
存储：确保你至少有200GB的可用磁盘空间用于模型及其依赖项。

第1步：安装依赖项和Ollama

更新你的系统并安装所需的工具。Ollama是一款轻量级服务器，用于在本地运行大语言模型。在Ubuntu 发行版上使用以下命令安装它：

复制

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

第2步：下载并运行模型

使用以下命令运行DeepSeek-R1-0528 模型的 1.78 位量化版本（IQ1_S）：

复制

ollama serve &
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0

如何在本地运行量化版的DeepSeek-R1-0528？

第3步：设置并运行Open Web UI

拉取支持CUDA的Open Web UI Docker镜像。运行支持GPU并集成Ollama的Open Web UI 容器。

该命令将：

在8080端口启动Open Web UI服务器
使用--gpus all 标志，启用GPU加速
挂载必要的数据目录（-v open-webui:/app/backend/data）

复制

docker pull ghcr.io/open-webui/open-webui:cuda
docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda

一旦容器运行，在浏览器中访问Open Web UI 界面：http://localhost:8080/。

第4步：在Open Web UI中运行DeepSeek R1 0528

从模型菜单中选择hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。

如何在本地运行量化版的DeepSeek-R1-0528？

如果Ollama服务器无法正确使用GPU，你可以切换到CPU执行。虽然这会显著降低性能（大约每秒1个token），但可以确保模型仍然能够运行。

复制

# Kill any existing Ollama processes
pkill ollama 

# Clear GPU memory
sudo fuser -v /dev/nvidia* 

# Restart Ollama service
CUDA_VISIBLE_DEVICES="" ollama serve

一旦模型运行，你可以通过Open Web UI与其交互。但请注意，由于缺乏GPU加速，速度将被限制为每秒1个token。

如何在本地运行量化版的DeepSeek-R1-0528？

结语

即使运行量化版本也颇具挑战性。你需要快速的网络连接来下载模型，如果下载失败，必须从头开始整个过程。我在试着在GPU上运行时也遇到了很多问题，我一直收到与VRAM 不足相关的GGUF错误。尽管尝试了几种常见的GPU错误修复方法，但都不起作用，于是我最终把一切都切换到了CPU。虽然这确实有效，但现在模型仅仅生成响应就需要大约10分钟，这远非理想状态。

我相信肯定有更好的解决方案，比如使用llama.cpp，但相信我，我花了一整天才让它运行起来。

原文标题：Run the Full DeepSeek-R1-0528 Model Locally，作者：Abid Ali Awan

如何在本地运行量化版的DeepSeek-R1-0528？

先决条件

第1步：安装依赖项和Ollama

第2步：下载并运行模型

第3步：设置并运行Open Web UI

第4步：在Open Web UI中运行DeepSeek R1 0528

结语

相关资讯

速度更快！新版 SD WebUI Forge 保姆级安装教程

使用 DeepSeek R1 和 Ollama 搭建一个 RAG 系统（包含完整代码）

DeepSeek本地部署详细指南！从 Ollama 到个人知识库应用