译者 | 布加迪
审校 | 重楼
DeepSeek-R1-0528是DeepSeek R1 推理模型的最新版本,需要715GB的磁盘空间,使其成为市面上最大的开源模型之一。然而由于来自Unsloth 的先进的量化技术,该模型的大小可以缩减至162GB,整整缩减了80%。这使得用户能够以显著降低的硬件要求体验模型的全部功能,尽管性能略有下降。
在本教程中,我们将:
- 设置Ollama和Open Web UI,以便在本地运行DeepSeek-R1-0528 模型。
- 下载并配置该模型的 1.78 位量化版(IQ1_S)。
- 使用GPU + CPU和纯CPU两种配置环境运行该模型。
先决条件
要运行IQ1_S 量化版本,你的系统必须满足以下要求:
- GPU要求:至少1个24GB GPU(比如英伟达RTX 4090或A6000)和128GB RAM。在此配置下,预期生成速度约为每秒5个token。
- RAM要求:运行该模型至少需要64GB RAM;可以不使用 GPU 运行该模型,但性能将限制为每秒1个token。
- 最佳设置:为了获得最佳性能(每秒5个以上token),你至少需要180GB的统一内存或180GB的RAM + VRAM组合内存。
- 存储:确保你至少有200GB的可用磁盘空间用于模型及其依赖项。
第1步:安装依赖项和Ollama
更新你的系统并安装所需的工具。Ollama是一款轻量级服务器,用于在本地运行大语言模型。在Ubuntu 发行版上使用以下命令安装它:
复制apt-get update apt-get install pciutils -y curl -fsSL https://ollama.com/install.sh | sh
第2步:下载并运行模型
使用以下命令运行DeepSeek-R1-0528 模型的 1.78 位量化版本(IQ1_S):
复制ollama serve & ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0
第3步:设置并运行Open Web UI
拉取支持CUDA的Open Web UI Docker镜像。运行支持GPU并集成Ollama的Open Web UI 容器。
该命令将:
- 在8080端口启动Open Web UI服务器
- 使用--gpus all 标志,启用GPU加速
- 挂载必要的数据目录(-v open-webui:/app/backend/data)
docker pull ghcr.io/open-webui/open-webui:cuda docker run -d -p 9783:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:cuda
一旦容器运行,在浏览器中访问Open Web UI 界面:http://localhost:8080/。
第4步:在Open Web UI中运行DeepSeek R1 0528
从模型菜单中选择hf.co/unsloth/DeepSeek-R1-0528-GGUF:TQ1_0模型。
如果Ollama服务器无法正确使用GPU,你可以切换到CPU执行。虽然这会显著降低性能(大约每秒1个token),但可以确保模型仍然能够运行。
复制# Kill any existing Ollama processes pkill ollama # Clear GPU memory sudo fuser -v /dev/nvidia* # Restart Ollama service CUDA_VISIBLE_DEVICES="" ollama serve
一旦模型运行,你可以通过Open Web UI与其交互。但请注意,由于缺乏GPU加速,速度将被限制为每秒1个token。
结语
即使运行量化版本也颇具挑战性。你需要快速的网络连接来下载模型,如果下载失败,必须从头开始整个过程。我在试着在GPU上运行时也遇到了很多问题,我一直收到与VRAM 不足相关的GGUF错误。尽管尝试了几种常见的GPU错误修复方法,但都不起作用,于是我最终把一切都切换到了CPU。虽然这确实有效,但现在模型仅仅生成响应就需要大约10分钟,这远非理想状态。
我相信肯定有更好的解决方案,比如使用llama.cpp,但相信我,我花了一整天才让它运行起来。
原文标题:Run the Full DeepSeek-R1-0528 Model Locally,作者:Abid Ali Awan