一、硬件与软件要求

1. 硬件配置

组件	最低要求	推荐配置
显卡	NVIDIA GTX 1060（6GB显存）	NVIDIA RTX 3060 Ti 或更高
内存	8GB	16GB 或以上
存储	20GB 可用空间（SSD）	NVMe SSD 50GB+
CPU	Intel i5 或同级	Intel i7 / AMD Ryzen 7

2. 软件环境

系统: Windows 10/11, macOS 12+, Ubuntu 20.04+
Python: 3.8+（推荐 3.10）
CUDA: 11.8+（仅 GPU 加速需要）
工具链: Git, Conda（可选但推荐）

二、部署方法一：使用 Ollama

步骤 1：安装 Ollama

Windows/macOS：
访问 Ollama 官网，下载安装包并运行。

Linux：

curl -fsSL https://ollama.ai/install.sh | sh

步骤 2：下载 DeepSeek 模型

打开终端或命令行，运行以下命令（根据显存选择模型）：

# 1.5B 小模型（适合 6GB 显存）
ollama run deepseek-r1:1.5b

# 7B 中模型（需 12GB 显存）
ollama run deepseek-r1:7b

# 14B 大模型（需 16GB 显存）
ollama run deepseek-r1:14b

步骤 3：验证模型运行

输入简单测试命令：

ollama list         # 查看已安装的模型
ollama run deepseek-r1:7b "你好，写一首关于春天的诗"

若看到生成结果，说明部署成功。

步骤 4：启用 WebUI（可选）

安装 Docker：Docker 官网

运行 Open-WebUI：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

浏览器访问 http://localhost:3000，登录后选择 DeepSeek 模型即可使用图形界面。

三、部署方法二：使用 LM Studio（图形化界面）

步骤 1：安装 LM Studio

访问 LM Studio 官网，下载对应系统版本。
安装后启动软件，在设置中切换为中文界面（可选）

步骤 2：下载模型文件

方法 1：直接搜索下载
在软件内搜索 "deepseek"，选择 deepseek-r1 系列的 .gguf 格式模型（如 deepseek-r1-7b-Q4_K_M.gguf）。
方法 2：手动导入模型

从 Hugging Face 下载模型文件（需注册账号）：
DeepSeek-7B-Chat GGUF 格式
将 .gguf 文件拖拽到 LM Studio 窗口中

步骤 3：配置推理参数

硬件设置：

启用 GPU 加速（需 NVIDIA 显卡）
调整 GPU 负载（如 80% 显存限制）

生成参数：

temperature: 0.7（控制随机性）
max_length: 4096（最大生成长度）

步骤 4：运行测试

在聊天界面输入问题（如 "解释量子计算"），点击生成按钮。
显存占用与生成速度参考（RTX 3060 12GB）：

7B 模型：约 8 字/秒
14B 模型：约 3 字/秒（需量化到 4-bit）

四、部署方法三：手动部署（开发者推荐）

步骤 1：准备环境

# 创建 Python 虚拟环境
conda create -n deepseek python=3.10
conda activate deepseek

# 安装 PyTorch（CUDA 11.8）
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 克隆仓库与依赖
git clone https://github.com/deepseek-ai/DeepSeek-LLM.git
cd DeepSeek-LLM
pip install -r requirements.txt

步骤 2：下载模型权重

访问 Hugging Face 模型库：DeepSeek-7B-Chat

登录后下载以下文件到 ./models 目录：

config.json
model-00001-of-00002.safetensors
model-00002-of-00002.safetensors
tokenizer.json

步骤 3：运行推理

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("./models", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("./models")

input_text = "如何预防感冒？"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步骤 4：启动 API 服务

# 安装 FastAPI
pip install fastapi uvicorn

# 创建 api.py
echo '
from fastapi import FastAPI
from transformers import pipeline

app = FastAPI()
model = pipeline("text-generation", model="./models")

@app.post("/generate")
def generate(text: str):
    return model(text, max_length=200)
' > api.py

# 启动服务
uvicorn api:app --reload --port 8000

访问
http://localhost:8000/docs 测试 API。

五、常见问题解决

下载模型速度慢

使用国内镜像源：

export HF_ENDPOINT=https://hf-mirror.com

CUDA Out of Memory

尝试量化模型（加载时添加参数）：

model = AutoModelForCausalLM.from_pretrained("./models", load_in_4bit=True)

无法调用 GPU

验证 CUDA 是否安装正确：

import torch
print(torch.cuda.is_available())  # 应输出 True

六、性能优化建议

量化模型：使用 bitsandbytes 库实现 4-bit/8-bit 量化（显存占用减少 50%+）
批处理：设置 batch_size=4 提升吞吐量
Flash Attention：安装 flash-attn 库加速注意力计算

通过以上任一方法，您都可以在本地成功部署 DeepSeek 模型

美烦资源网

专注技术文章分享，涵盖编程教程、IT 资源与前沿资讯

deepseek本地部署

一、硬件与软件要求

1. 硬件配置

2. 软件环境

2. 软件环境

二、部署方法一：使用 Ollama

步骤 1：安装 Ollama

步骤 2：下载 DeepSeek 模型

步骤 3：验证模型运行

步骤 4：启用 WebUI（可选）

三、部署方法二：使用 LM Studio（图形化界面）

步骤 1：安装 LM Studio

步骤 2：下载模型文件

步骤 3：配置推理参数

步骤 4：运行测试

四、部署方法三：手动部署（开发者推荐）

步骤 1：准备环境

步骤 2：下载模型权重

步骤 3：运行推理

步骤 4：启动 API 服务

五、常见问题解决

六、性能优化建议