一、硬件与软件要求
1. 硬件配置
组件 | 最低要求 | 推荐配置 |
显卡 | NVIDIA GTX 1060(6GB显存) | NVIDIA RTX 3060 Ti 或更高 |
内存 | 8GB | 16GB 或以上 |
存储 | 20GB 可用空间(SSD) | NVMe SSD 50GB+ |
CPU | Intel i5 或同级 | Intel i7 / AMD Ryzen 7 |
2. 软件环境
2. 软件环境
- 系统: Windows 10/11, macOS 12+, Ubuntu 20.04+
- Python: 3.8+(推荐 3.10)
- CUDA: 11.8+(仅 GPU 加速需要)
- 工具链: Git, Conda(可选但推荐)
二、部署方法一:使用 Ollama
步骤 1:安装 Ollama
- Windows/macOS:
访问 Ollama 官网,下载安装包并运行。
Linux:
curl -fsSL https://ollama.ai/install.sh | sh
步骤 2:下载 DeepSeek 模型
打开终端或命令行,运行以下命令(根据显存选择模型):
# 1.5B 小模型(适合 6GB 显存)
ollama run deepseek-r1:1.5b
# 7B 中模型(需 12GB 显存)
ollama run deepseek-r1:7b
# 14B 大模型(需 16GB 显存)
ollama run deepseek-r1:14b
步骤 3:验证模型运行
输入简单测试命令:
ollama list # 查看已安装的模型
ollama run deepseek-r1:7b "你好,写一首关于春天的诗"
若看到生成结果,说明部署成功。
步骤 4:启用 WebUI(可选)
- 安装 Docker:Docker 官网
运行 Open-WebUI:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
- 浏览器访问 http://localhost:3000,登录后选择 DeepSeek 模型即可使用图形界面。
三、部署方法二:使用 LM Studio(图形化界面)
步骤 1:安装 LM Studio
- 访问 LM Studio 官网,下载对应系统版本。
- 安装后启动软件,在设置中切换为中文界面(可选)
步骤 2:下载模型文件
- 方法 1:直接搜索下载
在软件内搜索 "deepseek",选择 deepseek-r1 系列的 .gguf 格式模型(如 deepseek-r1-7b-Q4_K_M.gguf)。 - 方法 2:手动导入模型
- 从 Hugging Face 下载模型文件(需注册账号):
DeepSeek-7B-Chat GGUF 格式 - 将 .gguf 文件拖拽到 LM Studio 窗口中
步骤 3:配置推理参数
- 硬件设置:
- 启用 GPU 加速(需 NVIDIA 显卡)
- 调整 GPU 负载(如 80% 显存限制)
- 生成参数:
- temperature: 0.7(控制随机性)
- max_length: 4096(最大生成长度)
步骤 4:运行测试
- 在聊天界面输入问题(如 "解释量子计算"),点击生成按钮。
- 显存占用与生成速度参考(RTX 3060 12GB):
- 7B 模型:约 8 字/秒
- 14B 模型:约 3 字/秒(需量化到 4-bit)
四、部署方法三:手动部署(开发者推荐)
步骤 1:准备环境
# 创建 Python 虚拟环境
conda create -n deepseek python=3.10
conda activate deepseek
# 安装 PyTorch(CUDA 11.8)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 克隆仓库与依赖
git clone https://github.com/deepseek-ai/DeepSeek-LLM.git
cd DeepSeek-LLM
pip install -r requirements.txt
步骤 2:下载模型权重
- 访问 Hugging Face 模型库:DeepSeek-7B-Chat
登录后下载以下文件到 ./models 目录:
config.json
model-00001-of-00002.safetensors
model-00002-of-00002.safetensors
tokenizer.json
步骤 3:运行推理
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("./models", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("./models")
input_text = "如何预防感冒?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
步骤 4:启动 API 服务
# 安装 FastAPI
pip install fastapi uvicorn
# 创建 api.py
echo '
from fastapi import FastAPI
from transformers import pipeline
app = FastAPI()
model = pipeline("text-generation", model="./models")
@app.post("/generate")
def generate(text: str):
return model(text, max_length=200)
' > api.py
# 启动服务
uvicorn api:app --reload --port 8000
访问
http://localhost:8000/docs 测试 API。
五、常见问题解决
- 下载模型速度慢
使用国内镜像源:
export HF_ENDPOINT=https://hf-mirror.com
- CUDA Out of Memory
尝试量化模型(加载时添加参数):
model = AutoModelForCausalLM.from_pretrained("./models", load_in_4bit=True)
- 无法调用 GPU
验证 CUDA 是否安装正确:
import torch
print(torch.cuda.is_available()) # 应输出 True
六、性能优化建议
- 量化模型:使用 bitsandbytes 库实现 4-bit/8-bit 量化(显存占用减少 50%+)
- 批处理:设置 batch_size=4 提升吞吐量
- Flash Attention:安装 flash-attn 库加速注意力计算
通过以上任一方法,您都可以在本地成功部署 DeepSeek 模型