美烦资源网

专注技术文章分享,涵盖编程教程、IT 资源与前沿资讯

deepseek本地部署

一、硬件与软件要求

1. 硬件配置

组件

最低要求

推荐配置

显卡

NVIDIA GTX 1060(6GB显存)

NVIDIA RTX 3060 Ti 或更高

内存

8GB

16GB 或以上

存储

20GB 可用空间(SSD)

NVMe SSD 50GB+

CPU

Intel i5 或同级

Intel i7 / AMD Ryzen 7

2. 软件环境

2. 软件环境

  • 系统: Windows 10/11, macOS 12+, Ubuntu 20.04+
  • Python: 3.8+(推荐 3.10)
  • CUDA: 11.8+(仅 GPU 加速需要)
  • 工具链: Git, Conda(可选但推荐)


二、部署方法一:使用 Ollama

步骤 1:安装 Ollama

  • Windows/macOS
    访问 Ollama 官网,下载安装包并运行。

Linux

curl -fsSL https://ollama.ai/install.sh | sh

步骤 2:下载 DeepSeek 模型

打开终端或命令行,运行以下命令(根据显存选择模型):


# 1.5B 小模型(适合 6GB 显存)
ollama run deepseek-r1:1.5b

# 7B 中模型(需 12GB 显存)
ollama run deepseek-r1:7b

# 14B 大模型(需 16GB 显存)
ollama run deepseek-r1:14b

步骤 3:验证模型运行

输入简单测试命令:


ollama list         # 查看已安装的模型
ollama run deepseek-r1:7b "你好,写一首关于春天的诗"

若看到生成结果,说明部署成功。

步骤 4:启用 WebUI(可选)

  • 安装 Docker:Docker 官网

运行 Open-WebUI:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 浏览器访问 http://localhost:3000,登录后选择 DeepSeek 模型即可使用图形界面。

三、部署方法二:使用 LM Studio(图形化界面)

步骤 1:安装 LM Studio

  • 访问 LM Studio 官网,下载对应系统版本。
  • 安装后启动软件,在设置中切换为中文界面(可选)

步骤 2:下载模型文件

  • 方法 1:直接搜索下载
    在软件内搜索 "deepseek",选择
    deepseek-r1 系列的 .gguf 格式模型(如 deepseek-r1-7b-Q4_K_M.gguf)。
  • 方法 2:手动导入模型
  1. 从 Hugging Face 下载模型文件(需注册账号):
    DeepSeek-7B-Chat GGUF 格式
  2. .gguf 文件拖拽到 LM Studio 窗口中

步骤 3:配置推理参数

  • 硬件设置
    • 启用 GPU 加速(需 NVIDIA 显卡)
    • 调整 GPU 负载(如 80% 显存限制)
  • 生成参数
    • temperature: 0.7(控制随机性)
    • max_length: 4096(最大生成长度)

步骤 4:运行测试

  • 在聊天界面输入问题(如 "解释量子计算"),点击生成按钮。
  • 显存占用与生成速度参考(RTX 3060 12GB):
    • 7B 模型:约 8 字/秒
    • 14B 模型:约 3 字/秒(需量化到 4-bit)


四、部署方法三:手动部署(开发者推荐)

步骤 1:准备环境


# 创建 Python 虚拟环境
conda create -n deepseek python=3.10
conda activate deepseek

# 安装 PyTorch(CUDA 11.8)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 克隆仓库与依赖
git clone https://github.com/deepseek-ai/DeepSeek-LLM.git
cd DeepSeek-LLM
pip install -r requirements.txt

步骤 2:下载模型权重

  1. 访问 Hugging Face 模型库:DeepSeek-7B-Chat

登录后下载以下文件到 ./models 目录:

config.json
model-00001-of-00002.safetensors
model-00002-of-00002.safetensors
tokenizer.json

步骤 3:运行推理


from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("./models", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("./models")

input_text = "如何预防感冒?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

步骤 4:启动 API 服务


# 安装 FastAPI
pip install fastapi uvicorn

# 创建 api.py
echo '
from fastapi import FastAPI
from transformers import pipeline

app = FastAPI()
model = pipeline("text-generation", model="./models")

@app.post("/generate")
def generate(text: str):
    return model(text, max_length=200)
' > api.py

# 启动服务
uvicorn api:app --reload --port 8000

访问
http://localhost:8000/docs
测试 API。


五、常见问题解决

  1. 下载模型速度慢

使用国内镜像源:

export HF_ENDPOINT=https://hf-mirror.com
  1. CUDA Out of Memory

尝试量化模型(加载时添加参数):

model = AutoModelForCausalLM.from_pretrained("./models", load_in_4bit=True)
  1. 无法调用 GPU

验证 CUDA 是否安装正确:

import torch
print(torch.cuda.is_available())  # 应输出 True


六、性能优化建议

  • 量化模型:使用 bitsandbytes 库实现 4-bit/8-bit 量化(显存占用减少 50%+)
  • 批处理:设置 batch_size=4 提升吞吐量
  • Flash Attention:安装 flash-attn 库加速注意力计算


通过以上任一方法,您都可以在本地成功部署 DeepSeek 模型

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言