今天和一家来公司交流的AI公司沟通,该公司介绍的内容和之前的其它公司类似,相关的案例场景目前来看离商业化落地仍有一段差距,真正在企业深入应用仍至少需要2~3年时间。现在我坚信AI现在还处于非常早期的阶段,但在未来AI能结合不同的领域、领域内专业的数据、不同的硬件和传感器,甚至各种机器人,在各行各业发挥出巨大的作用。
但现在很多的AI创业企业,各种夸张的宣传,吸引流量的内容标题层出不穷,让很多人觉得AI高不可攀、对AI感到恐慌和焦虑。如何消除这种信息差,更好的地利用AI,就是不断使用它、折腾它。
今天在这给大家介绍一下"如何在本地部署一个开源大模型",实现文本和语音聊天的机器人,后续我们再来部署非常强大的LLMOps工具平台Dify,快速的搭建一些AI工具,如会议记要小助手、阅读助手、人事助手、家长辅导小助手等。
在开始之前,先给大家展示一下搭建完成之后的界面,与GPT非常相似,主要是能在本地电脑上运行,而且对话流畅性非常高。
本地聊天机器人
整个搭建过程很简单,不涉及编程,适合零基础入门,但是因为会安装较多的软件,因此更适合有一定Windows系统操作经验的同学。
工具准备:
Ollama和Docker,Ollama负责运行模型,Docker 负责操作界面。
Ollama:
Ollama 是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。它极大地简化了在Docker容器内部署和管理大型语言模型(LLM)的过程,使得用户能够轻松地在本地运行大型语言模型。
下载网址:https://ollama.com/
Docker:
Docker 是一个开源的应用容器引擎,它允许开发者打包他们的应用以及应用的运行环境到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。
下载网址:
https://docs.openwebui.com/
Ollama下载和安装
打开主页,直接点击"Download",根据自己系统选择合适的安装包,软件支持MacOS/Windows/Linux系统。
Ollama下载页
下载完成后,你可以双击安装文件,运行Ollama安装程序,它会弹出提示页面,根据提示多次点击下一步后,Ollama就安装完成。完成后你查看右下角的图标,如果存在Ollama图标,则说明该软件安装成功了。
Ollama安装成后的图标
安装完成后,我们还需要配置一个环境变量,更改Ollama模型的存放位置。因为Ollama将模型默认存放在C盘,这样会造成C盘的存储紧张(Mac OS不需要该步骤)。
点击我的电脑-右键-属性中的高级系统设置,在弹出的界面中选择环境变量按钮,再系统变量下新建名为OLLAMA_MODELS的变量名称和值就可以了。
Olloma环境变量配置
Ollama安装语言模型
安装语言模型也非常简单,打开命令提示符运行指令就好。
打开命令提示符:右键点击windows开始菜单,选择命令提示符(管理员)
打开命令提示符
运行指令:打开Ollama的官方网站,右上角点击Models-具体模型链接-进入模型详情页,复制安装它的指令词。我们安装的是llama3的安装指令是:ollama run llama3
llama3安装指令词
在终端中输入ollama run llama3后,如果是初次安装,你需要耐心等待几分钟,大语言模型会自动安装到你的电脑中,当出现>>> 提示符,你的llama3模型就安装成功了。
llama3模型安装及安装成后提示符
下次再运行Llama3模型时,只需要在终端输入ollama run llama3。如果电脑中已安装Llama3,直接进入对话环境。如果没有安装,或者上次没有安装完成,系统会自动下载Llama3,再进入Llama3的对话环境。
Ollama常用操作
模型参数如何选:以lama3为例
模型 | 硬件要求 | 速度 | 智能程度 |
70B | 大小4.7GB,显存>15G | 回答速度快 | 好 |
8B | 大小70GB,显存>4G | 回答速度慢 | 比70B模型差 |
模型常用命令:以lama3为例
指令 | 说明 |
ollama list | 列出已安装的本地大型模型信息 |
ollama run llama3 | 安装模型 |
ollama pull llama3:latest | 更新模型 |
ollama rm llama3 | 删除模型 |
ollama -h | 获取更多的参数 |
到这里, 我们的聊天的机器人部署完成,使用过程中还非常流畅如下图:
聊天机器人
好了,现我们来搭建一个web页面,通过页面输入文字、语音、上传图片会更加方便流畅。整个过程也很简单,只需要下面2个步聚。
Open WebUI 安装
Open WebUI需要运行环境,它的运行环境由Docker工具提供。
Docker是什么?
Docker 是一个开源的应用容器引擎,它允许开发者打包他们的应用以及应用的运行环境到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。
网址:
https://docs.openwebui.com/
从官网下载Docker安装文件
Docker下载图一
Docker下载图二
下载Windows版本的Docker安装文件,运行安装包即可完成安装。
- Docker安装过程中注意事项
在Windows上Docker软件需要依赖系统软件WSL2才能正常运行,初次安装时,Docker会提示你是否要安装WSL2工具时,一定要点同意,否则Docker无法在你的Windows上正确运行。 - 安装前先启用虚拟机平台,在 Windows 中,打开“控制面板” > “程序” > “程序和功能” > “启用或关闭 Windows 功能,在“Windows 功能”窗口中,找到并勾选“虚拟机平台”。
- 安装前先启用BIOS 中启用虚拟化,重启计算机,并在启动时进入 BIOS 设置(通常需要在启动时按下特定的键,如 F2、F10、Del 等)。在 BIOS 设置中,找到与虚拟化技术相关的选项,如“Intel Virtualization Technology”或“AMD-V”(取决于您的 CPU 类型),并启用它。
Open WebUI安装
打开终端命令行界面,输入安装令:docker run -d -p 3000:8080 --add-host=
host.docker.internal:host-gateway -v
open-webui:/app/backend/data --name open-webui --restart always
ghcr.io/open-webui/open-webui:main
安装指令
安装完成Open WebUI后,你可以通过浏览器访问3000端口打开该界面,网址:http://127.0.0.1:3000
注册用户使用
第一次访问,需要注册一个账号,只需要填写邮箱和密码,就可以登录到Open WebUI界面中,与模型进行对话了。
ps:注册信息会存储在你的电脑中
注册页面
测册登号登录后,就可以在界面最上方选择你需要使用的模型,在对话框左右分别为文件上传和语音输入功能,进行聊天了
聊天界面
备注:注意帐号和密码不要忘记
总结
- Ollama是模型运行的基础,必须先安装Ollama,再安装模型。
- Ollama支持Gemma、Llama3、Codellama、phi、Mistral等常见模型的最新版本。在终端执行ollama run llama3的形式来安装和运行模型。
- Ollma可以通过Open WebUI提供Web界面,但Open WebUI运行一般依赖Docker,你必须先为Windows安装Docker工具,才能运行。
还是有点惊喜的,除了聊天,还可以编写代码。不过也确实很耗性能,CPU/内存都100%占用了。