本地AI教程
Ollama + OpenClaw 本地AI完整教程
使用 Ollama 在本地运行开源AI大模型,搭配 OpenClaw 打造完全免费、数据私有的AI助手。无需API密钥,无需翻墙,适合国内用户。
什么是 Ollama?
Ollama 是一个开源的本地AI模型运行工具,让你可以在自己的电脑上运行各种开源大语言模型(LLM),包括 Meta 的 Llama、阿里的 Qwen(通义千问)、深度求索的 DeepSeek 等。Ollama 提供了一个简单的命令行界面和兼容 OpenAI 格式的 API 接口,使得本地运行AI模型变得极其简单。
使用 Ollama,你不需要任何API密钥,不需要付费订阅,不需要联网 — 所有AI推理都在你本地电脑上完成。这意味着完全免费、完全隐私,你的对话数据永远不会离开你的设备。
Ollama 支持 macOS、Linux 和 Windows,安装过程只需要一行命令。下载模型也同样简单 — ollama pull qwen2.5 即可下载阿里通义千问模型并开始使用。
为什么用 Ollama + OpenClaw?
Ollama 本身只是一个模型运行工具,它提供 API 接口但没有聊天界面、没有 Telegram/Discord 集成、没有多用户管理。而 OpenClaw 是一个AI智能体框架,可以将 Ollama 的模型接入 Telegram、Discord、微信等平台,变成一个功能完整的AI助手。
两者结合的优势:
- 完全免费 — Ollama 运行本地模型不需要任何API密钥,OpenClaw 也是开源免费的。整套方案零成本运行。
- 数据隐私 — 所有AI推理在本地完成,你的对话数据、个人信息、文件内容永远不会发送到任何外部服务器。对隐私敏感的用户来说,这是最安全的方案。
- 无需翻墙/代理 — 与 OpenAI、Claude 等海外API不同,Ollama 在本地运行,完全不需要网络代理。国内用户可以直接使用,无任何网络限制。
- 适合国内用户 — 搭配 Qwen(通义千问)等国产模型,中文能力极佳。模型下载可以通过国内镜像加速,整个体验对国内用户非常友好。
- 多平台接入 — 通过 OpenClaw,你的本地AI模型可以接入 Telegram、Discord、Web 聊天等多个平台,随时随地与你的私有AI助手对话。
- 离线可用 — 模型下载完成后,即使断网也能正常使用。适合没有稳定网络的场景。
Ollama 安装教程
Ollama 支持所有主流操作系统。选择你的系统按照下面的步骤安装:
macOS 安装
macOS 用户推荐使用 Homebrew 安装,也可以从官网下载安装包:
# 方式一:Homebrew 安装(推荐)
brew install ollama
# 方式二:官网下载
# 访问 https://ollama.com/download/mac 下载 .dmg 安装包
# 安装完成后启动 Ollama
ollama serveHomebrew 安装后,Ollama 会自动注册为后台服务。你也可以手动执行 ollama serve 启动服务。
Linux 安装
Linux 用户使用官方一键安装脚本,支持 Ubuntu、Debian、CentOS、Fedora 等主流发行版:
# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh
# 安装完成后启动服务
ollama serve
# 或使用 systemd 管理
sudo systemctl enable ollama
sudo systemctl start ollama安装脚本会自动检测你的系统和 GPU 驱动,如果有 NVIDIA GPU 会自动配置 CUDA 加速。
Windows 安装
Windows 用户从官网下载安装程序:
# 1. 访问 https://ollama.com/download/windows 下载安装程序
# 2. 双击运行安装程序,按提示完成安装
# 3. 安装完成后 Ollama 会自动启动
# 验证安装
ollama --versionWindows 版本需要 Windows 10 或更高版本。如果你有 NVIDIA GPU,确保已安装最新的 NVIDIA 驱动以启用 GPU 加速。
Docker 安装
如果你更喜欢 Docker 容器化运行,Ollama 也提供官方 Docker 镜像:
# CPU 模式
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# NVIDIA GPU 模式
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# 验证运行
curl http://localhost:11434/api/tagsDocker 方式特别适合服务器部署场景。如果你同时在 Docker 中运行 OpenClaw,两者可以通过 Docker 网络直接通信。
验证安装
无论使用哪种安装方式,安装完成后执行以下命令验证:
# 检查 Ollama 版本
ollama --version
# 下载并运行一个测试模型
ollama run qwen2.5:7b
# 测试 API 接口
curl http://localhost:11434/api/tags推荐模型
Ollama 支持数百个开源模型。以下是我们为中文用户推荐的模型,按使用场景分类:
| 模型名称 | 开发商 | 参数量 | 最适合 | 内存需求 | 中文支持 |
|---|---|---|---|---|---|
| Llama 3.1 | Meta | 8B / 70B / 405B | 通用对话、逻辑推理 | 8GB / 48GB / 128GB+ | 良好 |
| Qwen 2.5 | 阿里通义千问 | 7B / 14B / 72B | 中文对话、中文写作 | 8GB / 16GB / 48GB+ | 极佳 |
| DeepSeek Coder V2 | 深度求索 | 16B / 236B | 代码生成、编程辅助 | 16GB / 128GB+ | 优秀 |
| Phi-3 | 微软 | 3.8B / 14B | 轻量级任务、低内存设备 | 4GB / 16GB | 良好 |
| Mistral | Mistral AI(法国) | 7B / 8x7B | 高效推理、多语言 | 8GB / 48GB | 一般 |
模型大小与内存要求
选择模型时,内存(RAM)是最重要的限制因素。以下是参数量与内存需求的对应关系:
| 参数量 | 最低内存 | 推荐内存 | 适合设备 |
|---|---|---|---|
| 3B - 4B | 4GB | 8GB | 轻薄笔记本、树莓派 |
| 7B - 8B | 8GB | 16GB | 普通笔记本、台式机 |
| 13B - 14B | 16GB | 32GB | 高配笔记本、工作站 |
| 70B | 48GB | 64GB+ | 高端工作站、服务器 |
| 405B | 128GB+ | 256GB+ | 多GPU服务器 |
中文用户推荐:如果你的电脑有 16GB 内存,推荐使用 qwen2.5:7b(通义千问 7B),中文能力极佳且运行流畅。如果内存更充裕(32GB+),可以尝试 qwen2.5:14b 获得更好的效果。
下载模型
# 下载通义千问 7B(中文推荐)
ollama pull qwen2.5:7b
# 下载 Llama 3.1 8B(通用推荐)
ollama pull llama3.1:8b
# 下载 DeepSeek Coder(编程推荐)
ollama pull deepseek-coder-v2:16b
# 下载 Phi-3(轻量推荐,低内存设备)
ollama pull phi3:3.8b
# 下载 Mistral 7B(高效推荐)
ollama pull mistral:7b
# 查看已下载的模型
ollama listOpenClaw + Ollama 配置
将 Ollama 作为 OpenClaw 的模型后端非常简单。你需要在 OpenClaw 的配置文件中添加 Ollama 作为模型提供商,然后指定使用 Ollama 中的模型。
配置 models.providers
在 OpenClaw 的 openclaw.json 配置文件中,添加 Ollama 提供商:
{
"models": {
"providers": {
"ollama": {
"type": "ollama",
"endpoint": "http://localhost:11434"
}
}
}
}Docker 环境中的 endpoint 配置
如果 OpenClaw 运行在 Docker 容器中,而 Ollama 运行在宿主机上,localhost 无法访问宿主机的 Ollama 服务。需要使用特殊地址:
{
"models": {
"providers": {
"ollama": {
"type": "ollama",
"endpoint": "http://host.docker.internal:11434"
}
}
}
}host.docker.internal 是 Docker 提供的特殊 DNS 名称,它指向宿主机。macOS 和 Windows 的 Docker Desktop 默认支持此地址。Linux 用户需要在 docker run 时添加 --add-host=host.docker.internal:host-gateway 参数。
配置 agents.defaults.model.primary
设置默认使用的 Ollama 模型:
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5:7b"
}
}
}
}注意模型ID的格式:ollama/模型名称。前缀 ollama/ 对应 models.providers 中的提供商名称,OpenClaw 通过这个前缀路由到正确的API端点。
完整配置示例
以下是一个完整的 OpenClaw + Ollama 配置文件示例,包含 Telegram 接入:
{
"gateway": {
"port": 18789,
"auth": {
"token": "your-secret-token-here"
}
},
"models": {
"providers": {
"ollama": {
"type": "ollama",
"endpoint": "http://host.docker.internal:11434"
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5:7b"
}
}
},
"channels": {
"telegram": {
"enabled": true,
"botToken": "your-telegram-bot-token",
"dmPolicy": "pairing"
}
},
"plugins": {
"entries": {
"telegram": {
"enabled": true
}
}
}
}将以上内容保存为 ~/.openclaw/openclaw.json,然后启动 OpenClaw 容器即可。OpenClaw 会自动通过 Ollama API 调用你本地运行的AI模型。
常见问题排查
Docker 网络连接问题
如果 OpenClaw 容器无法连接到宿主机上的 Ollama,通常是网络配置问题:
- macOS / Windows Docker Desktop — 使用
http://host.docker.internal:11434作为 endpoint,默认支持无需额外配置。 - Linux Docker — 需要添加
--add-host=host.docker.internal:host-gateway到docker run命令,或者使用宿主机的实际IP地址(如http://192.168.1.100:11434)。 - Ollama 和 OpenClaw 都在 Docker 中 — 创建共享 Docker 网络:
docker network create ai-net,然后两个容器都加入该网络,使用容器名作为主机名(如http://ollama:11434)。 - host 网络模式 — 也可以让 OpenClaw 容器使用
--network=host,这样容器直接使用宿主机网络,localhost即可访问 Ollama。但这会暴露所有容器端口。
模型太大加载慢
大模型首次加载需要将模型权重从磁盘读入内存,可能需要几十秒到几分钟:
- 使用 SSD — 模型文件通常有几个GB到几十GB,SSD 的读取速度比 HDD 快10倍以上,能显著缩短加载时间。
- 选择合适的模型大小 — 不要盲目追求最大的模型。7B 模型加载只需几秒,70B 模型可能需要几分钟。根据你的硬件选择合适的模型。
- 预加载模型 — 执行
ollama run qwen2.5:7b后模型会保持在内存中,后续请求无需重新加载。 - 设置 keep_alive — Ollama 默认在5分钟无请求后卸载模型。设置环境变量
OLLAMA_KEEP_ALIVE=-1可以让模型永久保持在内存中。
GPU 加速配置(NVIDIA CUDA)
Ollama 支持 NVIDIA GPU 加速,可以将推理速度提升5-20倍:
- 安装 NVIDIA 驱动 — 确保已安装最新的 NVIDIA 驱动(
nvidia-smi能正常输出即可)。 - CUDA 支持 — Ollama 自带 CUDA 运行时,不需要单独安装 CUDA Toolkit。只需要驱动即可。
- Docker GPU 支持 — 如果在 Docker 中运行 Ollama,需要安装
nvidia-container-toolkit并使用--gpus=all参数启动容器。 - 显存要求 — 模型需要的显存约等于模型文件大小。7B 模型约需 4-6GB 显存,14B 约需 8-12GB。如果显存不足,Ollama 会自动使用 CPU+GPU 混合模式。
# 检查 GPU 是否被 Ollama 识别
ollama ps
# Docker 中启用 GPU
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
# 安装 nvidia-container-toolkit(Ubuntu)
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker内存不足
如果运行模型时出现内存不足错误:
- 选择更小的模型 — 从 7B 降到 3.8B(如
phi3:3.8b),内存需求减半。 - 使用量化版本 — Ollama 默认使用 Q4_0 量化,已经很节省内存。如果还是不够,尝试 Q2 量化版本(质量略有下降)。
- 关闭其他程序 — 浏览器、IDE 等程序占用大量内存。运行大模型时建议关闭不必要的程序。
- 增加交换空间 — Linux 上可以增加 swap 空间作为临时缓解。但 swap 上的模型推理速度会很慢,仅作应急方案。
Ollama 本地模型 vs 云端API
不确定该用本地模型还是云端API?以下是详细对比:
| 对比项 | Ollama 本地模型 | 云端API(GPT、Claude等) |
|---|---|---|
| 成本 | 完全免费(仅电费) | 按用量付费或订阅制 |
| 响应速度 | 取决于硬件(GPU快/CPU慢) | 通常较快且稳定 |
| 数据隐私 | 完全本地,数据不离开设备 | 数据发送到云端处理 |
| 模型质量 | 7B-14B 适合日常,70B+ 接近云端 | 最新最强的闭源模型 |
| 中文支持 | Qwen 系列中文极佳 | GPT、Claude 中文良好 |
| 网络要求 | 无需联网(模型下载后离线可用) | 必须联网,国内需要代理 |
| 硬件要求 | 至少8GB内存,GPU可选 | 无硬件要求 |
| 上下文长度 | 通常 4K-32K tokens | 最高 200K+ tokens |
| 适合场景 | 隐私敏感、离线使用、免费需求 | 最高质量、复杂任务、长文档 |
总结:如果你对隐私要求高、想完全免费使用、或者网络环境不方便访问海外API,Ollama 本地模型是最佳选择。如果你追求最高质量的AI输出、需要处理超长文档、或者硬件条件有限,云端API更适合你。
不想自建?试试 OpenClaw Launch
如果你不想折腾本地部署和配置,OpenClaw Launch 提供一键云端部署方案:
- 10秒部署 — 无需安装任何软件,在浏览器中可视化配置,一键部署到云端。
- $3/月起 — 包含免费模型额度,也支持 BYOK(自带API密钥)使用 GPT、Claude、DeepSeek 等顶级模型。
- 全托管服务 — 服务器维护、模型更新、安全补丁全部由平台处理,你只需要使用。
- 多平台接入 — 内置 Telegram、Discord、Web 聊天支持,可视化界面配置,无需编辑配置文件。
- 支持支付宝和微信支付 — 国内用户付款无障碍。
对于大多数用户来说,OpenClaw Launch 是最简单的方式 — 不需要高配电脑、不需要 Docker 知识、不需要管理服务器。而 Ollama 本地方案更适合有技术背景、对隐私有极高要求、或者想完全免费使用的用户。
常见问题
哪个模型的中文最好?
Qwen 2.5(通义千问)是目前 Ollama 上中文支持最好的模型。它由阿里巴巴开发,专门针对中文进行了优化,对中文成语、俗语、文化背景都能准确理解。推荐使用 qwen2.5:7b 或 qwen2.5:14b。
需要多少内存才能运行?
最低 4GB 内存可以运行 3-4B 参数的小模型(如 Phi-3 3.8B)。8GB 内存可以流畅运行 7B 模型(如 Qwen 2.5 7B)。16GB 内存可以运行 13-14B 模型。如果你想运行 70B 级别的模型,需要 48-64GB 内存或使用 GPU。
可以用 GPU 加速吗?
可以。Ollama 原生支持 NVIDIA GPU(CUDA)和 Apple Silicon(Metal)。如果你有 NVIDIA 显卡,只需要安装 NVIDIA 驱动,Ollama 会自动使用 GPU 加速。Apple M1/M2/M3/M4 芯片的 Mac 也会自动使用 GPU 加速。GPU 加速可以将推理速度提升5-20倍。
Ollama 真的完全免费吗?
是的,Ollama 是完全开源免费的软件(MIT 许可证),所有模型也是免费下载和使用的。唯一的成本是运行模型的电费和你自己的硬件。没有任何隐藏费用、订阅费或API使用费。
Ollama 模型和 ChatGPT 比怎么样?
在日常对话和简单任务上,7B-14B 的开源模型(如 Qwen 2.5 14B)已经非常接近 ChatGPT-4o 的水平。但在复杂推理、超长上下文和创意写作方面,最新的闭源模型(GPT-5、Claude Opus)仍然有明显优势。70B+ 的开源模型在大多数任务上可以与闭源模型媲美,但对硬件要求很高。
国内下载模型很慢怎么办?
可以设置 Ollama 的模型镜像。设置环境变量 OLLAMA_HOST 指向国内镜像源,或者手动下载模型文件后导入 Ollama。也可以使用 Modelscope(魔搭社区)等国内模型平台下载 GGUF 格式的模型文件,然后通过 ollama create 命令导入。