← 首页

本地AI教程

Ollama + OpenClaw 本地AI完整教程

使用 Ollama 在本地运行开源AI大模型,搭配 OpenClaw 打造完全免费、数据私有的AI助手。无需API密钥,无需翻墙,适合国内用户。

什么是 Ollama?

Ollama 是一个开源的本地AI模型运行工具,让你可以在自己的电脑上运行各种开源大语言模型(LLM),包括 Meta 的 Llama、阿里的 Qwen(通义千问)、深度求索的 DeepSeek 等。Ollama 提供了一个简单的命令行界面和兼容 OpenAI 格式的 API 接口,使得本地运行AI模型变得极其简单。

使用 Ollama,你不需要任何API密钥,不需要付费订阅,不需要联网 — 所有AI推理都在你本地电脑上完成。这意味着完全免费完全隐私,你的对话数据永远不会离开你的设备。

Ollama 支持 macOS、Linux 和 Windows,安装过程只需要一行命令。下载模型也同样简单 — ollama pull qwen2.5 即可下载阿里通义千问模型并开始使用。

为什么用 Ollama + OpenClaw?

Ollama 本身只是一个模型运行工具,它提供 API 接口但没有聊天界面、没有 Telegram/Discord 集成、没有多用户管理。而 OpenClaw 是一个AI智能体框架,可以将 Ollama 的模型接入 Telegram、Discord、微信等平台,变成一个功能完整的AI助手。

两者结合的优势:

  • 完全免费 — Ollama 运行本地模型不需要任何API密钥,OpenClaw 也是开源免费的。整套方案零成本运行。
  • 数据隐私 — 所有AI推理在本地完成,你的对话数据、个人信息、文件内容永远不会发送到任何外部服务器。对隐私敏感的用户来说,这是最安全的方案。
  • 无需翻墙/代理 — 与 OpenAI、Claude 等海外API不同,Ollama 在本地运行,完全不需要网络代理。国内用户可以直接使用,无任何网络限制。
  • 适合国内用户 — 搭配 Qwen(通义千问)等国产模型,中文能力极佳。模型下载可以通过国内镜像加速,整个体验对国内用户非常友好。
  • 多平台接入 — 通过 OpenClaw,你的本地AI模型可以接入 Telegram、Discord、Web 聊天等多个平台,随时随地与你的私有AI助手对话。
  • 离线可用 — 模型下载完成后,即使断网也能正常使用。适合没有稳定网络的场景。

Ollama 安装教程

Ollama 支持所有主流操作系统。选择你的系统按照下面的步骤安装:

macOS 安装

macOS 用户推荐使用 Homebrew 安装,也可以从官网下载安装包:

# 方式一:Homebrew 安装(推荐)
brew install ollama

# 方式二:官网下载
# 访问 https://ollama.com/download/mac 下载 .dmg 安装包

# 安装完成后启动 Ollama
ollama serve

Homebrew 安装后,Ollama 会自动注册为后台服务。你也可以手动执行 ollama serve 启动服务。

Linux 安装

Linux 用户使用官方一键安装脚本,支持 Ubuntu、Debian、CentOS、Fedora 等主流发行版:

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

# 安装完成后启动服务
ollama serve

# 或使用 systemd 管理
sudo systemctl enable ollama
sudo systemctl start ollama

安装脚本会自动检测你的系统和 GPU 驱动,如果有 NVIDIA GPU 会自动配置 CUDA 加速。

Windows 安装

Windows 用户从官网下载安装程序:

# 1. 访问 https://ollama.com/download/windows 下载安装程序
# 2. 双击运行安装程序,按提示完成安装
# 3. 安装完成后 Ollama 会自动启动

# 验证安装
ollama --version

Windows 版本需要 Windows 10 或更高版本。如果你有 NVIDIA GPU,确保已安装最新的 NVIDIA 驱动以启用 GPU 加速。

Docker 安装

如果你更喜欢 Docker 容器化运行,Ollama 也提供官方 Docker 镜像:

# CPU 模式
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# NVIDIA GPU 模式
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 验证运行
curl http://localhost:11434/api/tags

Docker 方式特别适合服务器部署场景。如果你同时在 Docker 中运行 OpenClaw,两者可以通过 Docker 网络直接通信。

验证安装

无论使用哪种安装方式,安装完成后执行以下命令验证:

# 检查 Ollama 版本
ollama --version

# 下载并运行一个测试模型
ollama run qwen2.5:7b

# 测试 API 接口
curl http://localhost:11434/api/tags

推荐模型

Ollama 支持数百个开源模型。以下是我们为中文用户推荐的模型,按使用场景分类:

模型名称开发商参数量最适合内存需求中文支持
Llama 3.1Meta8B / 70B / 405B通用对话、逻辑推理8GB / 48GB / 128GB+良好
Qwen 2.5阿里通义千问7B / 14B / 72B中文对话、中文写作8GB / 16GB / 48GB+极佳
DeepSeek Coder V2深度求索16B / 236B代码生成、编程辅助16GB / 128GB+优秀
Phi-3微软3.8B / 14B轻量级任务、低内存设备4GB / 16GB良好
MistralMistral AI(法国)7B / 8x7B高效推理、多语言8GB / 48GB一般

模型大小与内存要求

选择模型时,内存(RAM)是最重要的限制因素。以下是参数量与内存需求的对应关系:

参数量最低内存推荐内存适合设备
3B - 4B4GB8GB轻薄笔记本、树莓派
7B - 8B8GB16GB普通笔记本、台式机
13B - 14B16GB32GB高配笔记本、工作站
70B48GB64GB+高端工作站、服务器
405B128GB+256GB+多GPU服务器

中文用户推荐:如果你的电脑有 16GB 内存,推荐使用 qwen2.5:7b(通义千问 7B),中文能力极佳且运行流畅。如果内存更充裕(32GB+),可以尝试 qwen2.5:14b 获得更好的效果。

下载模型

# 下载通义千问 7B(中文推荐)
ollama pull qwen2.5:7b

# 下载 Llama 3.1 8B(通用推荐)
ollama pull llama3.1:8b

# 下载 DeepSeek Coder(编程推荐)
ollama pull deepseek-coder-v2:16b

# 下载 Phi-3(轻量推荐,低内存设备)
ollama pull phi3:3.8b

# 下载 Mistral 7B(高效推荐)
ollama pull mistral:7b

# 查看已下载的模型
ollama list

OpenClaw + Ollama 配置

将 Ollama 作为 OpenClaw 的模型后端非常简单。你需要在 OpenClaw 的配置文件中添加 Ollama 作为模型提供商,然后指定使用 Ollama 中的模型。

配置 models.providers

在 OpenClaw 的 openclaw.json 配置文件中,添加 Ollama 提供商:

{
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "endpoint": "http://localhost:11434"
      }
    }
  }
}

Docker 环境中的 endpoint 配置

如果 OpenClaw 运行在 Docker 容器中,而 Ollama 运行在宿主机上,localhost 无法访问宿主机的 Ollama 服务。需要使用特殊地址:

{
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "endpoint": "http://host.docker.internal:11434"
      }
    }
  }
}

host.docker.internal 是 Docker 提供的特殊 DNS 名称,它指向宿主机。macOS 和 Windows 的 Docker Desktop 默认支持此地址。Linux 用户需要在 docker run 时添加 --add-host=host.docker.internal:host-gateway 参数。

配置 agents.defaults.model.primary

设置默认使用的 Ollama 模型:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5:7b"
      }
    }
  }
}

注意模型ID的格式:ollama/模型名称。前缀 ollama/ 对应 models.providers 中的提供商名称,OpenClaw 通过这个前缀路由到正确的API端点。

完整配置示例

以下是一个完整的 OpenClaw + Ollama 配置文件示例,包含 Telegram 接入:

{
  "gateway": {
    "port": 18789,
    "auth": {
      "token": "your-secret-token-here"
    }
  },
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "endpoint": "http://host.docker.internal:11434"
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5:7b"
      }
    }
  },
  "channels": {
    "telegram": {
      "enabled": true,
      "botToken": "your-telegram-bot-token",
      "dmPolicy": "pairing"
    }
  },
  "plugins": {
    "entries": {
      "telegram": {
        "enabled": true
      }
    }
  }
}

将以上内容保存为 ~/.openclaw/openclaw.json,然后启动 OpenClaw 容器即可。OpenClaw 会自动通过 Ollama API 调用你本地运行的AI模型。

常见问题排查

Docker 网络连接问题

如果 OpenClaw 容器无法连接到宿主机上的 Ollama,通常是网络配置问题:

  • macOS / Windows Docker Desktop — 使用 http://host.docker.internal:11434 作为 endpoint,默认支持无需额外配置。
  • Linux Docker — 需要添加 --add-host=host.docker.internal:host-gatewaydocker run 命令,或者使用宿主机的实际IP地址(如 http://192.168.1.100:11434)。
  • Ollama 和 OpenClaw 都在 Docker 中 — 创建共享 Docker 网络:docker network create ai-net,然后两个容器都加入该网络,使用容器名作为主机名(如 http://ollama:11434)。
  • host 网络模式 — 也可以让 OpenClaw 容器使用 --network=host,这样容器直接使用宿主机网络,localhost 即可访问 Ollama。但这会暴露所有容器端口。

模型太大加载慢

大模型首次加载需要将模型权重从磁盘读入内存,可能需要几十秒到几分钟:

  • 使用 SSD — 模型文件通常有几个GB到几十GB,SSD 的读取速度比 HDD 快10倍以上,能显著缩短加载时间。
  • 选择合适的模型大小 — 不要盲目追求最大的模型。7B 模型加载只需几秒,70B 模型可能需要几分钟。根据你的硬件选择合适的模型。
  • 预加载模型 — 执行 ollama run qwen2.5:7b 后模型会保持在内存中,后续请求无需重新加载。
  • 设置 keep_alive — Ollama 默认在5分钟无请求后卸载模型。设置环境变量 OLLAMA_KEEP_ALIVE=-1 可以让模型永久保持在内存中。

GPU 加速配置(NVIDIA CUDA)

Ollama 支持 NVIDIA GPU 加速,可以将推理速度提升5-20倍:

  • 安装 NVIDIA 驱动 — 确保已安装最新的 NVIDIA 驱动(nvidia-smi 能正常输出即可)。
  • CUDA 支持 — Ollama 自带 CUDA 运行时,不需要单独安装 CUDA Toolkit。只需要驱动即可。
  • Docker GPU 支持 — 如果在 Docker 中运行 Ollama,需要安装 nvidia-container-toolkit 并使用 --gpus=all 参数启动容器。
  • 显存要求 — 模型需要的显存约等于模型文件大小。7B 模型约需 4-6GB 显存,14B 约需 8-12GB。如果显存不足,Ollama 会自动使用 CPU+GPU 混合模式。
# 检查 GPU 是否被 Ollama 识别
ollama ps

# Docker 中启用 GPU
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama

# 安装 nvidia-container-toolkit(Ubuntu)
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

内存不足

如果运行模型时出现内存不足错误:

  • 选择更小的模型 — 从 7B 降到 3.8B(如 phi3:3.8b),内存需求减半。
  • 使用量化版本 — Ollama 默认使用 Q4_0 量化,已经很节省内存。如果还是不够,尝试 Q2 量化版本(质量略有下降)。
  • 关闭其他程序 — 浏览器、IDE 等程序占用大量内存。运行大模型时建议关闭不必要的程序。
  • 增加交换空间 — Linux 上可以增加 swap 空间作为临时缓解。但 swap 上的模型推理速度会很慢,仅作应急方案。

Ollama 本地模型 vs 云端API

不确定该用本地模型还是云端API?以下是详细对比:

对比项Ollama 本地模型云端API(GPT、Claude等)
成本完全免费(仅电费)按用量付费或订阅制
响应速度取决于硬件(GPU快/CPU慢)通常较快且稳定
数据隐私完全本地,数据不离开设备数据发送到云端处理
模型质量7B-14B 适合日常,70B+ 接近云端最新最强的闭源模型
中文支持Qwen 系列中文极佳GPT、Claude 中文良好
网络要求无需联网(模型下载后离线可用)必须联网,国内需要代理
硬件要求至少8GB内存,GPU可选无硬件要求
上下文长度通常 4K-32K tokens最高 200K+ tokens
适合场景隐私敏感、离线使用、免费需求最高质量、复杂任务、长文档

总结:如果你对隐私要求高、想完全免费使用、或者网络环境不方便访问海外API,Ollama 本地模型是最佳选择。如果你追求最高质量的AI输出、需要处理超长文档、或者硬件条件有限,云端API更适合你。

不想自建?试试 OpenClaw Launch

如果你不想折腾本地部署和配置,OpenClaw Launch 提供一键云端部署方案:

  • 10秒部署 — 无需安装任何软件,在浏览器中可视化配置,一键部署到云端。
  • $3/月起 — 包含免费模型额度,也支持 BYOK(自带API密钥)使用 GPT、Claude、DeepSeek 等顶级模型。
  • 全托管服务 — 服务器维护、模型更新、安全补丁全部由平台处理,你只需要使用。
  • 多平台接入 — 内置 Telegram、Discord、Web 聊天支持,可视化界面配置,无需编辑配置文件。
  • 支持支付宝和微信支付 — 国内用户付款无障碍。

对于大多数用户来说,OpenClaw Launch 是最简单的方式 — 不需要高配电脑、不需要 Docker 知识、不需要管理服务器。而 Ollama 本地方案更适合有技术背景、对隐私有极高要求、或者想完全免费使用的用户。

常见问题

哪个模型的中文最好?

Qwen 2.5(通义千问)是目前 Ollama 上中文支持最好的模型。它由阿里巴巴开发,专门针对中文进行了优化,对中文成语、俗语、文化背景都能准确理解。推荐使用 qwen2.5:7bqwen2.5:14b

需要多少内存才能运行?

最低 4GB 内存可以运行 3-4B 参数的小模型(如 Phi-3 3.8B)。8GB 内存可以流畅运行 7B 模型(如 Qwen 2.5 7B)。16GB 内存可以运行 13-14B 模型。如果你想运行 70B 级别的模型,需要 48-64GB 内存或使用 GPU。

可以用 GPU 加速吗?

可以。Ollama 原生支持 NVIDIA GPU(CUDA)和 Apple Silicon(Metal)。如果你有 NVIDIA 显卡,只需要安装 NVIDIA 驱动,Ollama 会自动使用 GPU 加速。Apple M1/M2/M3/M4 芯片的 Mac 也会自动使用 GPU 加速。GPU 加速可以将推理速度提升5-20倍。

Ollama 真的完全免费吗?

是的,Ollama 是完全开源免费的软件(MIT 许可证),所有模型也是免费下载和使用的。唯一的成本是运行模型的电费和你自己的硬件。没有任何隐藏费用、订阅费或API使用费。

Ollama 模型和 ChatGPT 比怎么样?

在日常对话和简单任务上,7B-14B 的开源模型(如 Qwen 2.5 14B)已经非常接近 ChatGPT-4o 的水平。但在复杂推理、超长上下文和创意写作方面,最新的闭源模型(GPT-5、Claude Opus)仍然有明显优势。70B+ 的开源模型在大多数任务上可以与闭源模型媲美,但对硬件要求很高。

国内下载模型很慢怎么办?

可以设置 Ollama 的模型镜像。设置环境变量 OLLAMA_HOST 指向国内镜像源,或者手动下载模型文件后导入 Ollama。也可以使用 Modelscope(魔搭社区)等国内模型平台下载 GGUF 格式的模型文件,然后通过 ollama create 命令导入。

立即体验AI助手

不想折腾?OpenClaw Launch 一键云端部署,10秒上线。$3/月起,支持支付宝和微信支付。

开始部署