Ollama 上哪个模型的中文最好？

Qwen 2.5（通义千问）是目前 Ollama 上中文支持最好的模型。它由阿里巴巴开发，专门针对中文进行了优化。推荐使用 qwen2.5:7b 或 qwen2.5:14b。

运行 Ollama 需要多少内存？

最低 4GB 内存可以运行 3-4B 小模型。8GB 可以流畅运行 7B 模型。16GB 可以运行 13-14B 模型。70B 模型需要 48-64GB 内存或 GPU。

Ollama 可以用 GPU 加速吗？

可以。Ollama 原生支持 NVIDIA GPU（CUDA）和 Apple Silicon（Metal）。只需安装 NVIDIA 驱动，Ollama 会自动使用 GPU 加速，推理速度提升5-20倍。

Ollama 本地模型和 ChatGPT 比怎么样？

7B-14B 开源模型在日常对话上接近 ChatGPT-4o 水平。但在复杂推理和超长上下文方面，闭源模型仍有优势。70B+ 模型可与闭源模型媲美但硬件要求高。

国内下载 Ollama 模型很慢怎么办？

可以使用 Modelscope（魔搭社区）等国内平台下载 GGUF 格式模型文件，然后通过 ollama create 命令导入。也可以设置 OLLAMA_HOST 环境变量指向国内镜像源。

← 首页

本地AI教程

Ollama + OpenClaw 本地AI完整教程

Q: Ollama 真的完全免费吗？

是的，Ollama 是完全开源免费的软件（MIT 许可证），所有模型也是免费下载和使用的。没有任何隐藏费用、订阅费或API使用费。

使用 Ollama 在本地运行开源AI大模型，搭配 OpenClaw 打造完全免费、数据私有的AI助手。无需API密钥，无需翻墙，适合国内用户。

什么是 Ollama？

Ollama 是一个开源的本地AI模型运行工具，让你可以在自己的电脑上运行各种开源大语言模型（LLM），包括 Meta 的 Llama、阿里的 Qwen（通义千问）、深度求索的 DeepSeek 等。Ollama 提供了一个简单的命令行界面和兼容 OpenAI 格式的 API 接口，使得本地运行AI模型变得极其简单。

使用 Ollama，你不需要任何API密钥，不需要付费订阅，不需要联网 — 所有AI推理都在你本地电脑上完成。这意味着完全免费、完全隐私，你的对话数据永远不会离开你的设备。

Ollama 支持 macOS、Linux 和 Windows，安装过程只需要一行命令。下载模型也同样简单 — ollama pull qwen2.5 即可下载阿里通义千问模型并开始使用。

为什么用 Ollama + OpenClaw？

Ollama 本身只是一个模型运行工具，它提供 API 接口但没有聊天界面、没有 Telegram/Discord 集成、没有多用户管理。而 OpenClaw 是一个AI智能体框架，可以将 Ollama 的模型接入 Telegram、Discord、微信等平台，变成一个功能完整的AI助手。

两者结合的优势：

完全免费 — Ollama 运行本地模型不需要任何API密钥，OpenClaw 也是开源免费的。整套方案零成本运行。
数据隐私 — 所有AI推理在本地完成，你的对话数据、个人信息、文件内容永远不会发送到任何外部服务器。对隐私敏感的用户来说，这是最安全的方案。
无需翻墙/代理 — 与 OpenAI、Claude 等海外API不同，Ollama 在本地运行，完全不需要网络代理。国内用户可以直接使用，无任何网络限制。
适合国内用户 — 搭配 Qwen（通义千问）等国产模型，中文能力极佳。模型下载可以通过国内镜像加速，整个体验对国内用户非常友好。
多平台接入 — 通过 OpenClaw，你的本地AI模型可以接入 Telegram、Discord、Web 聊天等多个平台，随时随地与你的私有AI助手对话。
离线可用 — 模型下载完成后，即使断网也能正常使用。适合没有稳定网络的场景。

Ollama 安装教程

Ollama 支持所有主流操作系统。选择你的系统按照下面的步骤安装：

macOS 安装

macOS 用户推荐使用 Homebrew 安装，也可以从官网下载安装包：

# 方式一：Homebrew 安装（推荐）
brew install ollama

# 方式二：官网下载
# 访问 https://ollama.com/download/mac 下载 .dmg 安装包

# 安装完成后启动 Ollama
ollama serve

Homebrew 安装后，Ollama 会自动注册为后台服务。你也可以手动执行 ollama serve 启动服务。

Linux 安装

Linux 用户使用官方一键安装脚本，支持 Ubuntu、Debian、CentOS、Fedora 等主流发行版：

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

# 安装完成后启动服务
ollama serve

# 或使用 systemd 管理
sudo systemctl enable ollama
sudo systemctl start ollama

安装脚本会自动检测你的系统和 GPU 驱动，如果有 NVIDIA GPU 会自动配置 CUDA 加速。

Windows 安装

Windows 用户从官网下载安装程序：

# 1. 访问 https://ollama.com/download/windows 下载安装程序
# 2. 双击运行安装程序，按提示完成安装
# 3. 安装完成后 Ollama 会自动启动

# 验证安装
ollama --version

Windows 版本需要 Windows 10 或更高版本。如果你有 NVIDIA GPU，确保已安装最新的 NVIDIA 驱动以启用 GPU 加速。

Docker 安装

如果你更喜欢 Docker 容器化运行，Ollama 也提供官方 Docker 镜像：

# CPU 模式
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# NVIDIA GPU 模式
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 验证运行
curl http://localhost:11434/api/tags

Docker 方式特别适合服务器部署场景。如果你同时在 Docker 中运行 OpenClaw，两者可以通过 Docker 网络直接通信。

验证安装

无论使用哪种安装方式，安装完成后执行以下命令验证：

# 检查 Ollama 版本
ollama --version

# 下载并运行一个测试模型
ollama run qwen2.5:7b

# 测试 API 接口
curl http://localhost:11434/api/tags

模型名称	开发商	参数量	最适合	内存需求	中文支持
Llama 3.1	Meta	8B / 70B / 405B	通用对话、逻辑推理	8GB / 48GB / 128GB+	良好
Qwen 2.5	阿里通义千问	7B / 14B / 72B	中文对话、中文写作	8GB / 16GB / 48GB+	极佳
DeepSeek Coder V2	深度求索	16B / 236B	代码生成、编程辅助	16GB / 128GB+	优秀
Phi-3	微软	3.8B / 14B	轻量级任务、低内存设备	4GB / 16GB	良好
Mistral	Mistral AI（法国）	7B / 8x7B	高效推理、多语言	8GB / 48GB	一般

参数量	最低内存	推荐内存	适合设备
3B - 4B	4GB	8GB	轻薄笔记本、树莓派
7B - 8B	8GB	16GB	普通笔记本、台式机
13B - 14B	16GB	32GB	高配笔记本、工作站
70B	48GB	64GB+	高端工作站、服务器
405B	128GB+	256GB+	多GPU服务器

OpenClaw + Ollama 配置

将 Ollama 作为 OpenClaw 的模型后端非常简单。你需要在 OpenClaw 的配置文件中添加 Ollama 作为模型提供商，然后指定使用 Ollama 中的模型。

配置 models.providers

在 OpenClaw 的 openclaw.json 配置文件中，添加 Ollama 提供商：

{
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "endpoint": "http://localhost:11434"
      }
    }
  }
}

Docker 环境中的 endpoint 配置

如果 OpenClaw 运行在 Docker 容器中，而 Ollama 运行在宿主机上，localhost 无法访问宿主机的 Ollama 服务。需要使用特殊地址：

{
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "endpoint": "http://host.docker.internal:11434"
      }
    }
  }
}

host.docker.internal 是 Docker 提供的特殊 DNS 名称，它指向宿主机。macOS 和 Windows 的 Docker Desktop 默认支持此地址。Linux 用户需要在 docker run 时添加 --add-host=host.docker.internal:host-gateway 参数。

配置 agents.defaults.model.primary

设置默认使用的 Ollama 模型：

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5:7b"
      }
    }
  }
}

注意模型ID的格式：ollama/模型名称。前缀 ollama/ 对应 models.providers 中的提供商名称，OpenClaw 通过这个前缀路由到正确的API端点。

完整配置示例

以下是一个完整的 OpenClaw + Ollama 配置文件示例，包含 Telegram 接入：

{
  "gateway": {
    "port": 18789,
    "auth": {
      "token": "your-secret-token-here"
    }
  },
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "endpoint": "http://host.docker.internal:11434"
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5:7b"
      }
    }
  },
  "channels": {
    "telegram": {
      "enabled": true,
      "botToken": "your-telegram-bot-token",
      "dmPolicy": "pairing"
    }
  },
  "plugins": {
    "entries": {
      "telegram": {
        "enabled": true
      }
    }
  }
}

将以上内容保存为 ~/.openclaw/openclaw.json，然后启动 OpenClaw 容器即可。OpenClaw 会自动通过 Ollama API 调用你本地运行的AI模型。

常见问题排查

Docker 网络连接问题

如果 OpenClaw 容器无法连接到宿主机上的 Ollama，通常是网络配置问题：

macOS / Windows Docker Desktop — 使用 http://host.docker.internal:11434 作为 endpoint，默认支持无需额外配置。
Linux Docker — 需要添加 --add-host=host.docker.internal:host-gateway 到 docker run 命令，或者使用宿主机的实际IP地址（如 http://192.168.1.100:11434）。
Ollama 和 OpenClaw 都在 Docker 中 — 创建共享 Docker 网络：docker network create ai-net，然后两个容器都加入该网络，使用容器名作为主机名（如 http://ollama:11434）。
host 网络模式 — 也可以让 OpenClaw 容器使用 --network=host，这样容器直接使用宿主机网络，localhost 即可访问 Ollama。但这会暴露所有容器端口。

模型太大加载慢

大模型首次加载需要将模型权重从磁盘读入内存，可能需要几十秒到几分钟：

使用 SSD — 模型文件通常有几个GB到几十GB，SSD 的读取速度比 HDD 快10倍以上，能显著缩短加载时间。
选择合适的模型大小 — 不要盲目追求最大的模型。7B 模型加载只需几秒，70B 模型可能需要几分钟。根据你的硬件选择合适的模型。
预加载模型 — 执行 ollama run qwen2.5:7b 后模型会保持在内存中，后续请求无需重新加载。
设置 keep_alive — Ollama 默认在5分钟无请求后卸载模型。设置环境变量 OLLAMA_KEEP_ALIVE=-1 可以让模型永久保持在内存中。

GPU 加速配置（NVIDIA CUDA）

Ollama 支持 NVIDIA GPU 加速，可以将推理速度提升5-20倍：

安装 NVIDIA 驱动 — 确保已安装最新的 NVIDIA 驱动（nvidia-smi 能正常输出即可）。
CUDA 支持 — Ollama 自带 CUDA 运行时，不需要单独安装 CUDA Toolkit。只需要驱动即可。
Docker GPU 支持 — 如果在 Docker 中运行 Ollama，需要安装 nvidia-container-toolkit 并使用 --gpus=all 参数启动容器。
显存要求 — 模型需要的显存约等于模型文件大小。7B 模型约需 4-6GB 显存，14B 约需 8-12GB。如果显存不足，Ollama 会自动使用 CPU+GPU 混合模式。

# 检查 GPU 是否被 Ollama 识别
ollama ps

# Docker 中启用 GPU
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama

# 安装 nvidia-container-toolkit（Ubuntu）
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

内存不足

如果运行模型时出现内存不足错误：

选择更小的模型 — 从 7B 降到 3.8B（如 phi3:3.8b），内存需求减半。
使用量化版本 — Ollama 默认使用 Q4_0 量化，已经很节省内存。如果还是不够，尝试 Q2 量化版本（质量略有下降）。
关闭其他程序 — 浏览器、IDE 等程序占用大量内存。运行大模型时建议关闭不必要的程序。
增加交换空间 — Linux 上可以增加 swap 空间作为临时缓解。但 swap 上的模型推理速度会很慢，仅作应急方案。

Ollama 本地模型 vs 云端API

不确定该用本地模型还是云端API？以下是详细对比：

对比项	Ollama 本地模型	云端API（GPT、Claude等）
成本	完全免费（仅电费）	按用量付费或订阅制
响应速度	取决于硬件（GPU快/CPU慢）	通常较快且稳定
数据隐私	完全本地，数据不离开设备	数据发送到云端处理
模型质量	7B-14B 适合日常，70B+ 接近云端	最新最强的闭源模型
中文支持	Qwen 系列中文极佳	GPT、Claude 中文良好
网络要求	无需联网（模型下载后离线可用）	必须联网，国内需要代理
硬件要求	至少8GB内存，GPU可选	无硬件要求
上下文长度	通常 4K-32K tokens	最高 200K+ tokens
适合场景	隐私敏感、离线使用、免费需求	最高质量、复杂任务、长文档

总结：如果你对隐私要求高、想完全免费使用、或者网络环境不方便访问海外API，Ollama 本地模型是最佳选择。如果你追求最高质量的AI输出、需要处理超长文档、或者硬件条件有限，云端API更适合你。

不想自建？试试 OpenClaw Launch

如果你不想折腾本地部署和配置，OpenClaw Launch 提供一键云端部署方案：

10秒部署 — 无需安装任何软件，在浏览器中可视化配置，一键部署到云端。
$3/月起 — 包含免费模型额度，也支持 BYOK（自带API密钥）使用 GPT、Claude、DeepSeek 等顶级模型。
全托管服务 — 服务器维护、模型更新、安全补丁全部由平台处理，你只需要使用。
多平台接入 — 内置 Telegram、Discord、Web 聊天支持，可视化界面配置，无需编辑配置文件。
支持支付宝和微信支付 — 国内用户付款无障碍。

对于大多数用户来说，OpenClaw Launch 是最简单的方式 — 不需要高配电脑、不需要 Docker 知识、不需要管理服务器。而 Ollama 本地方案更适合有技术背景、对隐私有极高要求、或者想完全免费使用的用户。

常见问题

哪个模型的中文最好？

Qwen 2.5（通义千问）是目前 Ollama 上中文支持最好的模型。它由阿里巴巴开发，专门针对中文进行了优化，对中文成语、俗语、文化背景都能准确理解。推荐使用 qwen2.5:7b 或 qwen2.5:14b。

需要多少内存才能运行？

最低 4GB 内存可以运行 3-4B 参数的小模型（如 Phi-3 3.8B）。8GB 内存可以流畅运行 7B 模型（如 Qwen 2.5 7B）。16GB 内存可以运行 13-14B 模型。如果你想运行 70B 级别的模型，需要 48-64GB 内存或使用 GPU。

可以用 GPU 加速吗？

可以。Ollama 原生支持 NVIDIA GPU（CUDA）和 Apple Silicon（Metal）。如果你有 NVIDIA 显卡，只需要安装 NVIDIA 驱动，Ollama 会自动使用 GPU 加速。Apple M1/M2/M3/M4 芯片的 Mac 也会自动使用 GPU 加速。GPU 加速可以将推理速度提升5-20倍。

Ollama 真的完全免费吗？

是的，Ollama 是完全开源免费的软件（MIT 许可证），所有模型也是免费下载和使用的。唯一的成本是运行模型的电费和你自己的硬件。没有任何隐藏费用、订阅费或API使用费。

Ollama 模型和 ChatGPT 比怎么样？

在日常对话和简单任务上，7B-14B 的开源模型（如 Qwen 2.5 14B）已经非常接近 ChatGPT-4o 的水平。但在复杂推理、超长上下文和创意写作方面，最新的闭源模型（GPT-5、Claude Opus）仍然有明显优势。70B+ 的开源模型在大多数任务上可以与闭源模型媲美，但对硬件要求很高。

国内下载模型很慢怎么办？

可以设置 Ollama 的模型镜像。设置环境变量 OLLAMA_HOST 指向国内镜像源，或者手动下载模型文件后导入 Ollama。也可以使用 Modelscope（魔搭社区）等国内模型平台下载 GGUF 格式的模型文件，然后通过 ollama create 命令导入。