目 录CONTENT

文章目录

OpenClaw + Ollama 本地部署

过客
2026-03-31 / 0 评论 / 1 点赞 / 3 阅读 / 0 字

国内各大厂的CodingPlan计划都在收紧涨价,免费的API,国内免费几千万额度还不够OpenClaw几分钟折腾的,国外一些无限额度存在超时不稳定情况,于是想本地搭建一个试试。

一、为什么本地部署?

简单来说就三个理由:

  1. 数据不出内网 :所有对话、文件、知识库都在本地,不用担心隐私泄露
  2. 零 API 成本 :模型跑在自己机器上,随便用不花钱
  3. 离线可用 :没网也能用,适合对数据敏感的场景

当然,代价是你得有自己的硬件,并且模型能力取决于你买的显卡。

二、硬件配置与模型选择

硬件门槛

配置等级 GPU 显存 内存 可运行模型
入门 无 (仅 CPU) - 16GB+ Qwen3.5-0.8B/2B
推荐 RTX 3060/4060 12GB 32GB Qwen3.5-4B/9B
高端 RTX 3090/4090 24GB 64GB Qwen3.5-27B/35B
Mac M1/M2/M3 统一内存 16GB+ 各种 7B-14B 模型

我的配置​: RTX 3060 12GB + 32GB 内存,跑 Qwen3.5-9B 够用,选它的理由是中文能力好,日常对话、基础指令、写作辅助都还不错,可以做小龙虾的基础模型使用。

三、Ollama 安装步骤

进入官网https://ollama.com/download

Linux (Ubuntu/Debian)

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 启动服务(后台运行)
ollama serve

# 设置开机自启
sudo systemctl enable ollama
sudo systemctl start ollama

macOS

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 或者下载官方 App
# https://ollama.com/download/mac

Windows

# 一键安装
irm https://ollama.com/install.ps1 | iex

# 或者下载官方 App
# https://ollama.com/download/windows
```### 拉取模型

可以去官网`https://ollama.com/search`查看可用的模型,这里以**Qwen3.5-9B**为例

![](/upload/20260331-105911.png)

```bash
# 下载 Qwen3.5-9B
ollama pull qwen3.5:9b

# 查看已下载模型
ollama list

测试运行

# 交互式对话
ollama run qwen3.5:9b

# 单次问答
ollama run qwen3.5:9b "你好,请介绍一下自己"

# 查看服务状态
curl http://localhost:11434/api/tags

四、OpenClaw 配置 Ollama

修改配置

编辑 ~/.openclaw/config.json

{
  "providers": {
    "ollama": {
      "baseUrl": "http://192.168.1.5:11434/v1", #我这小龙虾和ollama不在同一设备上
	  "apiKey": "",    # 没有密钥,留空
	  "api": "openai-completions",
      "models": [
        {
          "id": "qwen3.5:9b",
          "name": "Qwen 3.5 9B",
          "contextWindow": 524288,
          "maxTokens": 262144  # qwen3.5 9b最大支持256Ktoken
        }
      ]
    },
	"bailian": {
      "baseUrl": "https://coding.dashscope.aliyuncs.com/v1",
      "apiKey": "这里是百炼CodingPlan的Key",
      "api": "openai-completions",
      "models": [
        {
          "id": "qwen3.5-plus",
          "name": "qwen3.5 plus",
          "contextWindow": 2097152,
          "maxTokens": 1048576
        }
      ]
    }
  },
  "agents": {
    "defaults": {
      "model": {
	    "primary": "ollama/qwen3.5:9b",
        "fallbacks": [
          "bailian/qwen3.5-plus" # 备用百炼模型
        ]
	  }
    }
  }
}

测试

我是配置到New-API中转使用的,切换到qwen3.5:9b模型,输入文本测试。在Ollama中测试,感觉输出挺快的,但是放到OpenClaw中就发了一个“你好,测试一下模型”,结果输入Token 36k+,输出卡到怀疑人生(以上本人测试,数据仅提参考)

分析优化

可以看出显存炸了,内存飙升(应该用了共享GPU内存)。从网上资料来看,对于 Qwen3.5-9B 这样的模型,每 1k 输入 Token 大约会消耗 200-300MB 的显存用于 KV Cache,36k tokens 约占 7~10GB 显存,加上基础模型占用6G左右,已经超过12G显存了。

解决办法:

    1. 换成4B模型,这个基本不卡,输出几秒时间,“智商”有点弱,日常对话简单任务还行,偶尔会“犯傻”。
    1. 修改裁剪大小,把输入Token限制在10k以内,但是加点技能历史记录什么的分分钟超这个值,对话裁剪都很难裁掉。

五、结论

没有好硬件还是不要给OpenClaw用本地模型,qwen3.5 4b有点弱,给OpenClaw基础日常用9b是基础,显卡得3090/4090才流畅。听说微软最近推出了BitNet以1.58-bit三值量化技术,可以降低显卡要求,有空了折腾一下怎么玩。

1
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区