vLLM模型使用OpenClaw体验

IcyFeather · 2026 年3 月 17 日 03:27

前言

在本地部署了大模型后，如何高效地调用模型进行自动化任务成为了一个关键问题。OpenClaw 是一个强大的 AI 自动化框架，支持多种模型提供商。本文记录了使用 vLLM 部署的模型配合 OpenClaw 的完整配置过程。

环境信息

操作系统: Ubuntu 24.04 (Linux 6.14)
OpenClaw 版本: 2026.1.29
模型部署: vLLM
Node.js: v22.22.0 (通过 nvm 管理)

vLLM 模型部署

使用 vLLM 部署模型非常方便，支持 OpenAI 兼容的 API 格式：

# 启动 vLLM 服务
python -m vllm.entrypoints.openai.api_server \
    --model <your-model-name> \
    --host 0.0.0.0 \
    --port 8000

vLLM 默认提供兼容 OpenAI API 的接口地址：http://localhost:8000/v1

OpenClaw 配置

OpenClaw 的配置文件位于 ~/.openclaw/openclaw.json，以下是关键配置：

1. 模型提供商配置

{
  "models": {
    "mode": "merge",
    "providers": {
      "self": {
        "baseUrl": "http://localhost:8000/v1",
        "apiKey": "token-xxx",
        "api": "openai-completions",
        "models": [
          {
            "id": "your-model-id",
            "name": "your-model-name",
            "reasoning": false,
            "input": ["text"],
            "cost": {
              "input": 0,
              "output": 0,
              "cacheRead": 0,
              "cacheWrite": 0
            },
            "contextWindow": 200000,
            "maxTokens": 8192
          }
        ]
      }
    }
  }
}

配置说明：

baseUrl: vLLM 服务的地址
apiKey: 可以自定义任意字符串（本地服务不需要真实 API key）
models.id: 模型的标识符，后面会用到
contextWindow: 上下文窗口大小，根据模型能力设置
maxTokens: 最大输出 tokens

2. Agent 默认模型配置

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "self/your-model-id"
      },
      "models": {
        "self/your-model-id": {}
      },
      "maxConcurrent": 4,
      "subagents": {
        "maxConcurrent": 8
      }
    }
  }
}

3. Gateway 配置

{
  "gateway": {
    "port": 18789,
    "mode": "local",
    "bind": "loopback",
    "auth": {
      "mode": "token",
      "token": "your-auth-token-here"
    }
  }
}

启动服务

1. 启动 vLLM 模型服务

# 在后台启动 vLLM
nohup python -m vllm.entrypoints.openai.api_server \
    --model <your-model-name> \
    --host 0.0.0.0 \
    --port 8000 \
    > vllm.log 2>&1 &

2. 启动 OpenClaw Gateway

# 使用 systemd 管理
systemctl --user start openclaw-gateway.service

# 查看状态
openclaw gateway status

3. 访问 Dashboard

Gateway 启动后，可以通过以下地址访问：

Dashboard: http://127.0.0.1:18789/
WebSocket: ws://127.0.0.1:18789

使用体验

优点

配置简洁: OpenClaw 的配置清晰，JSON 格式易于理解和修改
本地化部署: 模型和数据完全本地化，隐私安全
成本为零: 无需支付任何 API 费用
兼容性好: vLLM 的 OpenAI 兼容 API 无缝对接
Web UI 友好: 提供简洁的 Dashboard 界面

注意事项

路径配置: 确保 workspace 路径指向本地可写的目录
端口管理: vLLM 和 Gateway 使用不同端口，注意区分
资源占用: vLLM 推理需要较大显存，注意硬件配置
服务重启: 修改配置后需要重启 Gateway 服务

性能表现

在 RTX 4090 (24GB) 上，7B 模型的响应速度非常快，完全满足日常自动化任务需求。vLLM 的连续批处理机制显著提升了吞吐量。