前言
在本地部署了大模型后,如何高效地调用模型进行自动化任务成为了一个关键问题。OpenClaw 是一个强大的 AI 自动化框架,支持多种模型提供商。本文记录了使用 vLLM 部署的模型配合 OpenClaw 的完整配置过程。
环境信息
- 操作系统: Ubuntu 24.04 (Linux 6.14)
- OpenClaw 版本: 2026.1.29
- 模型部署: vLLM
- Node.js: v22.22.0 (通过 nvm 管理)
vLLM 模型部署
使用 vLLM 部署模型非常方便,支持 OpenAI 兼容的 API 格式:
# 启动 vLLM 服务
python -m vllm.entrypoints.openai.api_server \
--model <your-model-name> \
--host 0.0.0.0 \
--port 8000
vLLM 默认提供兼容 OpenAI API 的接口地址:http://localhost:8000/v1
OpenClaw 配置
OpenClaw 的配置文件位于 ~/.openclaw/openclaw.json,以下是关键配置:
1. 模型提供商配置
{
"models": {
"mode": "merge",
"providers": {
"self": {
"baseUrl": "http://localhost:8000/v1",
"apiKey": "token-xxx",
"api": "openai-completions",
"models": [
{
"id": "your-model-id",
"name": "your-model-name",
"reasoning": false,
"input": ["text"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 200000,
"maxTokens": 8192
}
]
}
}
}
}
配置说明:
baseUrl: vLLM 服务的地址apiKey: 可以自定义任意字符串(本地服务不需要真实 API key)models.id: 模型的标识符,后面会用到contextWindow: 上下文窗口大小,根据模型能力设置maxTokens: 最大输出 tokens
2. Agent 默认模型配置
{
"agents": {
"defaults": {
"model": {
"primary": "self/your-model-id"
},
"models": {
"self/your-model-id": {}
},
"maxConcurrent": 4,
"subagents": {
"maxConcurrent": 8
}
}
}
}
3. Gateway 配置
{
"gateway": {
"port": 18789,
"mode": "local",
"bind": "loopback",
"auth": {
"mode": "token",
"token": "your-auth-token-here"
}
}
}
启动服务
1. 启动 vLLM 模型服务
# 在后台启动 vLLM
nohup python -m vllm.entrypoints.openai.api_server \
--model <your-model-name> \
--host 0.0.0.0 \
--port 8000 \
> vllm.log 2>&1 &
2. 启动 OpenClaw Gateway
# 使用 systemd 管理
systemctl --user start openclaw-gateway.service
# 查看状态
openclaw gateway status
3. 访问 Dashboard
Gateway 启动后,可以通过以下地址访问:
- Dashboard: http://127.0.0.1:18789/
- WebSocket: ws://127.0.0.1:18789
使用体验
优点
- 配置简洁: OpenClaw 的配置清晰,JSON 格式易于理解和修改
- 本地化部署: 模型和数据完全本地化,隐私安全
- 成本为零: 无需支付任何 API 费用
- 兼容性好: vLLM 的 OpenAI 兼容 API 无缝对接
- Web UI 友好: 提供简洁的 Dashboard 界面
注意事项
- 路径配置: 确保
workspace路径指向本地可写的目录 - 端口管理: vLLM 和 Gateway 使用不同端口,注意区分
- 资源占用: vLLM 推理需要较大显存,注意硬件配置
- 服务重启: 修改配置后需要重启 Gateway 服务
性能表现
在 RTX 4090 (24GB) 上,7B 模型的响应速度非常快,完全满足日常自动化任务需求。vLLM 的连续批处理机制显著提升了吞吐量。