Codex CLI 出来之后我一直想拿它接本地模型。原因很简单——不用每次跑都走 API,省钱,数据也不用往外送。
理想很丰满,现实很骨感。折腾了一下午,踩了三个坑才跑通。记录一下,给有同样需求的朋友省点时间。
环境配置
- Windows,Codex CLI 通过 npm 安装
- 本地推理跑在
http://127.0.0.1:8080,走 OpenAI 兼容接口 - 模型上下文只有 8K(这是后面的大坑)
安装 Codex 一行搞定:
npm install -g @openai/codex
坑一:配置写错了地方
Codex 的配置在 ~/.codex/config.toml。初始状态大概这样:
sandbox_mode = "workspace-write"
model = "gpt-5.5"
model_reasoning_effort = "low"
要接本地模型,加个自定义 provider 就行:
model = "local"
model_provider = "local"
[model_providers.local]
name = "Local Model"
base_url = "http://127.0.0.1:8080/v1"
wire_api = "responses" # 这个下面会说
苏米注:想切回 OpenAI 的时候不用改配置文件,命令行直接传就行:
codex -m gpt-5.5
# 或者
codex -c model_provider=openai
坑二:wire_api 已经废了
一开始我写的是 wire_api = "chat"。理由很充分——llama.cpp、vLLM 这些本地推理框架走的都是 Chat Completions 接口。
结果 Codex 直接报错:
wire_api = "chat" is no longer supported.
How to fix: set wire_api = "responses" in your provider config.
翻了官方讨论才发现,Codex 从 2026 年 2 月起已经彻底砍掉了 Chat Completions,现在只认 Responses API。
也就是说你的本地推理服务必须支持 /v1/responses。但这东西目前支持情况很尴尬:
| 引擎 | 支持情况 |
|---|---|
| llama.cpp | 部分支持,有转换层 |
| LM Studio | 说支持,但实测有兼容问题 |
| vLLM | 不支持 |
| Ollama | 计划中 |
| LocalAI | 不支持 |
如果用的引擎不支持,有这几条路:
- 换 LM Studio,设
oss_provider = "lmstudio" - 用新版 llama.cpp,内部做了转换
- 桥接代理,比如 VibeAround,把 Chat 转成 Responses
- 降级 Codex 到 2026 年 2 月之前的版本
坑三:8K 上下文根本不够用
前两个坑填完之后信心满满启动 Codex,结果又挂了:
Request (11842 tokens) exceeds the available context size (8192 tokens)
说实话这个早有预感。Codex 这种 agent 工具,读文件、跑命令、看输出,几轮下来上万 token 是常态。8K 窗口撑不过第一轮。
这个只能在推理服务那边解决:
llama.cpp:
./llama-server --ctx-size 32768 --model your-model.gguf
vLLM:
python -m vllm.entrypoints.openai.api_server \
--model your-model \
--max-model-len 32768
LM Studio:打开 UI,在模型加载设置里把上下文调到 32K 以上。
总之至少 32K 起步,低于这个数别想了。
最终配置
把坑都填完之后,~/.codex/config.toml 长这样:
sandbox_mode = "workspace-write"
model = "local"
model_provider = "local"
model_reasoning_effort = "low"
[model_providers.local]
name = "Local Model"
base_url = "http://127.0.0.1:8080/v1"
wire_api = "responses"

总结
三个坑,每个都不致命,但连在一起挺折腾的:
- 配置写在
~/.codex/config.toml,加[model_providers]段 - 协议必须写
responses,chat已经被砍了 - 上下文至少 32K,太小了跑不动
说实话 Codex 对本地模型的支持还不够成熟。OpenAI 砍掉 Chat Completions 之后,接入门槛确实高了。如果引擎不支持 Responses API,最省事的方案是换 LM Studio,或者加个桥接。
苏米观察:本地显卡最少 12G 显存,模型推荐 Qwen 8B。Codex CLI 接本地模型虽然折腾,但一旦跑通,省下的 API 费用和隐私保护都是实打实的。对于注重数据安全的开发者来说,这个投入是值得的。