当前位置：首页 » AI编程开发

Codex CLI 接本地模型实战：填平三个坑，本地推理省钱又安全

1月前 AI编程开发 1063 0

Codex CLI 出来之后我一直想拿它接本地模型。原因很简单——不用每次跑都走 API，省钱，数据也不用往外送。

理想很丰满，现实很骨感。折腾了一下午，踩了三个坑才跑通。记录一下，给有同样需求的朋友省点时间。

环境配置

Windows，Codex CLI 通过 npm 安装
本地推理跑在 http://127.0.0.1:8080，走 OpenAI 兼容接口
模型上下文只有 8K（这是后面的大坑）

安装 Codex 一行搞定：

npm install -g @openai/codex

坑一：配置写错了地方

Codex 的配置在 ~/.codex/config.toml。初始状态大概这样：

sandbox_mode = "workspace-write"
model = "gpt-5.5"
model_reasoning_effort = "low"

要接本地模型，加个自定义 provider 就行：

model = "local"
model_provider = "local"

[model_providers.local]
name = "Local Model"
base_url = "http://127.0.0.1:8080/v1"
wire_api = "responses"      # 这个下面会说

苏米注：想切回 OpenAI 的时候不用改配置文件，命令行直接传就行：

codex -m gpt-5.5
# 或者
codex -c model_provider=openai

坑二：wire_api 已经废了

一开始我写的是 wire_api = "chat"。理由很充分——llama.cpp、vLLM 这些本地推理框架走的都是 Chat Completions 接口。

结果 Codex 直接报错：

wire_api = "chat" is no longer supported.
How to fix: set wire_api = "responses" in your provider config.

翻了官方讨论才发现，Codex 从 2026 年 2 月起已经彻底砍掉了 Chat Completions，现在只认 Responses API。

也就是说你的本地推理服务必须支持 /v1/responses。但这东西目前支持情况很尴尬：

引擎	支持情况
llama.cpp	部分支持，有转换层
LM Studio	说支持，但实测有兼容问题
vLLM	不支持
Ollama	计划中
LocalAI	不支持

如果用的引擎不支持，有这几条路：

换 LM Studio，设 oss_provider = "lmstudio"
用新版 llama.cpp，内部做了转换
桥接代理，比如 VibeAround，把 Chat 转成 Responses
降级 Codex 到 2026 年 2 月之前的版本

坑三：8K 上下文根本不够用

前两个坑填完之后信心满满启动 Codex，结果又挂了：

Request (11842 tokens) exceeds the available context size (8192 tokens)

说实话这个早有预感。Codex 这种 agent 工具，读文件、跑命令、看输出，几轮下来上万 token 是常态。8K 窗口撑不过第一轮。

这个只能在推理服务那边解决：

llama.cpp：

./llama-server --ctx-size 32768 --model your-model.gguf

vLLM：

python -m vllm.entrypoints.openai.api_server \
    --model your-model \
    --max-model-len 32768

LM Studio：打开 UI，在模型加载设置里把上下文调到 32K 以上。

总之至少 32K 起步，低于这个数别想了。

最终配置

把坑都填完之后，~/.codex/config.toml 长这样：

sandbox_mode = "workspace-write"
model = "local"
model_provider = "local"
model_reasoning_effort = "low"

[model_providers.local]
name = "Local Model"
base_url = "http://127.0.0.1:8080/v1"
wire_api = "responses"

总结

三个坑，每个都不致命，但连在一起挺折腾的：

配置写在 ~/.codex/config.toml，加 [model_providers] 段
协议必须写 responses，chat 已经被砍了
上下文至少 32K，太小了跑不动

说实话 Codex 对本地模型的支持还不够成熟。OpenAI 砍掉 Chat Completions 之后，接入门槛确实高了。如果引擎不支持 Responses API，最省事的方案是换 LM Studio，或者加个桥接。

苏米观察：本地显卡最少 12G 显存，模型推荐 Qwen 8B。Codex CLI 接本地模型虽然折腾，但一旦跑通，省下的 API 费用和隐私保护都是实打实的。对于注重数据安全的开发者来说，这个投入是值得的。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Codex CLI 接本地模型实战：填平三个坑，本地推理省钱又安全

请登录后发表评论