当前位置：首页 » AI编程开发

Codex 深度使用指南：烧了 20 亿 Token 总结的 10 条实战经验

1小时前 AI编程开发 7 0

Codex 桌面版最近口碑极佳。许多开发者已将大量工作迁移至 Codex 客户端的 Goal 模式配合 GPT-5.5，实际使用中 Token 消耗量巨大。

很多人初次使用 Codex 时，往往将其视为一个更强的 Coding Agent，用于读仓库、改代码、跑测试、写 PR。这当然没错，但 Codex 桌面客户端早已超越单纯的编程工具。通过 Skills、Computer Use、浏览器操控、Gmail 和 Calendar 等连接器与插件，它已演变为一个通用 Agent 客户端。甚至，你还可以通过 ~/.codex/config.toml 配置文件接入 DeepSeek、Kimi 等第三方模型。

基于大量实战经验与对会话历史的分析，本文总结了 Codex 桌面客户端的 10 条核心使用法则。如果你还不熟悉 Codex 的基本用法，建议先参考 Jason Liu 的《Getting the most out of Codex》一文。

1. 先给足上下文，再开始任务

AI Agent 最大的问题不是不会干活，而是太容易基于幻觉自信乱干。如果不告知项目背景和规则，它就会按自己的理解行事，很容易过度自信并走向错误的方向。

解决方案很简单：在项目根目录编写一个 AGENTS.md。Codex 每次打开项目会自动读取该文件，你可以在其中写入项目背景、技术栈、代码规范、常见坑、测试方式等，相当于给 AI 一份「新人上岗须知」。如果任务涉及特定模块，还可以在 Prompt 里直接指定「先读 docs/xxx.md 再动手」，让它从文档而不是从猜测开始。

Codex 桌面端有一个非常好用的功能：置顶会话。你可以将最常使用的会话固定在前面。不要把 Codex 的会话当成临时会话，而应视为一个持续的工作现场。Codex 已经能够自动帮你压缩会话上下文，配合其记忆功能，长时任务无需新开会话，可以持续在同一个会话中进行。

这也是 Codex 最好用的一点，它避免了大量上下文交接问题，能真正帮你处理复杂的大型任务。

2. 验证比生成重要得多

让 Codex 写代码，随便一个 Coding Agent 都能做个七八成。真正拉开差距的是验证，必须拿真实的验证结果说话。

验证可以是很多东西：测试套件、Benchmark、Web 界面截图、发布前 Checklist 等。也就是之前你自己手动做的所有操作，都应该描述清楚并交给 Codex 负责。

特别是在使用 Goal 跑长任务时，这点更是必不可少。例如，「帮我把这个计划实现完」看起来有目标，但缺乏明确的停止条件。而好的 Goal 应该带上清晰的验证器：「完成后必须通过 xx 测试、浏览器检查和人工可审阅的变更摘要。如果验证失败，先修复问题，不要直接宣布完成。」

没有验证的 Goal，其实只是愿望。

3. 批量操作前加审查

从实际使用历史来看，审查和清理类任务最容易翻车。Codex 默认倾向是搜到了就改，找到了就删。此时，你需要主动在提示词里进行拦截。

具体做法是在 Prompt 或 AGENTS.md 里加上审查规则。例如：「批量修改前先列出所有命中并按类型分组（需要改 / 可能需要改 / 不该动），等我确认再执行」。清理旧分支也一样：「先输出 merged 和 unmerged 分支对比，标注哪些旧实现已被 main 覆盖，不要直接删」。

举个例子，代码库里搜到一堆旧 Token 引用，并非所有命中都该删。有些是测试隔离需要的，有些是运行时继承的，真正有问题的可能只有几个。如果不加审查这道程序，Codex 可能会机械地全部清掉，导致测试大面积失败（虽然加上验证可以自动修复，但会浪费大量时间和 Token）。

这种不是高大上的 AI 能力，但特别体现人的判断。你需要把经常看到的坑告诉 AI，让它主动规避。

4. 先配工具，再谈智能

模型当然重要，但真正决定 AI 能干什么的，是配置的工具、权限、上下文和验证方式。插件决定 Codex 能触碰哪些外部世界，Skills 决定它触碰这些世界时该怎么做。

大多数人写 Skill 时，会把它当成说明文档：告诉 Codex 该做什么、按什么顺序做。这当然有用，但 Skill 真正值钱的部分不是流程，而是 Gotchas，也就是每次 Codex 犯错之后补进去的「别踩这个坑」。

例如：

这个数据源经常不可用，不要猜。
这个任务结束前必须跑某个验证。
这个工具第一次会失败，失败后应该换另一种方式。
这个类型的 Review 不能机械接受，要逐条验证。
这个工作流适合先搜宽一点，再只打开高价值候选。

一开始写个十几行骨架就够了，用一段时间后它自然会长成一个成熟的 Skill。好用的 Skill 不可能一次写好，都是拿实际经验养出来的。

5. 用 Side Panel 边看边改

以前用 AI 做文档、网页、PPT，最烦的是上下文切来切去。AI 在聊天框里生成，产物在另一个窗口打开，发现问题又要截图回来描述。来回几次，人和 AI 都开始丢上下文。

Codex 的 Side Panel 可以把产物留在工作流里直接修改。具体做法是：让 Codex 生成一个 index.html 或者打开一个 localhost 页面，它会在侧边栏渲染出来。你一边看渲染结果，一边在同一个线程里说「这个按钮太大了」「表格第三列数据不对」，无需截图，无需切窗口。

有两类任务特别适合这个场景：

前端和网页：直接在旁边检查样式、交互和移动端适配。
文档型产物：报告、表格、PPT、数据分析页面放在旁边边看边改，比导出再反馈高效得多。

6. 重要上下文写到文件里

会话会压缩，模型可能会切换。对话里的重要决策和验证方式如果不主动写到外部文件里，很容易就会被丢掉。

在做长任务（特别是跨天任务）时，应特意让 Codex 总结记录 Summary、Checkpoint、Handoff 文档和下次接手的入口说明。下一个会话或新任务可以接着这些文件继续，无需从零开始。

实现起来很容易，不需要搞复杂的记忆系统。一个 TODO.md 写待办事项，再加几个文件夹分类放踩坑记录和项目状态，就够了。关键是可检查、可编辑、可删除。Codex 内置的 Memory 和 Chronicle 可以当快速回忆层用，但替代不了外部文件。只有写进文件里的记忆，才有机会变成系统。

7. 随时在线，随处接管

长任务跑着的时候，你不需要一直坐在电脑前。在 ChatGPT 手机端连上你的 Mac 或远程机器，可以随时给远端的 Codex 下任务，或者回复 Codex 需要你介入的问题。

一般来说，当你把任务定义清楚之后，就可以通过 Goal 来启动长时任务，然后等着 Codex 的通知即可。你可以在手机上随时查看它的输出、审批命令、中途纠偏。不用坐在电脑面前盯着，同时关键决策又可以随时介入。

如果你有 Linux 服务器，Remote SSH 更值得配置。Codex 会自动读取本地 SSH config 里的主机列表，连上之后直接在远程服务器里跑任务。日常运维、配置管理、代码部署，SSH 连上就能让 Codex 干活，电脑端/手机端都可以随时跟进。配合 AGENTS.md 和文件记忆，远程接入时上下文还在，无需重新交代背景。

8. 定时自动化：让会话自己醒过来

前面说的远程接入是「你主动去给 AI 下发任务」，而定时自动化是「让 AI 主动来找你」。

具体做法是给置顶线程设一个 Thread Automation。跟普通定时任务不同，Thread Automation 每次触发会回到同一个线程，带着上次的上下文继续工作。它知道上次检查到了哪里，哪些事项已经处理过，哪些数据源接不上。

常用的两类场景：

信息聚合：每天早上自动检查未读邮件和 IM 消息，按优先级整理好，打开时直接看结论。
监控类：定期检查 PR 列表、问题反馈或者关注列表，有新内容就整理摘要，没有就不打扰。

注意：不要让自动化假装全知。没有就是没有，不要编造虚假信息；依赖不可用就直接报不可用，不要自作聪明。

9. 不只是代码：邮件、调研、文档也能跑

大部分场景虽然跟代码相关，但 Codex 桌面客户端接上 Gmail、Browser、Documents 等插件后，很多非代码任务也能跑得不错。

常用的几个场景：

让 Codex 过一遍项目和相关邮件，做图文并茂的汇报 PPT。
给一个调研主题，让它用 deep-research 搜多个来源，整理成带出处的摘要。
会议前把相关文档和之前的讨论丢给它，让它准备一份简要。
写完公众号文章后让它排版成微信公众号格式并生成封面图。

这些任务的共同点是：以前要在好几个工具之间切来切去，现在可以在一个会话里串起来，省掉了大量的工具切换和上下文丢失。

10. 别追求全自动，要把主动权留在人的手里

Codex 好用，也可以自动化很多任务，但并不意味着你就要完全放手让它全自动去自己玩。

恰恰相反，你越把它接进真实工作流，越会看到很多边缘问题：权限、登录态、数据源缺口、工具失败、上下文压缩、验证不充分、自动化误触发等。

所以更合理的用法是：让 Codex 做上下文收集、执行、验证和初步整理，人保留判断、授权和最终责任。Codex 的 Steering（中途纠偏）和 Queuing（排队追加下一步）就是为这个设计的。真实的工作往往都是边看边改、边发现边调整，不是「人给一个完美需求，让 AI 一次性完成」。

也就是说，人不应该退到系统外面，而是站在系统里面，负责纠偏、验收和更新规则。

Codex 的语音输入也是一个让人留在 Loop 里很好的设计。它不是让你口述代码的，而是在想法还没成型的时候随时输入给 Codex，或者在 Codex 走偏的时候随时修正它。语音输入不需要很完整，有错别字也没关系，模糊指令对一个已经掌握足够上下文的 AI 来说已经足够理解你的意图。

附录：常用插件和 Skills 清单

常用插件

Browser：本地网页、localhost、侧边栏里的页面检查和截图。
Chrome：需要登录态、真实 Chrome profile、远程网页操作时用。
Computer Use：只能通过桌面 GUI 完成的工作。
Gmail：搜索邮件、读取正文、筛选待办、草拟回复。
Documents / Presentations / Spreadsheets：文档、PPT、表格。
Product Design：产品、原型、截图到交互稿。
Build Web Apps：前端应用、组件、浏览器验证。
HyperFrames / Remotion：视频、动画、程序化内容。
Superpowers：计划、TDD、系统化调试、验证、代码 Review、开发分支收尾。
Codex Security：安全扫描、威胁建模、Finding 修复。

常用 Skills

brainstorming（Superpowers 插件自带）：头脑风暴和 SPEC 设计。
handoff：将当前对话整理成交接文档（用于新开会话接手）。
deep-research：多源搜索调研。
claude-skill：调用 Claude Code 写文档、做设计或者跟 Codex PK。
twitter-cli / xfetch：读取和搜索 X/Twitter 内容。
xiaohongshu-cli：搜小红书内容。
youtube-transcribe-skill：解析下载 Youtube 视频字幕。