为什么你需要了解 Coding Agent
最近这段时间,我接触了不少想定制个人 Agent 的朋友——产品经理、运营、营销从业者、自由职业者都有。他们对 AI 工具的理解参差不齐,唯一的共同点是都用过豆包这类对话式 AI。
但当聊到 Agent 的时候,问题就来了。很多人会把 Chatbot、LLM、Agent 这些概念混为一谈,以为对着对话框打字就是在使用 Agent。
这两者之间的差距,比想象中要大得多。

Chatbot 的工作方式是:你每次手动上传文件、交代背景、提出请求,它给你回复。没有记忆,没有工具调用能力,更不可能主动操作你的电脑。
Agent 则完全不同。它能直接读取本地文件、调用系统工具、执行终端命令,甚至把一套完整的工作流封装成一个 Skill,用一句话触发。
举个实际的例子。假设你需要定期制作 PPT:
- 传统方式:每次手动选内容、定风格、打开 PowerPoint 排版
- Agent 方式:把这套流程封装成 Skill 后,你只需要发一段文字,几十秒后桌面上就多了一个排版好的 .pptx 文件
更进一步,你可以设置定时任务——每天早上 8 点,Agent 自动扫描当天新增的笔记和 RSS 订阅,生成内容卡片或 PPT。你睡觉的时候它还在干活,这才是 Agent 的核心价值。
本文能帮你解决什么
如果你准备全面接触 Coding Agent,这篇文章会覆盖以下主题:
- Coding Agent 的定义与完整分类体系
- 主流桌面端客户端的下载与使用
- 从桌面端进阶到 CLI 终端
- 在 Claude Code 中接入国产模型 API 降低成本
- Skill 的统一管理与跨端复用
- OpenClaw 的配置与 IM 自动化
- 一套可落地的 5 阶段实践路线
先说我的实际使用场景,帮你建立画面感:
我的主力工具是 Codex 和 Claude Code。Codex 负责产品原型和工程开发,Claude Code 负责内容创作和知识管理。同时我在 Claude Code 中接入了智谱 GLM 和 Minimax 的 API,把基础任务分流到国产模型上——便宜且够用。再加上 OpenClaw 跑定时采集和自动化投递,整套组合月成本控制在 300-500 元左右。
一、什么是 Coding Agent
一个比较清晰的定义是:
模型(LLM)+ Harness 框架 = Agent
模型是大脑,决定它有多聪明;Harness 是记忆和手脚,决定它能做什么事。两者缺一不可。

按这个框架,市面上的 Coding Agent 产品可以划分为五大类:
1. CLI 类(命令行终端)
门槛最高,需要熟悉终端操作,但天花板也最高——可以接入任意模型 API、安装自定义 Skill、操作整个文件系统。
- Claude Code(Anthropic):写作、长文分析、代码输出的天花板
- Codex CLI(OpenAI):工程能力强,做产品原型的首选
- Gemini CLI(Google):多模态能力强,配合海量上下文窗口
- Kimi CLI / 千问 CLI:国内厂商的跟进版本
2. 桌面客户端类
开箱即用,下载安装、登录订阅就能跑,比 CLI 友好很多,但深度定制能力相对有限。
- Claude Cowork(Claude Desktop):Anthropic 官方桌面端
- Codex App:OpenAI 的桌面端
- Minimax Agent、Skywork Desktop:国产桌面端
3. IDE / 代码编辑器类
编辑器与 AI 的深度融合,适合一边浏览代码一边让 AI 辅助修改。
- Cursor:基于 VS Code 改造的 AI IDE
- Trae:字节出品,国产 Cursor 平替
- Antigravity(Google):赠送一年 Gemini 额度
- Codebuddy(腾讯)
4. Agent 系统类
像一个一直在线的 Claude Code,不需要打开终端,可以对接飞书、钉钉等即时通讯工具,发条消息它就去干活。局限在于你无法实时看到执行过程,且换模型后效果波动较大。
- OpenClaw(小龙虾):开源 Agent 框架,支持飞书、Telegram、Signal 等 IM 接入
- Hermes、Opencode:其他开源 Harness 框架
5. 网页端
适合交付物标准化的任务,比如生成网站、PPT、报告。但深度上下文处理能力有限,订阅费用通常较高。
- Lovable、Figma Make、Notion AI、Manus:浏览器内直接使用的 Agent
二、入门推荐:Codex + Claude Code 桌面端
第一次接触 Coding Agent,建议从桌面端开始,先建立使用感觉,再考虑 CLI。
我目前推荐两个:
- Codex 桌面端:从 chatgpt.com/codex 下载,需要 ChatGPT Plus($20/月)或 Pro($200/月)
- Claude Code 桌面端:从 claude.ai 下载,需要 Claude Pro($20/月)或 Max 套餐
可以先用免费额度体验几天,再决定是否订阅。国内用户在注册和支付环节可能会遇到障碍,如果搞不定,可以考虑通过第三方渠道解决,别在这一步消耗热情。
Codex 桌面端的核心功能

项目文件夹——这是最关键的设置。Codex 需要知道它能操作哪个目录。我通常会指定一个项目目录(比如某个 Obsidian 仓库),之后所有的读写操作都限定在这个范围内。
模型选择——Codex 内部支持切换模型,GPT-5.2、GPT-5.3 Codex、GPT-5.4 等。日常任务用默认模型即可,复杂工程任务建议切换到 Codex 专用模型。
安全策略——建议根据项目敏感度设置:日常项目可以设为自动执行所有命令,涉及线上凭据的敏感项目则保持每次手动确认。
内置浏览器和终端——这是 Codex 桌面端的强项。写完代码可以直接在内置浏览器中预览效果,执行终端命令也不需要切换窗口。
Skill 和插件——Codex 支持 Skill(原生叫 Custom Instructions / Tools),可以安装第三方插件(GitHub、Figma、Gmail 等),也可以自己编写。插件授权后,Codex 就能获取对应账号下的数据。
自动化能力——支持定时执行流程,比如每天早上自动扫描 GitHub Issue 并生成日报摘要。
实操:用 Codex 创建一个 PPT Skill
打开 Codex,直接告诉它:
帮我做一个 HTML-PPT 的 Skill。流程是:1)我发一段文字内容;2)你问我要什么风格(极简/商务/活泼);3)你用 python-pptx 库生成 .pptx 文件保存到桌面。
Codex 会自动完成以下工作:
- 创建 Skill 文件夹
~/.codex/skills/ppt-maker/ - 编写 SKILL.md,定义触发词和执行流程
- 安装依赖(python-pptx)
- 跑一次测试,确认功能正常
之后你只需要说"帮我把这段内容做成商务风 PPT",Codex 就会自动调用这个 Skill,几十秒后桌面就会出现成品。
Claude Code 桌面端

整体逻辑与 Codex 类似,核心区别在于:
- 模型使用 Claude(Opus / Sonnet)
- 写作、长文分析、复杂指令理解方面比 Codex 更强一档
两个会员加起来约 $40/月。如果只能选一个,按场景决定:做产品/写代码选 Codex,写内容/知识管理选 Claude Code。
三、进阶:CLI 版本 Agent
桌面端用熟之后,你会逐渐触到它的天花板——无法跑后台任务、无法与 Bash 工作流深度结合、无法接入任意模型 API。
这时候就该上 CLI 了。这里我主要推荐 Claude Code CLI,也可以搭配国产模型 API 使用。
macOS 打开 Terminal,Windows 打开 PowerShell,一行命令完成安装:
npm install -g @anthropic-ai/claude-code
安装完成后,cd 到项目目录,输入 claude 回车,就进入了对话界面。

CLI 与桌面端最大的区别在于:它运行在真实的终端环境中。 这意味着它可以执行任意 Bash 命令、Git 操作、Docker 容器命令,接入本地任何脚本和工具。对一个 AI 来说,拥有终端权限约等于拥有整台电脑的操作权。
建议学习一些常用快捷键,比如 Shift+Tab 切换模型、/ 调用命令等。
四、必备工具:CC Switch
CLI 用熟之后,你会遇到一个新问题:Anthropic 和 OpenAI 的套餐 token 不够用怎么办?
解决方案是用国产模型 API 做平替。智谱、Minimax、DeepSeek 的最新旗舰模型在代码场景下表现已经不错,而且价格低得多。
但手动切换模型很麻烦——今天想用 Claude Sonnet,明天想切 GLM 4.7,后天又想切回去。
CC Switch 就是为了解决这个问题而生的。 它是一个图形化的 API 管理工具,专门管理 Claude Code、Codex CLI 等 Agent 的模型来源。

CC Switch 的核心功能:
- 注册多个模型供应商(Anthropic 官方、智谱、Minimax、Kimi、各种中转站)
- 一键切换当前 Agent 使用的 API
- 管理 API Key 和用量统计
- 管理本地 Skill 库
操作流程非常简单:选择 Agent 厂商 → 选择模型 API 厂商 → 输入 API Key → 保存启用 → 重新打开 Claude Code,整个过程大约 10 秒。
五、模型 API 基础
很多用户对 API 的概念比较模糊,这里补充一段基础知识。
模型 API,本质上就是访问大模型的地址和钥匙。

每次你给 Agent 发消息时,背后的数据流是:
你 → Agent 客户端 → 模型 API 接口 → 大模型服务器 → 返回结果 → 显示
其中模型 API 接口由三个核心参数定义:

- API 地址(Base URL)——访问大模型的路径,如
https://api.deepseek.com - API Key——身份凭证,证明你有权限使用,费用从对应账户扣除
- 模型名称(Model)——指定使用哪家厂商的哪个具体模型,如
claude-opus-4-7或glm-5.1
这三个是必填项。可选参数包括流式输出、思考深度(thinking)、温度(temperature)、最大输出长度等,日常使用通常不需要调整。
六、实操:在 Claude Code 中配置国产模型 API
以智谱 GLM 为例,手把手演示配置流程。
第一步:注册并获取 API Key
前往 open.bigmodel.cn,用手机号注册,在控制台创建 API Key 并保存。智谱的 Coding 计划最低档 49 元/月,额度对个人用户基本够用。
第二步:用 CC Switch 配置
打开 CC Switch:
- 选择 Claude Code 作为目标 Agent
- 添加新供应商:
- 名称:智谱 GLM
- Base URL:https://open.bigmodel.cn/api/anthropic
- API Key:刚才复制的 Key
- Model:glm-5.1 - 保存并启用
第三步:验证
新开一个终端窗口(旧窗口的环境变量不会刷新),输入 claude 进入对话界面,随便问一个问题。如果回复正常,说明配置成功。

同样的方式可以接入 Minimax。Minimax 的 API 地址是 https://api.minimax.chat/v1(OpenAI 兼容格式),也可以用其 Anthropic 兼容地址。
为什么国产模型能接到 Claude Code 里?
Claude 和 OpenAI 分别定义了两套主流的 API 标准。所有 Agent 客户端默认对接的就是这两套之一。国产模型厂商为了让自家模型能被这些工具调用,给自家 API 套上了 Anthropic 兼容或 OpenAI 兼容的外壳。
比如智谱:访问 https://open.bigmodel.cn/api/anthropic 是 Anthropic 兼容格式,访问 https://open.bigmodel.cn/api/paas/v4 是 OpenAI 兼容格式。DeepSeek、Kimi、Minimax、千问的逻辑完全一样。
所以你可以实现这样的组合:Agent 壳子还是 Claude Code,模型换成 GLM,体验几乎不变,token 价格降到 1/10。
七、Skill:Coding Agent 的真正杀手锏
Skill 是什么
一句话概括:Skill = 写给 AI 的 SOP(标准作业程序)。

把日常重复做的某一类任务的流程拆出来、要求写下来、输入输出定义好,存成一个 SKILL.md 文件,放到 Agent 能读取的目录里,一个 Skill 就完成了。下次用一句话触发,Agent 自动按 SOP 执行。
我做过 100 多个 Skill,覆盖内容创作、产品经理、图片制作、数据分析等领域。每个 Skill 背后都是一个我曾经手动重复过无数遍的工作流。
三层架构:让所有 Agent 共用同一套 Skill
如果只用 Claude Code,Skill 放在 ~/.claude/skills/ 就行。但如果你同时使用 Claude Code、Codex、Cursor、OpenClaw 等多个 Agent,不需要为每个都维护一份。
我采用的是软链接 + 分类仓库的三层架构:

核心规则只有一条:永远先修改全局仓库,再同步到分类仓库。
每周复盘时,我会让 Claude Code 自动扫描 ~/.claude/skills/ 有没有新增 Skill,然后自动归类、commit、push。一条命令搞定。
Skill 的安装与使用
安装流程:
git clone仓库到本地- 复制需要的 Skill 文件夹到
~/.claude/skills/下 - 重启 Agent,触发词一发就能用
你也可以直接让 Agent 帮你安装——告诉它仓库地址和 Skill 名称,它会自动完成 clone、复制、格式校验。
每个 Skill 的 SKILL.md 顶部都有一个 description 字段,定义触发条件。比如我写的 brand-article Skill,触发词包括"商单""甲方文章""品牌合作"等。说话时带上这些词,Agent 就会自动加载对应的 Skill。
Anthropic 设计 Skill 时采用了渐进式披露原则——平时只加载 Skill 名字和描述,相关场景才加载全文,不会浪费上下文窗口。
八、OpenClaw:让 Agent 一直活着
OpenClaw 是什么
很多人问我:"你怎么做到在飞书里发条消息,它就在电脑上干活的?"
答案就是 OpenClaw。
OpenClaw 本质上是一个常驻后台的 Claude Code,前面挂了一个 IM 网关。

数据流是这样的:飞书发消息 → IM 网关接收 → 喂给 OpenClaw 后台 → 操作文件、调 API、跑脚本 → 结果发回飞书。
我的 OpenClaw 配置:
- 后端 Agent:OpenClaw(开源版本)
- 接入 IM:飞书机器人
- 模型:Minimax(量大实惠)
- 任务类型:每日采集、定时归档、文档同步、批量出图、夜间爬虫
它最大的价值是离开电脑也能使用 Agent。出门在外看到不错的网页内容,飞书里发一句"把这个网页存到素材库 03 播客分类",OpenClaw 就在家里的 Mac 上把活干完。
但建议刚入门的用户先别折腾 OpenClaw。 它适合已经跑通 Claude Code + Skill、有大量重复自动化需求的进阶玩家。前 90% 的需求,桌面端加几个 Skill 已经够用。
安装与配置
OpenClaw 是开源项目,GitHub 搜索即可找到官方仓库。安装时不用自己啃文档——直接把 README 链接丢给 Claude Code,让它边读边装。装完跑一次自检,有报错就把报错贴回去让它改,比对着教程一行一行抄快得多。
给 OpenClaw 配置模型 API 有两种方式:
- 用 CC Switch 配置(和给 Claude Code 配国产模型一个套路)
- 直接让 Agent 帮你配——把模型厂商的文档链接和 Key 丢给 Claude Code,它自己读文档、写配置、改环境变量、跑测试
我自己 OpenClaw 后端用的是 Minimax,因为 OpenClaw 的任务特点是量大、跑得久,单价低的国产模型最划算。
九、实践路线图

Stage 1:建立感觉(第 1 周)
- 下载 Claude Code 桌面端 或 Codex 桌面端
- 订阅 Pro 会员
- 跟它聊一周,丢任意文件给它处理,感受它和传统 Chatbot 的区别
Stage 2:装第一个 Skill(第 2 周)
- 安装网络上比较成熟的 Skill
- 找一个每天重复做的工作流,让 Agent 帮你封装成 Skill
- 用一句话触发,体验"丢一句话出活"的感觉
Stage 3:进阶 CLI(第 3 周)
- 安装 Claude Code CLI / Codex CLI
- 把工作目录(如 Obsidian 仓库)接入
- 编写 CLAUDE.md,定义偏好和工作流
Stage 4:模型路由(第 4 周)
- 安装 CC Switch
- 注册国产模型(智谱、Minimax)
- 跑量任务切到国产模型,主力套餐留给攻坚任务
Stage 5:自动化(第 2 个月起)
- 配置 OpenClaw 或类似框架
- 把高频自动化任务迁移到后台
- 让 Agent 在你睡觉的时候继续工作
十、最后的话
这篇文章偏向入门,适合第一次接触 Coding Agent 的用户。但讲完工具的使用方法,我想强调的是——工具用好的关键不是工具本身,而是理念。

要让 AI 真正变成生产力工具,需要的是它能读文件、记偏好、按 SOP 干活、人不在的时候继续工作。Coding Agent 的核心从来不是某一个具体的工具,而是 模型 + Harness + Skill + 你自己的上下文 这四样东西的组合。
把这一步走通之后,还有更多的方向可以探索——知识管理、Vibe Coding、自动化工作流,每一个方向单独拎出来都值得写一篇长文。