当前位置：首页 » AI智能体

Coding Agent 完全指南，Coding Agent从入门到进阶实操教程

1月前 AI智能体 461 0

为什么你需要了解 Coding Agent

最近这段时间，我接触了不少想定制个人 Agent 的朋友——产品经理、运营、营销从业者、自由职业者都有。他们对 AI 工具的理解参差不齐，唯一的共同点是都用过豆包这类对话式 AI。

但当聊到 Agent 的时候，问题就来了。很多人会把 Chatbot、LLM、Agent 这些概念混为一谈，以为对着对话框打字就是在使用 Agent。

这两者之间的差距，比想象中要大得多。

Chatbot 的工作方式是：你每次手动上传文件、交代背景、提出请求，它给你回复。没有记忆，没有工具调用能力，更不可能主动操作你的电脑。

Agent 则完全不同。它能直接读取本地文件、调用系统工具、执行终端命令，甚至把一套完整的工作流封装成一个 Skill，用一句话触发。

举个实际的例子。假设你需要定期制作 PPT：

传统方式：每次手动选内容、定风格、打开 PowerPoint 排版
Agent 方式：把这套流程封装成 Skill 后，你只需要发一段文字，几十秒后桌面上就多了一个排版好的 .pptx 文件

更进一步，你可以设置定时任务——每天早上 8 点，Agent 自动扫描当天新增的笔记和 RSS 订阅，生成内容卡片或 PPT。你睡觉的时候它还在干活，这才是 Agent 的核心价值。

本文能帮你解决什么

如果你准备全面接触 Coding Agent，这篇文章会覆盖以下主题：

Coding Agent 的定义与完整分类体系
主流桌面端客户端的下载与使用
从桌面端进阶到 CLI 终端
在 Claude Code 中接入国产模型 API 降低成本
Skill 的统一管理与跨端复用
OpenClaw 的配置与 IM 自动化
一套可落地的 5 阶段实践路线

先说我的实际使用场景，帮你建立画面感：

我的主力工具是 Codex 和 Claude Code。Codex 负责产品原型和工程开发，Claude Code 负责内容创作和知识管理。同时我在 Claude Code 中接入了智谱 GLM 和 Minimax 的 API，把基础任务分流到国产模型上——便宜且够用。再加上 OpenClaw 跑定时采集和自动化投递，整套组合月成本控制在 300-500 元左右。

一、什么是 Coding Agent

一个比较清晰的定义是：

模型（LLM）+ Harness 框架 = Agent

模型是大脑，决定它有多聪明；Harness 是记忆和手脚，决定它能做什么事。两者缺一不可。

按这个框架，市面上的 Coding Agent 产品可以划分为五大类：

1. CLI 类（命令行终端）

门槛最高，需要熟悉终端操作，但天花板也最高——可以接入任意模型 API、安装自定义 Skill、操作整个文件系统。

Claude Code（Anthropic）：写作、长文分析、代码输出的天花板
Codex CLI（OpenAI）：工程能力强，做产品原型的首选
Gemini CLI（Google）：多模态能力强，配合海量上下文窗口
Kimi CLI / 千问 CLI：国内厂商的跟进版本

2. 桌面客户端类

开箱即用，下载安装、登录订阅就能跑，比 CLI 友好很多，但深度定制能力相对有限。

Claude Cowork（Claude Desktop）：Anthropic 官方桌面端
Codex App：OpenAI 的桌面端
Minimax Agent、Skywork Desktop：国产桌面端

3. IDE / 代码编辑器类

编辑器与 AI 的深度融合，适合一边浏览代码一边让 AI 辅助修改。

Cursor：基于 VS Code 改造的 AI IDE
Trae：字节出品，国产 Cursor 平替
Antigravity（Google）：赠送一年 Gemini 额度
Codebuddy（腾讯）

4. Agent 系统类

像一个一直在线的 Claude Code，不需要打开终端，可以对接飞书、钉钉等即时通讯工具，发条消息它就去干活。局限在于你无法实时看到执行过程，且换模型后效果波动较大。

OpenClaw（小龙虾）：开源 Agent 框架，支持飞书、Telegram、Signal 等 IM 接入
Hermes、Opencode：其他开源 Harness 框架

5. 网页端

适合交付物标准化的任务，比如生成网站、PPT、报告。但深度上下文处理能力有限，订阅费用通常较高。

Lovable、Figma Make、Notion AI、Manus：浏览器内直接使用的 Agent

二、入门推荐：Codex + Claude Code 桌面端

第一次接触 Coding Agent，建议从桌面端开始，先建立使用感觉，再考虑 CLI。

我目前推荐两个：

Codex 桌面端：从 chatgpt.com/codex 下载，需要 ChatGPT Plus（$20/月）或 Pro（$200/月）
Claude Code 桌面端：从 claude.ai 下载，需要 Claude Pro（$20/月）或 Max 套餐

可以先用免费额度体验几天，再决定是否订阅。国内用户在注册和支付环节可能会遇到障碍，如果搞不定，可以考虑通过第三方渠道解决，别在这一步消耗热情。

Codex 桌面端的核心功能

项目文件夹——这是最关键的设置。Codex 需要知道它能操作哪个目录。我通常会指定一个项目目录（比如某个 Obsidian 仓库），之后所有的读写操作都限定在这个范围内。

模型选择——Codex 内部支持切换模型，GPT-5.2、GPT-5.3 Codex、GPT-5.4 等。日常任务用默认模型即可，复杂工程任务建议切换到 Codex 专用模型。

安全策略——建议根据项目敏感度设置：日常项目可以设为自动执行所有命令，涉及线上凭据的敏感项目则保持每次手动确认。

内置浏览器和终端——这是 Codex 桌面端的强项。写完代码可以直接在内置浏览器中预览效果，执行终端命令也不需要切换窗口。

Skill 和插件——Codex 支持 Skill（原生叫 Custom Instructions / Tools），可以安装第三方插件（GitHub、Figma、Gmail 等），也可以自己编写。插件授权后，Codex 就能获取对应账号下的数据。

自动化能力——支持定时执行流程，比如每天早上自动扫描 GitHub Issue 并生成日报摘要。

实操：用 Codex 创建一个 PPT Skill

打开 Codex，直接告诉它：

帮我做一个 HTML-PPT 的 Skill。流程是：1）我发一段文字内容；2）你问我要什么风格（极简/商务/活泼）；3）你用 python-pptx 库生成 .pptx 文件保存到桌面。

Codex 会自动完成以下工作：

创建 Skill 文件夹 ~/.codex/skills/ppt-maker/
编写 SKILL.md，定义触发词和执行流程
安装依赖（python-pptx）
跑一次测试，确认功能正常

之后你只需要说"帮我把这段内容做成商务风 PPT"，Codex 就会自动调用这个 Skill，几十秒后桌面就会出现成品。

Claude Code 桌面端

整体逻辑与 Codex 类似，核心区别在于：

模型使用 Claude（Opus / Sonnet）
写作、长文分析、复杂指令理解方面比 Codex 更强一档

两个会员加起来约 $40/月。如果只能选一个，按场景决定：做产品/写代码选 Codex，写内容/知识管理选 Claude Code。

三、进阶：CLI 版本 Agent

桌面端用熟之后，你会逐渐触到它的天花板——无法跑后台任务、无法与 Bash 工作流深度结合、无法接入任意模型 API。

这时候就该上 CLI 了。这里我主要推荐 Claude Code CLI，也可以搭配国产模型 API 使用。

macOS 打开 Terminal，Windows 打开 PowerShell，一行命令完成安装：

npm install -g @anthropic-ai/claude-code

安装完成后，cd 到项目目录，输入 claude 回车，就进入了对话界面。

CLI 与桌面端最大的区别在于：它运行在真实的终端环境中。 这意味着它可以执行任意 Bash 命令、Git 操作、Docker 容器命令，接入本地任何脚本和工具。对一个 AI 来说，拥有终端权限约等于拥有整台电脑的操作权。

建议学习一些常用快捷键，比如 Shift+Tab 切换模型、/ 调用命令等。

四、必备工具：CC Switch

CLI 用熟之后，你会遇到一个新问题：Anthropic 和 OpenAI 的套餐 token 不够用怎么办？

解决方案是用国产模型 API 做平替。智谱、Minimax、DeepSeek 的最新旗舰模型在代码场景下表现已经不错，而且价格低得多。

但手动切换模型很麻烦——今天想用 Claude Sonnet，明天想切 GLM 4.7，后天又想切回去。

CC Switch 就是为了解决这个问题而生的。 它是一个图形化的 API 管理工具，专门管理 Claude Code、Codex CLI 等 Agent 的模型来源。

CC Switch 的核心功能：

注册多个模型供应商（Anthropic 官方、智谱、Minimax、Kimi、各种中转站）
一键切换当前 Agent 使用的 API
管理 API Key 和用量统计
管理本地 Skill 库

操作流程非常简单：选择 Agent 厂商 → 选择模型 API 厂商 → 输入 API Key → 保存启用 → 重新打开 Claude Code，整个过程大约 10 秒。

五、模型 API 基础

很多用户对 API 的概念比较模糊，这里补充一段基础知识。

模型 API，本质上就是访问大模型的地址和钥匙。

每次你给 Agent 发消息时，背后的数据流是：

你 → Agent 客户端 → 模型 API 接口 → 大模型服务器 → 返回结果 → 显示

其中模型 API 接口由三个核心参数定义：

API 地址（Base URL）——访问大模型的路径，如 https://api.deepseek.com
API Key——身份凭证，证明你有权限使用，费用从对应账户扣除
模型名称（Model）——指定使用哪家厂商的哪个具体模型，如 claude-opus-4-7 或 glm-5.1

这三个是必填项。可选参数包括流式输出、思考深度（thinking）、温度（temperature）、最大输出长度等，日常使用通常不需要调整。

六、实操：在 Claude Code 中配置国产模型 API

以智谱 GLM 为例，手把手演示配置流程。

第一步：注册并获取 API Key

前往 open.bigmodel.cn，用手机号注册，在控制台创建 API Key 并保存。智谱的 Coding 计划最低档 49 元/月，额度对个人用户基本够用。

第二步：用 CC Switch 配置

打开 CC Switch：

选择 Claude Code 作为目标 Agent
添加新供应商：
- 名称：智谱 GLM
- Base URL：https://open.bigmodel.cn/api/anthropic
- API Key：刚才复制的 Key
- Model：glm-5.1
保存并启用

第三步：验证

新开一个终端窗口（旧窗口的环境变量不会刷新），输入 claude 进入对话界面，随便问一个问题。如果回复正常，说明配置成功。

同样的方式可以接入 Minimax。Minimax 的 API 地址是 https://api.minimax.chat/v1（OpenAI 兼容格式），也可以用其 Anthropic 兼容地址。

为什么国产模型能接到 Claude Code 里？

Claude 和 OpenAI 分别定义了两套主流的 API 标准。所有 Agent 客户端默认对接的就是这两套之一。国产模型厂商为了让自家模型能被这些工具调用，给自家 API 套上了 Anthropic 兼容或 OpenAI 兼容的外壳。

比如智谱：访问 https://open.bigmodel.cn/api/anthropic 是 Anthropic 兼容格式，访问 https://open.bigmodel.cn/api/paas/v4 是 OpenAI 兼容格式。DeepSeek、Kimi、Minimax、千问的逻辑完全一样。

所以你可以实现这样的组合：Agent 壳子还是 Claude Code，模型换成 GLM，体验几乎不变，token 价格降到 1/10。

七、Skill：Coding Agent 的真正杀手锏

Skill 是什么

一句话概括：Skill = 写给 AI 的 SOP（标准作业程序）。

把日常重复做的某一类任务的流程拆出来、要求写下来、输入输出定义好，存成一个 SKILL.md 文件，放到 Agent 能读取的目录里，一个 Skill 就完成了。下次用一句话触发，Agent 自动按 SOP 执行。

我做过 100 多个 Skill，覆盖内容创作、产品经理、图片制作、数据分析等领域。每个 Skill 背后都是一个我曾经手动重复过无数遍的工作流。

三层架构：让所有 Agent 共用同一套 Skill

如果只用 Claude Code，Skill 放在 ~/.claude/skills/ 就行。但如果你同时使用 Claude Code、Codex、Cursor、OpenClaw 等多个 Agent，不需要为每个都维护一份。

我采用的是软链接 + 分类仓库的三层架构：

核心规则只有一条：永远先修改全局仓库，再同步到分类仓库。

每周复盘时，我会让 Claude Code 自动扫描 ~/.claude/skills/ 有没有新增 Skill，然后自动归类、commit、push。一条命令搞定。

Skill 的安装与使用

安装流程：

git clone 仓库到本地
复制需要的 Skill 文件夹到 ~/.claude/skills/ 下
重启 Agent，触发词一发就能用

你也可以直接让 Agent 帮你安装——告诉它仓库地址和 Skill 名称，它会自动完成 clone、复制、格式校验。

每个 Skill 的 SKILL.md 顶部都有一个 description 字段，定义触发条件。比如我写的 brand-article Skill，触发词包括"商单""甲方文章""品牌合作"等。说话时带上这些词，Agent 就会自动加载对应的 Skill。

Anthropic 设计 Skill 时采用了渐进式披露原则——平时只加载 Skill 名字和描述，相关场景才加载全文，不会浪费上下文窗口。

八、OpenClaw：让 Agent 一直活着

OpenClaw 是什么

很多人问我："你怎么做到在飞书里发条消息，它就在电脑上干活的？"

答案就是 OpenClaw。

OpenClaw 本质上是一个常驻后台的 Claude Code，前面挂了一个 IM 网关。

数据流是这样的：飞书发消息 → IM 网关接收 → 喂给 OpenClaw 后台 → 操作文件、调 API、跑脚本 → 结果发回飞书。

我的 OpenClaw 配置：

后端 Agent：OpenClaw（开源版本）
接入 IM：飞书机器人
模型：Minimax（量大实惠）
任务类型：每日采集、定时归档、文档同步、批量出图、夜间爬虫

它最大的价值是离开电脑也能使用 Agent。出门在外看到不错的网页内容，飞书里发一句"把这个网页存到素材库 03 播客分类"，OpenClaw 就在家里的 Mac 上把活干完。

但建议刚入门的用户先别折腾 OpenClaw。 它适合已经跑通 Claude Code + Skill、有大量重复自动化需求的进阶玩家。前 90% 的需求，桌面端加几个 Skill 已经够用。

安装与配置

OpenClaw 是开源项目，GitHub 搜索即可找到官方仓库。安装时不用自己啃文档——直接把 README 链接丢给 Claude Code，让它边读边装。装完跑一次自检，有报错就把报错贴回去让它改，比对着教程一行一行抄快得多。

给 OpenClaw 配置模型 API 有两种方式：

用 CC Switch 配置（和给 Claude Code 配国产模型一个套路）
直接让 Agent 帮你配——把模型厂商的文档链接和 Key 丢给 Claude Code，它自己读文档、写配置、改环境变量、跑测试

我自己 OpenClaw 后端用的是 Minimax，因为 OpenClaw 的任务特点是量大、跑得久，单价低的国产模型最划算。

九、实践路线图

Stage 1：建立感觉（第 1 周）

下载 Claude Code 桌面端或 Codex 桌面端
订阅 Pro 会员
跟它聊一周，丢任意文件给它处理，感受它和传统 Chatbot 的区别

Stage 2：装第一个 Skill（第 2 周）

安装网络上比较成熟的 Skill
找一个每天重复做的工作流，让 Agent 帮你封装成 Skill
用一句话触发，体验"丢一句话出活"的感觉

Stage 3：进阶 CLI（第 3 周）

安装 Claude Code CLI / Codex CLI
把工作目录（如 Obsidian 仓库）接入
编写 CLAUDE.md，定义偏好和工作流

Stage 4：模型路由（第 4 周）

安装 CC Switch
注册国产模型（智谱、Minimax）
跑量任务切到国产模型，主力套餐留给攻坚任务

Stage 5：自动化（第 2 个月起）

配置 OpenClaw 或类似框架
把高频自动化任务迁移到后台
让 Agent 在你睡觉的时候继续工作

十、最后的话

这篇文章偏向入门，适合第一次接触 Coding Agent 的用户。但讲完工具的使用方法，我想强调的是——工具用好的关键不是工具本身，而是理念。

要让 AI 真正变成生产力工具，需要的是它能读文件、记偏好、按 SOP 干活、人不在的时候继续工作。Coding Agent 的核心从来不是某一个具体的工具，而是 模型 + Harness + Skill + 你自己的上下文 这四样东西的组合。

把这一步走通之后，还有更多的方向可以探索——知识管理、Vibe Coding、自动化工作流，每一个方向单独拎出来都值得写一篇长文。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Coding Agent 完全指南，Coding Agent从入门到进阶实操教程

#自动化 #Vibe Coding

请登录后发表评论