用 Claude Code 或其他 AI 编码工具的人,大多碰过两个问题:要么半个月就用完月度额度,要么 API 账单超预期。很少有人意识到,你花的钱里 80% 都浪费在了冗余输出、重复读取全代码库、没用的命令日志和堆叠的对话历史上。
社区博主 Charly 一次性整理出 10 款专门解决这个问题的开源工具,适配几乎所有主流 AI 编码工具,最高能把大项目的 Token 消耗砍到原来的 1/49。
一、输出压缩类:直接砍 AI 废话的 Token
最容易见效的类别,不需要改工作流,装完直接生效。
1. Caveman
核心是让 AI 砍掉所有冗余套话,只输出核心内容。实测平均减少 65% 输出 Token,最高到 87%,技术准确率 100%,同时响应速度快 3 倍。
实际对比:
- 普通 Claude 回答 React 重渲染问题:69 Token,包含"我来帮你看""这是常见问题"之类的套话
- Caveman 模式下:19 Token,直接给原因和解决方案"New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo."
实测基准:
| 任务 | 普通 Claude Token | Caveman Token | 节省比例 |
|---|---|---|---|
| 修复 React 重渲染 Bug | 1180 | 159 | 87% |
| 修复 Auth 中间件 Token 过期 | 704 | 121 | 83% |
| Debug PostgreSQL 竞态条件 | 1200 | 232 | 81% |
| 实现 React 错误边界 | 3454 | 445 | 87% |
额外功能:支持一键生成符合规范的短 Commit 信息、单行 PR 评论、压缩项目文档,还能统计累计节省的 Token 和对应美元金额。
支持 30+ AI 工具:Claude Code、Cursor、Windsurf、Copilot、Gemini 等,安装一行命令搞定:
# macOS/Linux/WSL
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash
仓库:github.com/JuliusBrussee/caveman
苏米注:Caveman 的原理其实是在系统提示词里注入"简洁模式"指令,让模型默认输出最短回答。我用下来最大的感受是——它不会牺牲回答质量,反而因为去掉了废话,核心信息更突出了。强烈建议所有 Claude Code 用户先装这个,收益最明显。
二、命令输出过滤类:砍终端冗余日志的 Token
AI 编码工具执行命令时,会把所有输出全部塞进上下文,大部分是没用的进度条、重复日志、boilerplate,这部分占了日常 Token 消耗的大头。
2. RTK (Rust Token Killer)
Rust 写的高性能 CLI 代理,无依赖,启动 overhead 不到 10ms,自动过滤所有命令的冗余输出。实测 30 分钟的 Claude Code 会话,总 Token 从 11.8 万降到 2.39 万,省 80%。
工作原理:
Without rtk: With rtk:
Claude --git status--> shell --> git Claude --git status--> RTK --> git
^ | ^ | |
| ~2,000 tokens (raw) | | ~200 tokens | filter |
+--------------------------------+ +------- (filtered) ---+----------+
30 分钟会话实测 Token 节省:
| 操作 | 标准 Token | RTK 优化后 | 节省比例 |
|---|---|---|---|
| ls/tree | 2000 | 400 | 80% |
| cat/read | 40000 | 12000 | 70% |
| grep/rg | 16000 | 3200 | 80% |
| git status | 3000 | 600 | 80% |
| git diff | 10000 | 2500 | 75% |
| cargo test/npm test | 25000 | 2500 | 90% |
| 合计 | ~118000 | ~23900 | 80% |
核心优化场景还包括构建/Lint 输出、云服务/容器命令等,平均省 80%。支持 13 款 AI 编码工具,安装后自动挂钩,不需要手动改命令:
brew install rtk
# 或 Linux/macOS 通用
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/refs/heads/master/install.sh | sh
隐私方面:默认关闭遥测,不会收集任何代码、文件路径、命令参数。
苏米注:RTK 解决的是一个很容易被忽视的痛点——终端输出。很多人以为 AI 编码的 Token 都花在代码上了,其实大量 Token 被浪费在 git status、npm install 进度条、测试输出这些"噪音"上。RTK 用 Rust 写的,性能几乎无损耗,装完就能感受到区别。
三、代码库上下文优化类:砍大项目、Monorepo 的无效 Token
这是浪费最严重的场景:AI 处理大项目时,每次任务都会重读整个代码库,99% 的内容和当前任务完全无关。
3. Code Review Graph
核心是用 Tree-sitter 把整个代码库解析成结构图谱(节点是函数、类、导入,边是调用、继承、测试关联),每次任务只给 AI 传和当前需求相关的代码,不是全库读取。实测平均减少 8.2 倍 Token,Next.js monorepo 27732 个文件,只需要读 15 个,省 49 倍 Token。

核心功能:
- 爆炸半径分析:改一个函数,自动追踪所有相关的调用方、依赖、测试文件,只给 AI 传这些内容
- 增量更新:每次文件保存、Git 提交,只重解析改动的文件,2900 个文件的项目更新不到 2 秒
- 支持 24 种语言 + Jupyter 笔记本:覆盖 Python、TypeScript、Go、Rust、Zig 等主流语言

实测基准:
| 项目 | 全量读取 Token | 图谱优化后 | 节省比例 |
|---|---|---|---|
| Gin | 21972 | 1153 | 16.4x |
| Flask | 44751 | 4252 | 9.1x |
| Next.js | 98821 | 2498 | 40.0x |
| FastAPI | 49446 | 614 | 81.1x |
支持 14 款 AI 编码工具,自动检测配置:

一行安装自动配置所有支持的平台:
pip install code-review-graph
code-review-graph install
code-review-graph build
仓库:github.com/tirth8205/code-review-graph
苏米注:Code Review Graph 是我认为这个项目里最有技术含量的工具。它不是简单地"减少上下文",而是真正理解了代码的依赖关系,只提取相关的部分。对于用 Monorepo 的团队来说,这个工具可能是决定性的——49 倍的 Token 节省意味着你之前根本不敢在大项目上用 AI 编码,现在可以了。
其余 7 款专项优化工具
剩下的工具针对特定场景,按需选用:
4. Context Mode
把原始输出存在本地 SQLite,不占用上下文,日志和 GitHub 相关内容的上下文消耗减少 98%,适合经常处理大量日志、GitHub Issue/PR 的场景。
仓库:github.com/mksglu/context-mode
5. Claude Token Optimizer
优化项目级提示词模板,把项目文档从 11k Token 压缩到 1.3k,省 90%,适合固定项目长期使用。
仓库:github.com/nadimtuhin/claude-token-optimizer
6. Token Optimizer
扫描上下文里的隐形幽灵 Token(比如看不见的格式字符、冗余标记),修复后能恢复 10-30% 的上下文空间,还能保护上下文质量。
仓库:github.com/alexgreensh/token-optimizer
7. Token Optimizer MCP
给所有 MCP 工具加 aggressive 缓存和压缩,平均省 95% 以上的 MCP 相关 Token,适合重度用 MCP 工具的用户。
仓库:github.com/ooples/token-optimizer-mcp
8. Claude Context
Zilliz 推出的混合向量搜索 MCP,把整个代码库变成可检索的上下文,成本比直接传全库低 40%,适合中等规模项目。
仓库:github.com/zilliztech/claude-context
9. Claude Token Efficient
只需要往仓库根目录丢一个 CLAUDE.md 文件,就能强制 AI 输出严格简洁,零代码改动,适合不想装额外工具的用户。
仓库:github.com/drona23/claude-token-efficient
10. Token Savior
按代码符号(函数、类)导航,不是读取整个文件,代码导航相关的 Token 消耗减少 97%,还有持久内存功能,不用重复传上下文。
仓库:github.com/mibayy/token-savior
场景选型指南
不用全装,根据自己的核心痛点选 2-3 个就行:
- 超大 Monorepo/多仓库项目:Code Review Graph + Token Savior
- 日常大量执行终端命令(测试、构建、Git):RTK
- 重度使用 MCP 工具、处理大量日志/GitHub 内容:Context Mode
- 要快速见效、不想改现有工作流:Caveman + Claude Token Efficient
不用工具也能省 Token 的 10 个习惯
除了工具,调整使用习惯就能省至少 50% 的 Token,很多人每天都在犯这些错误:
- 编辑原提示词,不要发追问:每加一条新消息,AI 都会重读之前所有的历史,第 30 条消息的成本是第 1 条的 31 倍。改原提示词点 Regenerate,不要堆对话。
- 每 15-20 条消息开新会话:有开发者统计,98.5% 的 Token 都花在了重读旧对话历史上。会话太长的时候,让 AI 总结一下内容,复制到新会话里当第一条消息。
- 批量提问不要分开发:三个问题分开发要三次加载上下文,合并成一条提问,省一半以上的 Token,答案质量还更高。
- 重复用的文件传到 Projects 功能:不要每次会话都上传同一份需求文档、设计稿、规范,传到 Claude 的 Projects 功能里,缓存后不会重复消耗 Token。
- 设置好 Memory 和用户偏好:不要每次都写"我是前端开发,用 React,要简洁的带注释的代码",存到 Claude 的 Memory 里,自动应用到所有新会话。
- 关掉不用的功能:Web 搜索、连接器、高级思考功能,不用就关,这些功能会给每条响应加额外的 Token。
- 简单任务用低成本模型:语法检查、格式调整、brainstorm、翻译这些简单任务,用 Claude Haiku 就行,成本比 Sonnet 低 75%,比 Opus 低 90%。
- 分散工作时间:Claude 的额度是滚动 5 小时计算的,不是按天重置。分成上午、下午、晚上三个时段用,额度自动恢复。
- 高峰时段外跑重任务:Anthropic 在高峰时段会更快消耗你的额度,跑大的重构、全库扫描这类重任务,选晚上或者周末。
- 开超额使用当安全网:Pro、Max 用户可以在设置里开超额使用,设好月度上限,不会在关键工作的时候突然断额度。
苏米注:这 10 个习惯里,我觉得最有价值的是"编辑原提示词"和"每 15-20 条消息开新会话"。这两个习惯改过来,Token 消耗直接砍半。很多人不知道 Claude 的额度是滚动计算的,不是按天重置,这个认知偏差导致很多人白白浪费额度。
这些工具全都是 MIT 协议开源,本地运行,没有云依赖,不会泄露代码。很多开发者用了之后直接从 Claude Max 套餐降到 Pro,每月省几百刀。