最近 Token 市场越来越热闹。Agent 调用量的暴增,Anthropic、智谱等 AI 公司恐怖的 ARR 增幅,让各方都拼命挤向 Token 服务市场。多方混战之下,Token 价格成了当前大家最为关注的事情。
市场上 Token 的价格信息非常混乱,对于普通人而言完全搞不懂百万 token 到底值多少。对于很多业内人士,对定价也很头疼:
- 一边是纷纷提价:各大平台大幅上调 Coding Plan 的门槛价或改变计费模式来应对算力成本的激增。阿里百炼平台上曾经爆火的 Lite 版套餐早已停售,200 元/月的 Pro 版还要抢购,智谱、Seedance 等都不同程度变相涨价。
- 另一边是大幅降价:DeepSeek、小米 Mimo 模型又宣布永久降价。DeepSeek 输出 2 元/百万 token,输入缓存命中低至 0.025/百万 token。小米 Mimo 宣布降价 99%,价格直降对标 DeepSeek。
- 海外更是贵 100 倍:Claude Opus 4.7、GPT-5.5 等百万 Token 输出在 20 美元以上,几乎相差了 100 倍。
苏米注:这些纷繁复杂的信息背后,不管是对运营方还是用户,都有一个核心问题:token 到底该值多少钱?
成本端:算出一个锚点
回答 token 值多少钱,先从成本端算起。请教了几个业内朋友,居然对 token 的成本也都不是那么确定,因为不同的电费、不同的 GPU、不同的模型、不同的折旧时限等因素,算下来 token 成本可以差异巨大。
为了有个锚点,先简单用几个基本假设来测算成本。采用等效 H100、GPU 折旧按 3 年、电力成本按 0.5 元、PUE 按 1.3、利用率按 70%、采用 70B 参数精度 FP8 来测算:
- 单卡日成本 = 折旧成本约 220 元/日 + 单日电费 16 元 + 运维费 20 元/日 = 256 元
- 单卡单日产出输出 token = 300×3600×24×0.7 = 14 百万 token
- 单卡单日产出输入 token = 2500×3600×24×0.7 = 151 百万 token
得出:
- 百万输出 token 成本 = 256/14 = 18.4 元
- 百万输入 token 成本 = 256/151 = 1.7 元
如果是长上下文(32K~128K)产出还得打折,输出成本直奔 30 元。这个结果在量级上应该差不多,很多国内模型的输出定价都介乎 20 元到 30 元左右,输入定价在 1 到 2 元左右。
三个反直觉结论
真正去算一下成本,有几个反直觉结论:
- 电费影响没有想象中大:虽然电费在运营变动成本里占比很高,但由于现在算力设备昂贵、迭代迅速,如果要更为合理地做资产折旧的话,电费整体影响没有想象中大。电的影响,更多是有没有电力资源、批不批建设。
- 国外算力成本并不比国内多:按以上成本构成来测算,考虑到算力卡等因素占比更高,国外 AI 算力成本实际和国内差不多。交叉验证了下,有海外算力租用,H100 的价格大概在 2 美元 1 小时,一天大约 336 元人民币,和前面测算大差不差。
- 国外模型定价差异不在成本:国内模型远比几个国外大厂模型便宜,更多在于其他因素。国内的模型定价大多贴着成本在定,并没有想象中那么赚钱。而海外 Claude、GPT 等模型,定价在 20 刀以上,利润是比较高的。
用户端:重要的不是 Token 量,而是价值密度
当前国内 Token 语境中,有点过度强调 token 的标准性,给普通人一种 token 就是未来的水电煤的印象。但实际上,Token 承载的是信息、推理、行动和结果。
就如同雇佣一个员工一样,不同人产生的价值差异巨大。同样 100 万 token,有的能直接帮你做正确判断、准确按需求开发好的代码,有些可能做了大半天后方向有问题。
苏米注:好的模型,比如 Claude,做同样的事情使用的 token 量并不大,就像一个惜字如金但水平极高的工程师。有些模型做一个事情会反复思考、反复试错,花了不少精力和时间才能搞定一个事情。前者哪怕贵一点,用户也愿意买单。因为用户最终买的,从来不是 token 本身,而是 token 带来的结果。
所以,token 反映的不是字数,它本质上是智能载体,它的价格取决于价值密度,也就是单位 token 数量能干活的程度。这是 token 定价最底层的逻辑。
尤其是对于 2B 而言,采购 Token 相当于采购人力,其价格最高不能高于同等水平的人力成本。Claude 近期 ARR 的暴增,很大程度是其模型的严谨性、幻觉低、可用性很高,实现了对很多公司法律事务、软件开发等工作的替代。对于商业公司而言,支出 Token 费用远远低于雇佣人的费用。
DeepSeek 掀桌子:工程创新带来的竞争范式
前面的分析,基本可以解释大部分情况:大部分模型厂商按照成本定价,部分优质模型厂商按照市场价值定价。但为何 DeepSeek 和 Mimo 在算力成本高企的当下,突然大幅降价?答案是:用工程技术创新,倒逼竞争。
两者的定价都无限接近:
- 输入缓存命中降到了 0.025/百万 token
- 输入和输出,普通版和 Pro 版都是 1 元/3 元/2 元/6 元水平
价格不仅远低于国外模型,比国内阿里千问、腾讯混元、Kimi、智谱都低几倍。降价背后是工程创新:
- DeepSeek:MoE + 稀疏注意力 + 自研 KV 长缓存 + 国产推理算力
- 小米 Mimo:MoE 专家并行优化 + Hybrid SWA + 分层 KV 缓存
这些本质上都是极致的工程创新提升效率,把算力和电力都用到用户真正需要的地方。
苏米观察:现在 Agent 才是当前 token 消耗真正放大的地方。Chat 的 token 量是很少的,而 Agent 一个任务里包含了长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。大量把对话、记忆内容作为输入,所以增大缓存命中是降本的核心。
这一轮的降价,给 Token 的竞争带来了更多有意思的角度。之前各大服务商重点是拼算力基础设施,但 DeepSeek 们证明了,技术是可以降维打击的。更优质的模型、更完美的场景适配、低几倍的价格,一定会逐步蚕食市场。
总结:Token 之争,本质还是技术之争
回到最初的问题,Token 到底该值多少钱?
- 从传统成本看,它值 20 元/百万输出
- 从价值产出看,不同模型可以差异巨大,它可以值 200 元/百万输出
- 从新技术带来的效率创新看,它可以值 2 元/百万输出
它既是能力价值之争,也是成本效率之争。能力价值决定了上限,成本效率决定了下限。技术的因素,远比过往重要。Token 战争才刚刚开始,远比我们想象中精彩。