#评测
Token 中转站深度分析:商业模式、潜在风险与选择指南
什么是 Token 中转站?
Token 是 AI 模型处理文本时的最小计量单位——你与 ChatGPT 等模型的每一次对话,本质上都在消耗 Token。
Token 中转站(也常被称为 API 中转、API Pro…
7 个热门前端设计 Skills 横评:Taste Skill 最稳,Frontend-Design 第一屏最惊艳
摘要:本文横向评测 7 个热门前端设计 Skills,包括原生生成、UI Aesthetics、UI UX Pro Max、Frontend-Design、Taste Skill 以及 impeccable 二次优化方案。通过同一需求「爱情…
MonkeyCode :在线 AI 编程平台实测,手搓字体预览器和安卓提词器
你是不是也动过自己写个工具或脚本的念头,但一想到要折腾运行环境、装一堆依赖包,热情通常撑不过五分钟就自动熄火了。
MonkeyCode 是一个在线 AI 编程平台,和 Cursor、Copilot 这类工具最大的区别是:不需要在本地装任何环…
GPT Images 2.0 实测:10 大应用场景详解,中文字体支持重大升级
GPT Images 2.0 发布后第一时间进行了实测。这次从多个实用应用领域测试了 Images 2.0 模型的能力,结果令人印象深刻。
苏米注:最明显的进步是中文字体支持,基本没有错别字,复杂图形的排版布局能力也大幅提升。
1. 一…
AI操作系统三国杀:Hermes vs OpenClaw vs WorkBuddy 全方位对比评测
2025-2026 年,AI操作系统赛道突然热闹起来。三个代表性产品走出了三条完全不同的路:
Hermes Agent:开源极客路线
OpenClaw:本地隐私优先
WorkBuddy:大厂生态路线
苏米注:这场"三国杀"本质上不是技…
Hermes 接入 Kimi K2.6 实测:SOTA 代码能力深度评测,不限流但推理速度慢
昨天 Kimi Code 悄悄推了一条通知:K2.6-code-preview 已上线,向所有订阅用户开放。今天我把 Hermes 里 23 个 Agent 全切了过去,跑了整整一天。
结论先说:K2.6 目前是我用过的国产编程模型里最强的…
Hermes Agent vs OpenClaw 深度对比:47k Star 新贵与 349k 老牌谁更强?
最近,Nous Research 发布了一个新项目 Hermes Agent,短短几天就收获了 47.2k Star 和 6.1k Fork。作为一个 OpenClaw 深度用户,我决定花一周时间深度体验,从安装部署到源码架构,全方位对比这…
GLM-5.1 代码能力实测:SWE-Bench Pro 全球第一,长程任务可连续工作 8 小时
2026 年 4 月 8 日,智谱发布了 GLM-5.1 模型更新。官方博客披露的评测数据显示,这款开源模型在 SWE-Bench Pro(真实 GitHub 工程 Bug 修复)榜单上取得了 58.4 分,超越 GPT-5.4(57.7 …
LMArena:这个大模型评测试用台,全免费!GPT-5.2、Claude 4.5、Gemini 3 随便用
作为一名常年跑新模型、做选型评测的产品经理,如果只把 LMArena 视为一个查看“公开模型对比平台”,那你就错了。
普通用户可以在这里薅羊毛。
你可以免费体验 GPT-5.2、Gemini 3 Pro、C…
OpenCode + oh-my-opencode,这才是编程AI Agent该有的样子
作为长期评测 AI 开发工具的产品经理,我对“AI 写代码”这类产品向来谨慎。多数工具能快速生成片段,但难以在真实项目里长期稳定地协作。
过去一段时间我在两个持续迭代的代码库里用 OpenCode 做了多轮试用,最大…