#评测
OpenCode 发布大模型调用数据报告:DeepSeek 用量第一,Qwen 缓存命中率 98%
OpenCode 近日正式发布 OpenCode Data Report,开发者现可通过官方页面实时获取大模型调用数据。报告涵盖了 2026 年 4 月 18 日至 6 月 12 日期间的编码代理领域数据,揭示了当前 AI 编码市场的"性能…
GLM-5.2 + ZCode vs GPT-5.5 + Codex 实测对比:国产 Coding 模型能否一战?
智谱的 GLM-5.2 确实打破了我对国产模型 Coding 能力的偏见。它的实力能跟 Claude 和 GPT 坐一桌,用它做开发完全没有问题。
实话实说,GLM 最新系列在我心中一直是国产 Coding 大哥,算是目前在商业闭源模型打压…
Claude Opus 4.8 深度解析:从聊天机器人到自主工作系统的进化
Claude Opus 4.8 发布后,开发者的评价呈现一致性:它更擅长执行任务了,但也展现出更强的"个性"
这次更新没有出现"一夜之间碾压所有模型"的戏剧性效果,官方 benchmark 的分数提升幅度也并不惊人
但真正引发广泛讨论的,是…
企业级 AI Coding 的 15 个现实问题:从代码质量到安全挑战的深度解析
如果你的团队正在使用 AI 辅助编码(无论使用何种工具),下面这些问题你大概率正在经历,或者即将面临。AI Coding 并非万能,它目前有着明确的边界和限制。了解这些挑战,比盲目相信"AI 让开发效率提升 10 倍"更为重要。
一、"80…
Step 3.7 Flash:10 秒生成千行代码,生产级 Agent 的高效率之选
阶跃星辰是国内 AI 公司中较为低调但技术实力强劲的一家。从开源 Step 3.5 Flash 到推出 Step Audio 2.0,其模型迭代速度一直很快。5 月 30 日,Step 3.7 Flash 正式上线。
根据官方信息,Step…
Qwen 3.7-Max上线百炼平台:性能超越GLM-5.1,Qwen市场关注度待观察
阿里巴巴发布了最新旗舰模型 Qwen 3.7-Max,定位为专为 Agent 场景设计的模型。该模型在编程、推理等核心能力上进行了针对性优化,支持复杂编程、多智能体协作和生产级办公自动化等高难度任务。
性能评测
在 Arena Leade…
智谱 GLM-5.1 高速版上线,全球最快旗舰API,7倍提速开始喷代码
智谱 AI 正式推出 GLM-5.1 高速版,定位旗舰模型,主打全球最快 API 响应速度。官方数据显示,GLM-5.1 高速版相比标准版实现了约 7 倍提速,首 token 时间(TTFT)低于 1 秒,同时保持旗舰级模型能力。
性能实测…
4款国产通用智能体深度横评:百度DuMate、WorkBuddy、QoderWork、QClaw六大维度实测对比
如果 AI 工具不能真的帮我干活,它的参数再厉害也没有任何用。
当我想要让 AI 帮我把一组数据填入表格中时,普通 AI 只是把数据列成了表,最后还是要我手动复制到表格文件中。而通用智能体是这样处理的——它直接联网学…
7款AI生成PPT工具横评:Gamma、NotebookLM、Codex、frontend-slides实测,出稿vs磨稿场景选择指南
AI 生成 PPT 是 2026 年最卷的赛道之一。从 Gamma 的早期创新到国内 AI PPT.cn 的跟进,再到 Codex、Claude Code 等编程工具反向切入,PPT 生成已经形成了"模板填充"和"代码渲染"两条完全不同的技…
WorkBuddy专家与专家团功能实测
WorkBuddy提供专家(Expert)和专家团(Expert Team)两种AI协作模式。本文通过实际测试,对比两种模式的使用体验和效果。
单一专家模式:UI设计专家
首先测试单一专家模式,选择UI设计专家来完成一个AI ERP产品首页…