#评测系统

Agent Eval 系统构建指南:概念、评估方法与落地路线
如果你在做 AI Agent,迟早会遇到一个的问题:用户说“这个版本好像变差了”,但你很难说清楚到底差在哪里。 是模型能力退步了?Prompt 改坏了?工具调用路径变长了?某个边界 case 被破坏了?还是只是一次随…