#OctoCodingBench

OctoCodingBench :MiniMax 开源的 Coding Agent 评测数据集与流程
过去几个月,我几乎每周都换着法子试 Coding Agent:从 Cursor 到 TRAE,再到 Claude Code。 一个越来越明确的感受是——能跑不等于能用。 很多时候,模型把测试跑通了,但把仓库规约、权限…