Agent Eval 全景:怎么评、怎么设计、怎么学
评测范式正在断裂。SWE-bench 退役后,Agent 产品团队该如何衡量真实能力?本文从实操流程、设计方法论、学习路径三个维度拆解 Agent Eval 全景。
6 posts
← All tags评测范式正在断裂。SWE-bench 退役后,Agent 产品团队该如何衡量真实能力?本文从实操流程、设计方法论、学习路径三个维度拆解 Agent Eval 全景。
Claw-Eval-Live 揭示静态 Agent 评估的三种失效模式,提出需求驱动的活 benchmark 设计——季度刷新任务分布,同时保持版本内可复现。