Blog
Agent Eval 全景:怎么评、怎么设计、怎么学
评测范式正在断裂。SWE-bench 退役后,Agent 产品团队该如何衡量真实能力?本文从实操流程、设计方法论、学习路径三个维度拆解 Agent Eval 全景。
X 开源推荐算法拆解:一个精妙的特化系统,而非通用推荐范式
X (Twitter) 2026 年开源的 For You 推荐算法是一个为自身场景量身定制的特化系统。本文从广告系统工程师视角分析其核心设计,并与字节、快手的通用架构对比,拆解其真实的可迁移价值。
No matching posts found.