Blog
8 张 4090 微调 235B 模型:RoundPipe 如何打破消费级 GPU 训练的天花板
RoundPipe 通过无状态 GPU 池和非对称流水线切分,在 8 张 4090 上实现 235B MoE 模型的 LoRA 微调,吞吐量达到 A800 方案的 76%+。
Agent Benchmark 正在失效:为什么静态评估无法衡量真实的 Agent 能力
Claw-Eval-Live 揭示静态 Agent 评估的三种失效模式,提出需求驱动的活 benchmark 设计——季度刷新任务分布,同时保持版本内可复现。
In-Context Learning 能力的真实边界:LLM 从上下文「学会」技能了吗?
Ctx2Skill 提出自演化的多 Agent 自博弈框架,从上下文中自动发现、提炼和选择技能——无需人工标注或外部反馈。核心问题:LLM 真的能从上下文中学习技能,还是只是模式匹配?
OpenAI 低延迟语音 AI 的工程架构拆解:当 WebRTC 遇上 Kubernetes
OpenAI 公开了其 Realtime API 背后的 WebRTC 基础设施设计——relay + transceiver 分离架构。本文拆解这套系统如何在 Kubernetes 上解决 WebRTC 的端口爆炸和状态粘性问题,以及无状态转发层的工程哲学。
Notes on Obsidian as a Developer's Writing Tool
Why Obsidian has become my go-to tool for technical writing, and how it integrates with a Git-based blog.
No matching posts found.