Yaqin HeiAbout
← All posts

性能排查

1 post

CPU 没满、QPS 没涨,P99 却翻倍——是运维看板在偷偷掐住客服 Agent

一条周期性的 P99 尖峰,每隔几分钟准时来一次,但 CPU、QPS、错误率全是平的,Agent 代码一行没改。所有人第一反应都是「ES 检索慢了」——查了一圈,ES 全是 async,干净得很。真凶是另一个你绝不会去怀疑的地方:那个用来观测 Agent 的运维看板,自己把 Agent 掐住了。这一篇是那次排查的工程复盘:单线程 event loop 上一个同步调用怎么冻住全员、怎么把尖峰时间戳对齐到看板刷新、两行修复(to_thread + TTL cache)、以及本周能给自己 async 服务装的 10 个 event-loop 探针。读完 20 分钟,你能在自己的服务里抓出同一类「一个同步调用拖垮一整个 loop」的洞。

Jun 10, 2026·20分钟阅读

微信公众号 京墨AI研习社 @HeiLabAI · 视频号 Yaqin.AI

X @yaqinhei · GitHub @AmyHei · amyheiny@gmail.com

© 2026 Yaqin Hei · About