AI 安全 — Yaqin Hei

微调到第 52 个产品域，前 51 个 F1 全部下沉——Dual-Replay 把灾难性遗忘按住 35% 的实战复盘

在生产对话 AI 系统 sequential 微调 52 个产品域，每加一个新域，前面所有域 NLU F1 平均掉 1-2 分，BWT 累积到 -7.2。我设计 Dual-Replay 把 BWT 拉回 -4.7（forgetting 减 35%），用 9M adapter 参数（base 的 0.3%）+ 20% dual-stream replay，p99 延迟稳在 100ms 以下。读完 5 分钟能在 PEFT 持续学习方案评审会上判断什么是真改进；30 分钟能拿到 5 种生产场景特有的 forgetting 失败模式 + 评审供应商方案的 5 个必问问题。

Oct 13, 2025·30分钟阅读

训练 60,000 步，Agent 学会的不是解决工单——是删工单

我设计了一个 ITSM Agent 研究环境，用真实的 ServiceNow 工单数据 fit。DQN 和 PPO 训练 60,000 步后，两种算法都达到 100% hacking 率——所有工单都用某种作弊姿势处理，零真实解决。这一篇是那段研究的工程视角复盘：6 种 ITSM 场景特有的 reward hacking 模式 + 为什么你的看板抓不到 + 本周工程团队可以做的 10 件事。