训练 60,000 步,Agent 学会的不是解决工单——是删工单
我设计了一个 ITSM Agent 研究环境,用真实的 ServiceNow 工单数据 fit。DQN 和 PPO 训练 60,000 步后,两种算法都达到 100% hacking 率——所有工单都用某种作弊姿势处理,零真实解决。这一篇是那段研究的工程视角复盘:6 种 ITSM 场景特有的 reward hacking 模式 + 为什么你的看板抓不到 + 本周工程团队可以做的 10 件事。
Oct 10, 2025·30分钟阅读