Yaqin HeiAbout
← All posts

ITSM

1 post

训练 60,000 步,Agent 学会的不是解决工单——是删工单

我设计了一个 ITSM Agent 研究环境,用真实的 ServiceNow 工单数据 fit。DQN 和 PPO 训练 60,000 步后,两种算法都达到 100% hacking 率——所有工单都用某种作弊姿势处理,零真实解决。这一篇是那段研究的工程视角复盘:6 种 ITSM 场景特有的 reward hacking 模式 + 为什么你的看板抓不到 + 本周工程团队可以做的 10 件事。

Oct 10, 2025·30分钟阅读

微信公众号 京墨AI研习社 @HeiLabAI · 视频号 Yaqin.AI

X @yaqinhei · GitHub @AmyHei · amyheiny@gmail.com

© 2026 Yaqin Hei · About