10 条回复  ·  1153 次点击
ryd994 小成 2025-10-14 14:52:07
要明确一点:oncall 的作用仅限于应急处置,不包括修复。就像急诊只管把病人救活,不治慢性病。 我们组是核心组件,SLA 要求非常高。经过几年时间的完善,从我刚入职时的 7x24 改成了 12x3 。 最初是一轮班就是 7 天 24 小时有电话进来,主要就是两个人负责整个大组,确实需要对所有组件都比较熟悉,挡不住了第三个叫到老板。两个人一般会商量好轮流休息。 现在一轮班 3 天,晚上有印度组负责。大组两个人负责基本的 debug 和分流。每个小组还有两个人负责深度调查。大组 oncall 解决不了的时候再问小组 oncall 。或者应急处置之后后续交给小组跟进。小组 oncall 大部分时间没事,不影响正常工作。 如果是真的出了大问题,sev1 ,那会把所有小组的 manager 全部叫起来。所以在我们这里,manager 比 IC 累多了。
12
返回顶部