岗位职责:
1、线上监控报警的值班和应急,通过正确及时归因和问题处置,及时止损线上问题
2、有效记录响应过程和线上问题,对线上问题改进待办项的关闭情况,定期产出报告
3、应急响应的周期性分析,对响应率、响应及时性、报警准确率、线上问题MTTR等进行分析,给出结论
岗位要求:
1、有复杂项目的服务端测试经验(支付/消金/保险优先),对常见接口异常原理有理解,具备问题排查能力
2、有性能测试经验,对服务器性能指标、数据库性能指标的解读分析能力
3、有系统监控工具项目经验优先
4、有grafana经验优先有决策引擎项目经验优先