职位描述
岗位职责:
1、负责统筹监控运维工具的自监控告警、故障出来定位工作;
2、负责整理监控相关问题,反馈技术研发人员处理,并跟进问题解决过程,形成闭环记录;
3、负责统筹监控运维工具的私有化部署工作,负责资源、监控纳管和接入工作;
4、负责监控运维工具的异常检测、根因分析、故障自愈、告警收敛等策略的研究与落地;
5、负责监控体系的架构优化和智能化监控的建设,提升监控和告警的精确度;
6、参与运维工具设计与实施,参与系统架构的可运维性设计。
任职要求:
1.掌握主流开源监控软件的架构、配置使用,如prometheus、grafana等;具有生产环境核心组件、业务、数据库(如MySQL、Redis)、中间件(Nginx、Kafka、Flink、Spark Streaming)监控经验;
2.熟练网络基础协议,熟练基本网络工具;
3.拥有从0到1的大型生产环境的监控体系建设经验者,优先考虑;
4.熟悉cicd流程以及相关devops技术;
5.熟悉监控(prometheus、zabbix)工具使用
6.具备良好的团队合作能力,学习能力,分析解决问题能力,能独立承担任务。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕