职位描述
岗位职责:
1、负责面向客户的服务监控的实施和管理,提高服务稳定性和可靠性,与DevOps团队保持高效沟通,建立良好的合作关系。
2、负责应用服务监控系统的建设和监控指标的制定,并不断完善监控手段。
3、提高服务可靠性,降低MTTA/MTTR。优化SLO质量指标,不断减少服务故障和问题。
4、负责编制SOP手册、运维规范流程文件,保证工作内容和流程的规范性,保证运维安全,提高运维效率。
5、优化服务监控和管理流程,包括故障、问题和变更管理。
6、设计和实施DevOps、CI/CD、发布流程和相关自动化。实施和改进(Jenkins、Pipeline、Github、Docker、Kubernetes)。
7、了解公共和私有云的概念,特别是计算、网络、存储和数据。
8、精通以下基础设施即代码(IaC)技术: Terraform, Monaco.
9、脚本语言,即Python编程语言,熟悉设计模式和监控工具(Dynatrace, Prometheus)。
10、了解云原生应用架构和微服务。
岗位要求:
1、3年以上运维工作经验,本科及以上学历。
2、熟悉IT运营的流程和方法,即ITILv4。
3、熟悉APM工具,如Dynatrace优先,其他监控系统如Zabbix、Grafana、Prometheus等。
4、有丰富的故障排除和解决系统故障的经验,分析问题和解决问题的能力突出。
5、有良好的故障排除和经验,能快速解决在线事故。
6、熟悉SRE运维体系者优先。
7、具有良好的沟通和协作能力,学习能力和团队精神
8、良好的英语听、说、读、写能力,需要与全球团队保持沟通和协作。
9、较强的软技能--沟通能力/分析和解决问题/报告/多任务处理等。
10、对敏捷开发方法和交付驱动有深刻理解。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕