岗位职责:
1、负责日常系统点检,安装、配置、优化及维护主流基础服务与应用;
2、处理系统故障、服务中断等线上问题,快速响应并恢复,撰写事故报告;分析监控数据(如Zabbix, Prometheus),识别潜在问题并提前预警;
3、编写自动化脚本(如Shell,Python)提升部署和管理效率。
4、管理系统的日常备份、恢复策略与演练,确保数据安全;执行定期系统巡检、健康检查和性能调优;
5、编写和维护详细的运维文档与系统拓扑图;加固操作系统、中间件和应用安全基线,修复安全漏洞;
6、分析系统瓶颈,进行性能调优,监控系统资源使用情况等;
7、参与信息化相关的管理工作。
任职要求:
1、本科及以上学历,计算机、信息技术或相关专业;3年以上系统运维经验,有K8S、Docker等实际管理工作并具有一定故障定位处理经验;
2、有监控系统(如Zabbix, Prometheus)的部署、配置、告警规则制定和使用经验;
3、熟悉Minio、Redis、Mysql、Kafka、Nginx,IIS等常用服务及组件的部署及运维工作,有数据库高可用部署经验优先;
4、熟悉网络基本原理,熟悉tcp/ip协议,熟悉容器网络的基本原理;
5、熟练使用基于云原生的Prometheus等监控工具对K8S集群进行监控和告警管理;
6、掌握shell/python/go任意一门语言,有运维开发经验优先;
7、熟悉常见CI/CD和自动化运维工具,如jenkins/git等,了解项目构建、打包、部署、配置管理等流程;
8、具备良好的工作流程、文档制定撰写习惯和良好的团队合作意识。