职位描述
工作内容:
1、负责监控和维护视频AI平台的稳定运行,及时检测和解决潜在问题,并提供紧急响应和故障排除。
2、研究和探索新的技术和工具,如容器化、微服务架构等,以改善系统的可扩展性、可靠性和弹性。
3、应用SRE(Site Reliability Engineering)实践,通过监控、警报和记录等手段,确保计算和调度平台的可靠性、可用性和性能。
4、进行容量规划和性能优化,通过对系统资源的监控和分析,提前预测和处理潜在的性能瓶颈和资源不足问题。
5、设计和实施自动化工作流程和工具,例如自动化部署、升级和配置管理,提高运维效率,并减少人工错误风险。
6、建立和维护监控系统和警报机制,监测系统的健康状况、性能指标和关键指标,并实时响应和解决任何异常情况。
7、提供自动化的响应和故障排除,例如自动化恢复机制、故障注入测试等,保证系统的高可用性和快速恢复能力。
工作要求:
1、具备较强的操作系统(如Linux)和网络基础知识,熟悉常用的服务器管理和网络设备配置。
2、熟悉编程和脚本语言,如Shell、Python等,能够编写和维护自动化脚本和工具。
3、拥有良好的故障排除和问题解决能力,能够通过数据和日志分析,快速定位和解决复杂的系统问题。有敏锐的观察力和强大的应变能力,能够在高压下保持冷静并迅速作出反应
4、具备良好的团队合作能力和沟通能力,能够与不同的团队合作解决问题。
5、具备SRE实践和理念的经验,熟悉常用的SRE工具和框架,如Prometheus、Grafana、ELK等
6、具备自动化运维工作经验,熟悉自动化运维工具和技术,如Ansible、Terraform等。
7、具备良好的编程能力,熟悉至少一种编程语言,如Python、Go等,在自动化工作流程和工具开发方面有相关经验;
8、深入理解分布式系统和云计算基础设施,熟悉容器技术(如Docker、Kubernetes)和微服务架构概念。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕