职位描述
【工作职责】
一. 硬件维护和管理
1. 负责 GPU、CPU服务器的日常巡检和故障排查
2. 监控服务器的关键指标,如温度、功耗、硬盘使用等
3. 根据需求进行 GPU、内存、磁盘等硬件的升级和扩容
4. 定期进行硬件清洁和维护,确保设备稳定运行
二. 系统维护和优化
1. 负责 GPU 服务器操作系统的安装、配置和升级
2. 优化操作系统和软件配置,提高系统性能和稳定性
3. 管理系统用户账号和权限,确保系统安全
三. 软件和驱动管理
1. 负责 GPU 驱动、CUDA 工具包等软件的部署和更新
2. 根据应用需求,选择合适的GPU驱动版本进行部署
四. 性能调优和问题解决
1. 监控 GPU、CPU 服务器的性能指标,发现并解决性能瓶颈
2. 根据应用需求,优化 GPU、CPU 资源的分配和利用
3. 分析系统日志,排查并解决各类故障和问题
五. 自动化运维和监控
1. 建立系统监控和告警机制,及时发现并处理异常
2. 开发自动化脚本(shell、python、goland其中一种语言),提高运维效率和可靠性
【任职要求】
1. 计算机相关专业本科及以上学历,5年以上IT运维经验,至少2年以上IDC运维经验
2. 学习能力强,技术兴趣广泛;责任心强,有良好的团队合作精神;能独立完成工作
3. 熟练Linux服务器操作系统的管理维护,能够定位硬件故障;有较强的分析、解决问题的能力;
4. 熟悉机房施工综合布线规范,能够独立完成网络、服务器系统软硬件方面的基础设施底层的搭建工作;
5. 熟悉掌握华为、H3C等主流品牌网络设备的操作和安装,能够对发生的网络故障进行快速定位和随机应变的能力;
6. 熟悉自动化运维技术(ansible或salt),能充分利用自动化运维来提供工作效率;
【其他要求】
1. 能够接受轮班或紧急情况下的加班;
2. 具备较强的责任心和抗压能力,能够在高压环境下工作;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕