职位描述
岗位职责:
1.负责GPU服务器、IB组网或者RoCE组网(前期可以第三方合作)、存储系统、基础网络及安全设备的日常维护和技术支持;
2.对设备进行上下架、综合布线、配置变更、系统安装、网络调试、硬件维护、拆装网卡、GPU,以及简单维修等工作;
3.协助托管机房对设备进行日常巡检、保障处理等工作;
4.负责GPU集群调度与优化、持续提升利用率与易用性;
5.负责GPU集群日常管理、保障集群的正常运转,并且前瞻性的解决网络、电力、硬件可能发生的问题;
6.具有较强的学习能力,可以通过用户手册、技术资料快速定位和排查故障;
7.配合清点涉及的设备资产、维保信息、备件备品等;
8.负责与运营商、机房、设备原厂等沟通,并解决相关问题;
任职要求:
1.计算机、网络、通信、电子等相关专业。
2.有AI行业及智算行业从业经验者、优先;
3.熟悉CPU、网卡、GPU、RAID卡等主要部件的基本工作原理,动手能力强,可独立进行安装、调试及故障排除;
4.熟悉Linux平台,可以对服务器进行基础维护与管理,熟悉Shell/Python,熟悉K8S,docker;
5.有K8S 组件运维、优化经验者优先;
6.有GPU集群的调度管理、优化经验者优先;
7.有GPU实际使用与优化经验者优先;
8.了解CUDA平台,了解大模型、深度学习应用者优先;
有计算机相关英语读写水平,工作主动性强,耐心细致,吃苦耐劳,有责任心,具备团队合作精神;
备注:岗位base三个地方,北京总部,上海、深圳分部,欢迎广大优秀人员投递!
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕