岗位职责:
1.熟悉安装和配置GPU服务器上的系统和驱动程序,能够海量部署服务器,确保其正常运行并达到性能标准;
2.熟悉nvidia相关驱动的安装及调试,能够解决相关问题;
3.能够独立处理各种应用场景的解决方案,协助终端客户完成产品验收、物理检查、系统检测等;
4.维护和优化GPU服务器,确保服务器高效运行;
5.实施GPU集群的搭建及管理,集群性能的压测,集群方案的制订及优化。
6.对浪潮、超聚变、英伟达模组等较精通。
任职资格:
1.计算机科学、电子工程或相关专业本科及以上学历;
2.熟悉英伟达GPU服务器,具备丰富的GPU服务器集群部署经验;
3.熟悉cuda架构,熟悉至少一种训练框架,对RDMA网络有一定的了解;
4.大数据中心工作经验者优先。