职位描述
工作职责
1设计、部署和维护网络及服务器基础设施,特别是支持ML模型开发和部署的本地服务器数据中心
2支持组织的技术系统和应用程序,包括本地服务器、存储系统、网络等核心基础设施组件管理和优化本地GPU工作站环境,用于ML模型的训练与部署设计和维护数据管道与存储系统,用于数据收集与准备监控和评估ML模型的性能,确保其在本地数据中心中的高效运行准备相关的软件和硬件文档监控系统与网络性能指标,确保高效的RPC流量管理与IT团队合作,确保本地数据中心和基础设施的正常运行
3制定并测试灾难恢复计划
4开发和管理ETL(提取、转换、加载)管道,以导入客户端数据。
5使用SQL和NoSQL数据库构建和优化数据存储解决方案。
6与后端工程师和数据分析师合作,确保数据无缝集成。
7确保数据管道中的数据完整性和可扩展性。监控数据工作流程,必要时对问题进行故障排除。
岗位要求
1.计算机科学或相关领域的学士学位
2.5年以上网络和服务器管理经验
3.拥有机器学习模型部署的本地服务器数据中心管理经验熟悉数据管道及本地存储系统
4.对TCP/IP及其他网络协议有深入了解精通GPU工作站的部署与管理具备系统与网络性能监控工具的使用经验优秀的问题解决能力与组织能力
能够独立工作,同时具备团队合作精神岗位要求:
5.对x86的硬件有深刻理解,熟悉GPU数据中心的组建,深刻理解:硬件虚拟化、硬件资源池化、NVLink、NVSwtich、NCCL(MapReduce、TreeReduce、RingReduce等)、InfiniBand、VMware Cloud Foundation、Docker、K8s、有完整的容灾、负载瓶颈监控日志调度经验、Sql-ETL、Hadoop2、HBase、Spark、Scala、DHP解决方案、熟悉TCP和http编程协议栈可以打通业务数据ETL的全部连通环节。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕