职位描述
工作职责:
1、负责ACS国产化云平台大模型推理集群日常的监控、标准处理、可控风险变更、报表制作和性能容量分析等运维工作;
2、负责ACS国产化云平台大模型训练集群日常的监控、标准处理、可控风险变更、报表制作和性能容量分析等运维工作;
3、根据行里运维目标,参与AI大模型云平台的运维开发工作,通过运维工具的不断优化运维质量和效率;
4、负责处理来自研发的标准化问题,以及处理研发的标准服务请求;
5、参与AI基础设施建设和测试等工作。
任职要求:
1、本科及以上学历,计算机科学与技术、软件工程、人工智能、数据科学与大数据技术等IT相关专业;
2、熟练掌握至少一种编程语言:Java、Python、Go语言等,掌握数据结构、函数、模块等基础知识,能够进行简单的算法实现;
3、掌握常见算法和数据结构:掌握排序等算法,数组、链表、栈、队列、树、图等数据结构;
4、具备良好的沟通能力,能够清晰高效理解运维产品设计思路,具备交互思维,具有全局观,能独立推动项目前进;
5、具备较强的学习能力,能够快速掌握新的知识和技能,对IT技术有一定热情。
6、具备英伟达NVIDIA DLI相关培训和认证资质的优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕