职位详情
超智算平台工程师 (MJ027225)
1.5万-3万
宁德时代新能源科技股份有限公司
宁德
5-10年
本科
11-15
工作地址

宁德时代新能源科技股份有限公司科技大楼

职位描述

岗位职责:

1、负责超算智算系统平台的日常维护,包括门户、调度系统、监控软件等,确保平台稳定运行;

2、负责作业调度系统策略的制定和优化,提高集群资源利用率和作业执行效率;

3、定期编制集群运行情况分析报告,包括月度、季度和年底报告,为平台优化提供数据支持;

4、对接平台软件厂商,管理、跟踪和测试平台定制化功能需求,确保需求按时按质实现;

5、负责CAE计算软件在集群的安装部署、集成调试,确保软件兼容性和性能;

6、解答用户在使用平台过程中遇到的问题,提供技术支持,提升用户满意度;

7、排查和解决平台软件的BUG,保障平台软件的高可用性;

8、参与超算智算平台的相关项目,提供专业意见和技术支持,推动项目顺利进行;

9、负责平台软件的升级、更新和备份工作,确保软件环境的持续优化;

10、跟踪最新的超算智算技术动态,提出平台软件和硬件的升级改造建议。


岗位要求:

1、计算机科学、软件工程、信息技术等相关专业,本科及以上学历;

2、具备3年以上超算智算系统平台运维经验,熟悉高性能计算环境,具备万核集群运维经验优先;

3、熟悉Linux/Unix操作系统和Shell/Python脚本编程,具备良好的系统管理能力;

4、熟悉主流作业调度系统(如Slurm、PBS、LSF等)的配置和管理;

5、具备监控软件(如Prometheus、Zabbix、Grafana等)的维护和优化经验;

6、熟悉VMware、OpenStack、阿里云、华为云、腾讯云等云平台的操作和使用;

7、熟悉Linux操作系统操作和维护,包括linux常见命令使用、linux系统相关文件系统、网络等基础知识;

8、熟悉容器技术,包括K8S、Docker;有aws、azure、阿里云、华为云、腾讯云等主流云计算厂商认证者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请