1.6万-2.3万·16薪
宁德时代新能源科技股份有限公司科技大楼
岗位职责:
1、负责超算智算系统平台的日常维护,包括门户、调度系统、监控软件等,确保平台稳定运行;
2、负责作业调度系统策略的制定和优化,提高集群资源利用率和作业执行效率;
3、定期编制集群运行情况分析报告,包括月度、季度和年底报告,为平台优化提供数据支持;
4、对接平台软件厂商,管理、跟踪和测试平台定制化功能需求,确保需求按时按质实现;
5、负责CAE计算软件在集群的安装部署、集成调试,确保软件兼容性和性能;
6、解答用户在使用平台过程中遇到的问题,提供技术支持,提升用户满意度;
7、排查和解决平台软件的BUG,保障平台软件的高可用性;
8、参与超算智算平台的相关项目,提供专业意见和技术支持,推动项目顺利进行;
9、负责平台软件的升级、更新和备份工作,确保软件环境的持续优化;
10、跟踪最新的超算智算技术动态,提出平台软件和硬件的升级改造建议。
岗位要求:
1、计算机科学、软件工程、信息技术等相关专业,本科及以上学历;
2、具备3年以上超算智算系统平台运维经验,熟悉高性能计算环境,具备万核集群运维经验优先;
3、熟悉Linux/Unix操作系统和Shell/Python脚本编程,具备良好的系统管理能力;
4、熟悉主流作业调度系统(如Slurm、PBS、LSF等)的配置和管理;
5、具备监控软件(如Prometheus、Zabbix、Grafana等)的维护和优化经验;
6、熟悉VMware、OpenStack、阿里云、华为云、腾讯云等云平台的操作和使用;
7、熟悉Linux操作系统操作和维护,包括linux常见命令使用、linux系统相关文件系统、网络等基础知识;
8、熟悉容器技术,包括K8S、Docker;有aws、azure、阿里云、华为云、腾讯云等主流云计算厂商认证者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕