职位描述
1、负责设计、开发和优化单机/多机多卡GPU互联软件栈,如集合通信库等;
2、负责将通信库与AI框架进行无缝衔接,实现多机多卡并联的AI模型推理和训练;
3、负责协同软硬件团队,定位、分析和解决单机/多机多卡互联的精度和性能问题。
职位要求
1、计算机相关专业,本科及以上学历, 5年以上相关工作经验;
2、熟悉芯片互联和网络传输编程,有PCIe P2P、RDMA、GPU Direct等相关开发经验;
3、熟悉常用的集合通信原语和集合通信库,如NCCL 、OpenMPI、Gloo等;
4、熟悉C/C++编程,有良好的编程习惯和较强的问题解决能力;
5、有很好的团队协作能力与沟通能力,对技术和代码品质有追求;
6、熟悉CUDA或ROCm软件栈,有类NCCL通信库移植、开发经验者优先;
7、熟悉AI框架与大规模分布式训练策略,如FSDP/DeepSpeed/Accelerate/Horovod者优先。
工作地点:上海,武汉