职位描述
岗位职责:
1.负责分布式训练相关性能优化,包括数据加载、计算和显存优化等
2.负责研发大模型高效容错技术,保证大模型能够持续训练。
3.研究不同集群或者不同硬件配置上的最优并行策略和优化方法以及相关自动化技术。
4.设计和开发大模型分布式训练系统,并探索相关前沿技术应用到实际项目中。
5.负责对接和制作AI大模型产品的需求和业务改动。
6.负责语音识算法的研究与开发,如声学模型训练、语言模型训练、解码器系统。
7.负责语音识别模型训练及新算法应用,配合产品完成业务相关的需求及指标。
任职要求:
1.2年以上相关工作经历,良好的技术沟通及协作能力。
2.高性能计算、计算机体系结构、分布式系统或人工智能相关专业。
3.编程能力扎实,熟练掌握Python、C/C++,具备系统开发落地能力。
4.熟悉PyTorch,了解PaddlePaddle、MindSpore、Tensorflow或者JAX等深度学习框架
5.熟悉Megatron-LM、DeepSpeed、Accelerate、Alpa、Ray等大模型分布式训练系统。
6.精通CC,Python,Shell编程语言,对数据结构和算法设计有深刻理解 ;
7.熟悉语音识别和深度学习技术,包括GMM,HMM,DNN,LSTM,Viterbi等相关算法在语音识别中的应用等,熟练掌握Kaldi,SRiLM,RNNLM,TensorFlow等社区开源工具中的一种及以上。
8.熟悉ChatGPT,ChatGLM等大模型对接技术和并具备语音识别技术,对声学模型、语言模型或一体化模型有实际开发应用经验。
9.拥有相关大模型分布式系统开发经验优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕