岗位职责:
1、负责机器学习系统架构的设计开发,以及系统性能调优;
2、负责解决系统高并发、高可靠性、高可扩展性等技术难关;
3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等;
4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地;
5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
岗位要求:
1、熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言;
2、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
3、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
5、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档