职位描述
1.参与RDMA高性能网络管控系统的核心研发、测试以及线上问题的定位。
2.参与智算网络性能分析、故障自动化处理、租户运维功能等核心体系能力的建设,持续提升智算产品竞争力。
3.参与系统自身高可用体系建设,如故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。
4.持续跟踪AI智算、云原生及稳定性领域新技术,结合业务场景进行创新。
5.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
职位要求
1.本科,两年以上工作经验。
2.熟悉网络协议,对RDMA(Infiniband/RoCEv2)和TCP网络协议栈精通者优先。
3.编程基本功扎实,熟悉数据算法和结构,熟练使用Golang优先。
4.系统工程能力扎实过硬,具有很强技术敏感度和故障排查经验。
5.熟悉AI框架、云原生、微服务原理和设计模式者优先。
6.具有出色的抽象设计能力,思路清晰,善于思考,能独立分析和解决问题者优先。
7.有产品意识,能够主导并驱动完整的技术产品项目者优先。