(对下列任意一个方向感兴趣即可投递)
参与构建高性能、高可用的大规模分布式训练与推理系统,支撑万卡规模的高效稳定训练,面向数万卡、多集群部署场景下的在线推理系统进行极致优化
系统需在低延迟、高吞吐、强鲁棒性之间取得工程最优解,将硬件性能榨取到极致,承载模型从训练到上线全流程的性能闭环
参与性能相关的算法问题的解决,追求优化算法的实际落地和一定程度的可解释性
针对算法与工程的复合问题,可以在架构上给出能达到上限的解决方案
在算法上完成足够解决或者解释问题的实验
在机器学习系统、云原生架构、编排调度、资源调优等多个技术方向持续攻坚,推动系统架构在规模化和复杂性中的不断演进
你需要具备系统视角和极强的工程实现能力,能够在跨层级、跨组件的协同中识别瓶颈、重构路径、突破边界
参与自建公司级机房、SRE&Devops体系建设,保障多个核心系统的可靠性,包括但不限于GPU/CPU资源、存储、高性能网络研发、业务网关接入、组件稳定性、成本优化等方向