参与大规模分布式训练框架(基于PyTorch等)的研发与优化,重点解决千卡乃至万卡级别集群的扩展性、容错与性能瓶颈问题
负责训练系统中关键组件的设计与开发,包括但不限于大规模分布式参数服务器、高性能嵌入向量(Embedding)训练与推理、高效的优化器实现等
深入系统底层,利用高性能网络(如RoCE v2, InfiniBand)、RDMA技术以及NVMe SSD存储,优化数据读取、通信和Checkpoint存储等关键路径,实现极致的端到端训练性能
与算法团队紧密合作,理解前沿模型(如大语言模型、推荐系统、多模态模型)对训练基础设施的需求,并将其转化为系统级的创新与优化
负责GPU/XPU计算资源的精细调度与性能优化,深入挖掘硬件潜力,降低训练成本