职位描述:
模型训练基础设施开发
设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率
维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)
集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)
模型推理基础设施开发
构建高效的推理框架,支持大模型的在线和离线推理需求
优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )
实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术
性能监控与优化
开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈
分析并优化数据加载、通信效率和硬件利用率等关键环节
跨团队协作
与模型研究团队密切合作,理解模型需求,定制训练和推理策略
支持产品团队的模型部署需求,推动大模型在实际场景中的落地应用