工作内容: 训练框架二次开发与优化(大语言模型与多模态模型)
基于 Megatron-LM / DeepSpeed / Verl 等框架,进行并行策略及显存的优化
集群化的 SFT、RLHF 等训练稳定性与吞吐优化
多模态图文/视频/音频数据跨模态对齐训练
推理加速与集群化部署(大语言模型与多模态模型)
PD 分离框架开发与优化
落地量化、投机解码等优化策略
基于新的异构硬件做算子开发适配与算子性能优化
性能观测与调优
利用 PyTorch Profiler、Nsight Systems 等工具定位分析性能瓶颈并产出优化方案