【岗位职责】
多模态大模型训练系统研发
参与 Vision-Language Model(VLM)的训练系统研发与优化,基于 PyTorch / Megatron 等框架构建大规模分布式训练系统
你将深入理解并优化 TP / PP / CP / SP / EP / MoE 等并行训练策略,并参与多模态数据 pipeline(image / video / text)的构建与优化
大模型推理系统开发与优化
参与设计与实现大模型推理系统,基于 vLLM / SGLang 等推理框架构建高性能推理服务
探索 KV Cache、batching、scheduling 等关键推理技术,并支持多模态模型的推理部署
同时探索大模型量化推理(FP8 / INT8 / AWQ / GPTQ 等)与推理性能优化
RL 与模型对齐系统开发
参与 RLHF / RLAIF / GRPO 等大模型对齐算法的工程实现,构建训推分离(training-serving separation)的 RL 训练系统
参照 slime、verl 等优秀开源 RL 框架构建 RL pipeline,并优化 rollout、sampling、reward 与 trainer 等核心模块
大模型系统工程与性能优化
参与大模型系统工程研发,进行 CUDA / NCCL / GPU 计算性能优化
通过 profiling 与性能分析工具定位系统瓶颈,提升大规模训练与推理系统的稳定性与性能