核心训练框架开发与优化: 负责大模型分布式训练框架(基于Megatron-LM / DeepSpeed等)的底层架构设计与核心代码开发
支撑千亿/万亿模型的高效、稳定训练
RL Infra 系统建设与协同优化: 负责强化学习(PPO/GRPO/DPO等)训练框架的开发和优化
深度解决 Actor 生成(结合 vLLM/SGlang 等推理引擎)与 Critic/Reward 训练阶段的资源调度、状态流转及通信瓶颈,实现 Training 与 Inference 的极致协同
算法与系统协同设计 (Co-design): 与前沿算法团队紧密合作,追踪并引入业界最新开源生态(如 Verl, Slime, ROLL, AReal 等),快速完成技术原型验证,加速前沿大模型对齐算法在微信海量业务场景的规模化落地