参与千亿级大模型的分布式强化学习 RL 训练框架研发,提升百卡~千卡级训练吞吐与资源利用率
参与 100B以上多模态强化学习算法流程适配(如DAPO等),各领域任务的 RL 正确性验证
实验并调优不同并行策略(Tensor/ZeRO/FSDP/Pipeline Parallelism)在超大规模模型上的最佳配置组合
协助定位分析分布式训练中的关键性能瓶颈(如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等),设计并实施优化方案进行验证
参与研发/优化训练引擎的关键特性,如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子(Kernel)的集成与优化