参与快手大语言模型、多模态基座模型的训练/推理引擎研发及优化工作
参与快手自研生成式推荐大模型训练全链路开发和优化,以及快手广告、电商、直播、搜索等全域模型的训练全链路研发与优化
设计和优化分布式训练框架,通过混合并行,通信计算overlap、低精度训练等方法解决超长序列、超大规模moe场景下的训练效率问题
参与通用高性能RL框架的开发和优化,包括但不限于高效rollout、高效RL链路调度优化等
通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、模型量化&蒸馏、分布式并行等