负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景
深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率
跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战
推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地
跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势