承担公司大规模算力集群的建设与交付,负责 GPU/XPU 等高性能加速卡资源的统一管理,支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行
熟悉主流 GPU 训练平台及分布式训练框架,了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性,同时熟悉公有云上的云原生 GPU 训练平台(如 AWS、Azure、GCP、阿里云、火山引擎等)的调度、资源管理与训练流程
能够监控大规模 GPU 资源的使用情况,建立使用基线与性能指标体系,持续分析利用率、稳定性与异常模式,为资源规划、调度优化和容量管理提供依据
参与算力平台及相关服务的整体架构设计与生命周期管理,从规划、评审到部署上线,推动生产集群向更高稳定性与可持续性演进