负责大规模生成式AI核心场景(LLM、T2I、T2V、生成理解等)的训练系统与异构推理系统稳定性保障,主导性能极致优化,解决训练中断、推理延迟、吞吐量瓶颈等核心问题
设计并迭代灵活高效的资源调度体系,提升调度效率、资源利用率与调度可解释性,支撑多类型任务(训推/离线推理/在线服务)的精细化调度与优先级管理
主导大规模高速网络(RDMA)与异构算力集群(GPU/国产算力)的规划、部署、运维与优化,保障集群拓扑合理性、网络带宽稳定性与算力资源高效输
负责高性能存储系统的架构设计、选型与运维,保障存储IO性能、数据可靠性与稳定性,适配大规模训练与推理的数据存取需求
把控容量交付全流程质量,制定科学的容量规划方案,结合业务增长预测完成资源扩容与配置优化,确保容量供应及时、稳定且经济
推动训推算力并池混部体系建设,优化离线推理等场景的算力资源利用率,构建算力提效与成本管控的运营体系,沉淀提效方法论
保障在线复杂业务与工程架构的稳定性,建立覆盖训推全链路的监控、告警与故障自愈机制,快速响应并解决生产环境中的复杂技术问题
对接算法、业务与运维团队,输出MLOps技术解决方案,沉淀大规模生成式AI场景下的工程化最佳实践,推动团队技术能力提升