AI IaaS计算引擎研发工程师

🤖 AI 估测:¥35K-60K

发布时间:20 天前

立即应聘

ℹ️关于这个职位

这是一个专注于AI基础设施研发的核心技术岗位
你将负责快手AI云计算平台中IaaS层计算引擎的设计与开发,核心目标是优化大模型训练与推理的性能和资源效率
工作涉及GPU资源调度、高性能网络存储对接、故障自愈机制构建等前沿技术领域

工作职责

承担AI时代IaaS层计算引擎的设计和研发工作,致力于构筑行业领先的AI云计算基础底座
重点负责快手内部大模型训练与推理场景的优化工作,通过构建全面的异常发现与故障自愈机制、提升模型加载时效、实施GPU池化等措施,提升平台的MFU(资源利用率)和MTTR(故障恢复时间)等核心指标
基于云原生系列技术,跟进AI链路中各核心组件的研发工作,包括训练推理服务编排、GPU资源调度和混布,以及高性能存储、高性能RDMA网络等的对接支撑
参与构建异构多芯计算集群,持续优化GPU资源调度、GPU虚拟化、在离线推理隔离、快照等核心能力,有效提升多芯供应能力和集群资源效率

最低要求

本科及以上学历,计算机相关专业
熟悉常用数据结构与算法,精通计算机基础,具备扎实的编程基础和良好的编码习惯
有优良的逻辑分析能力和算法基础,熟练掌握至少一种编程语言(如 Python、Golang、Java、C 等)

👍优先资格

具有以下任一技能要求者优先:
a. 熟悉Megatron-LM、DeepSpeed、FairScale、TensorRT-LM等大模型技术中的一种
b. 熟悉vLLM、LMCache、KVCache多级缓存卸载等技术
c. 熟悉CUDA、GPU底层硬件技术
d. 熟悉Alluxio、Lustre等高性能存储技术
e. 有高性能计算背景和参与过相关开源项目优先
有AI推理/训练研究型经验者优先