腾讯云-云原生AI加速领域专家(基础设施方向)(北京/深圳)

🤖 AI 估测:¥55K-90K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个面向云原生AI基础设施领域的专家级技术岗位
你将负责设计和构建覆盖数据、镜像、进程到GPU的全链路AI加速体系,并对PyTorch、TensorFlow等主流AI框架进行深度优化
同时,你还需要探索无损快照、任务无感迁移等前沿技术,将创新成果转化为腾讯云的核心产品竞争力

工作职责

AI工作负载的全局加速体系设计:负责构建覆盖“数据-镜像-进程-GPU”全链路的AI加速体系,核心优化容器镜像、模型权重、数据集等存储、分发与访问性能
计算框架深度优化:深入研究PyTorch、TensorFlow等主流AI框架的进程启动、模型加载、GPU显存管理机制,设计与实现框架级的快速启动、热加载、动态切分/重组方案,显著降低任务调度延迟与资源闲置
前沿技术探索与攻关:负责技术难题攻关与前沿预研,如无损快照与实时恢复、计算任务的无感迁移、异构资源池化等,并将创新成果转化为核心产品竞争力

最低要求

计算机科学、软件工程或相关专业硕士及以上学历,7年以上系统底层或高性能计算领域开发经验
深厚的系统级开发能力:精通C/C++/Rust,精通Linux系统编程,具备从用户态到内核态的复杂系统调试与优化能力
跨领域知识深度,需在以下至少三个领域有实际项目经验:
1)云原生基础设施:深度掌握Kubernetes、容器运行时、镜像加速(如Nydus, Stargz)原理,有相关开源项目贡献者尤佳
2)存储与I/O栈:深入理解文件系统、块设备、内核I/O路径,有高性能存储系统(Ceph, SPDK等)或内核模块开发经验
3)高性能网络:精通RDMA、TCP/IP协议栈,有基于DPDK/SPDK、eBPF的网络性能优化经验
4)AI计算栈:深入理解AI框架架构、CUDA编程、GPU显存管理,有大型模型训练调优或框架开发经验
具备杰出的系统性思维和难题攻关能力,能独立主导跨团队的大型技术项目