机器学习系统SRE工程师-Seed

🤖 AI 估测:¥25K-40K

发布时间:3 天前

立即应聘

ℹ️关于这个职位

这是一个专注于机器学习系统稳定性和资源效率的SRE工程师岗位
你将负责维护支持大模型开发、训练与部署的GPU集群,通过平台化手段提升资源利用率与运维人效,并保障多地域系统的容灾与稳定运行
这是一个连接底层基础设施与前沿AI应用的关键技术岗位

工作职责

负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节
负责集团GPU资源的管理与规划,成本与预算,包括:GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据
负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率
负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境
负责系统和业务的运维支持,参与业务和系统的问题排查工作

最低要求

一年以上运维开发项目经验
熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言
有分布式系统的资源管理和任务调度系统运维经验,熟悉Kubernetes生态和架构
熟悉Docker/Kata等容器化技术
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神
有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分