高级AI运维工程师

🤖 AI 估测:¥35K-60K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

该职位是小米公司的高级AI运维工程师,主要负责AI平台的架构维护、环境部署、资源调度与监控,保障AI模型训练与推理的稳定高效运行
你需要与AI研发和业务团队紧密协作,提供技术支持并参与平台优化,是连接基础设施与AI应用的关键技术角色

工作职责

负责AI平台的整体架构维护和优化,保障平台7×24小时稳定运行,为AI模型训练、推理及业务应用提供坚实的基础设施支撑
承担AI开发环境、训练环境和推理环境的搭建、部署与管理工作,涵盖TensorFlow、PyTorch、MXNet等主流深度学习框架,以及Docker、Kubernetes等容器化技术的应用与维护,确保AI研发团队能够快速获取并使用标准化、高效能的开发环境
负责AI平台计算资源的调度与分配,通过制定合理的资源管理策略,优化资源利用率,避免资源闲置与浪费,同时保障重要AI训练任务和业务应用的资源优先级
建立完善的AI平台监控体系,运用Prometheus、Grafana、ELK等监控工具实时监控平台运行状态,及时发现并排查系统故障、性能瓶颈等问题,制定应急预案并在故障发生时快速响应,将故障对业务的影响降至最低
与AI研发团队、业务团队紧密协作,深入理解其业务需求,提供针对性的技术支持与解决方案,协助解决AI模型训练、部署过程中遇到的技术问题,同时参与AI平台的需求调研与架构设计,为平台的持续优化提供建议

最低要求

计算机相关专业本科及以上学历,具备扎实的计算机基础知识
5年以上IT运维工作经验,其中至少2年以上AI平台或大数据平台运维经验,熟悉Linux操作系统的原理与操作,能够熟练进行系统配置、性能调优与故障排查
熟悉主流深度学习框架(TensorFlow、PyTorch等)的基本原理与使用方法,了解AI模型训练、推理的基本流程,具备AI环境部署与管理的实践经验
具备较强的问题分析与解决能力,能够快速定位并解决复杂的系统故障与性能问题,有较强的逻辑思维能力
具备良好的沟通能力与团队协作精神,能够与不同技术背景的团队有效沟通,共同推进项目进展
对AI技术发展趋势保持高度关注,具备快速学习新技术的能力,能够不断提升自身技术水平,适应AI平台运维工作的不断变化

👍优先资格

具备大规模AI集群(千级以上服务器)运维经验者优先
拥有CISSP、CISA、Linux认证(RHCE、LPIC等)、云服务认证(AWS Certified DevOps Engineer、阿里云ACP等)者优先
参与过AI平台自动化运维工具或平台的开发与建设,并有成功项目经验者优先
熟悉大数据处理框架(Hadoop、Spark等),具备大数据平台运维经验者优先
具备大规模AI集群(千级以上服务器)运维经验者优先