
英伟达
System Software Engineer, Platform Operations
System Software Engineer, Platform Operations
发布于 大约 2 个月前普通员工/个人贡献者
上海市 / 北京市
高级经验
全职员工
仅现场办公
本科
软件工程
SRE
LLM
CI/CD
Nvidia Ai Stack
AI 估算 · 35k–65k
高级工程师,AI大厂,技能稀缺度高,薪资领先市场
职位详情
关于这个职位
加入英伟达深度学习学院(DLI)平台运维团队,负责确保全球AI培训活动的技术流畅执行
你将运维基于云原生的Kubernetes和Docker容器化平台,主导线上活动保障与突发事件响应,同时参与SRE体系建设
职位涉及Python、Terraform及多云环境,深度接触NVIDIA AI工具链(如NeMo、TensorRT),是技术极客与AI教育结合的理想舞台
最低要求
计算机科学或相关技术专业学士学位,或同等经验
超过5年的DevOps经验,专注于优化、部署和运行跨AWS、Azure和GCP的容器化应用(Docker, Kubernetes),包括EKS、AKS和GKE的实际操作经验
精通Python和Linux shell脚本,用于自动化、应用开发、系统管理和问题解决
有使用Terraform架构、实施和管理云基础设施的成熟经验
具备在压力下诊断和解决复杂技术问题的细心问题和分析能力
出色的沟通、团队协作能力,能向不同受众清晰阐述技术概念,并在事件期间领导技术响应
工作职责
制定全面的运维计划和风险规避策略,确保技术培训活动完美执行
在直播培训活动中提供专家级现场技术领导,管理部署并快速解决突发问题以优化用户体验
监督DLI学习平台的稳定性、可扩展性和可靠性,实施SRE原则并领导事件响应
领导跨职能协调,建立并强制执行运维最佳实践,推动持续改进以提升平台服务
优先资格
有设计和实施使用发布/订阅模式(如AWS SNS/SQS、Google Pub/Sub或Azure Service Bus)的事件驱动架构的经验
了解生成式AI架构(LLM、扩散模型)及检索增强生成(RAG)和向量数据库等概念
有使用NVIDIA AI栈(NeMo、Triton推理服务器、TensorRT)进行模型开发、服务和优化的经验
有NVIDIA NIM的生产经验者优先
有构建和运行CI/CD流水线(Jenkins、GitLab CI)及管理软件开发环境的经验,应用SRE原则实现自动化、提升可靠性和性能
熟悉基于Python的学习管理系统(如Open edX)
AI 洞察
优缺点分析
优点
- 技术栈前沿:深度接触NVIDIA自研AI工具(NeMo、TensorRT)和生成式AI,积累稀缺经验
- 平台优势:英伟达在AI领域的龙头地位,项目具有全球影响力,与顶尖工程师合作
- 职业成长:有机会学习SRE、AI基础设施等热门领域,内部技术资源丰富
- 技术要求全面:不仅需要传统运维技能,还需掌握云原生和AI推理部署,学习曲线陡峭
- 适合具备扎实DevOps基础、对AI基础设施有浓厚兴趣、能应对突发状况并追求技术深度的工程师
缺点 / 挑战
- 运维压力:需要保障全球培训活动的零故障,可能面临紧急事件和高压响应
角色解读
- 技术深耕:向云原生架构师或SRE专家发展,深入NVIDIA AI栈(NeMo、Triton等)
- 管理方向:成为平台运维团队的技术负责人,领导跨职能项目
- 行业转型:积累AI教育与底层平台经验,可转向AI Infra或云平台架构师岗位
- 负责AI培训平台的日常运维和稳定性保障,包括容器化部署、事件响应和故障排除
- 在实时培训活动中提供技术支持,管理云端资源并快速解决用户问题
- 运用SRE原则改进系统可靠性,自动化运维流程,参与跨部门协作
- 深度参与云基础设施(AWS/Azure/GCP)的架构设计与Terraform管理
- 精通Python和Linux Shell,能够编写自动化脚本和工具
- 深入掌握Docker和Kubernetes,具备多云环境(AWS、Azure、GCP)的生产经验
- 熟悉Terraform进行基础设施即代码管理,有CI/CD流水线(Jenkins、GitLab CI)经验
- 了解SRE最佳实践,具备事件响应和压力下问题解决能力
申请策略
- 申请时表达对AI教育和授人以渔的热情,这与英伟达DLI的使命契合
- 可以提前了解英伟达的AI软件栈(CUDA、NVIDIA AI Enterprise),在面试中展现兴趣
- 突出大规模容器化平台(Kubernetes)的生产运维经验和具体成果(如可靠性提升、故障恢复时间缩短)
- 强调多云环境(AWS/Azure/GCP)的实际操作和自动化案例(Terraform、CI/CD)
- 展示Python脚本开发或系统工具开发经验,特别是与监控、自动化相关的项目
- 补充AI推理优化知识,了解NVIDIA TensorRT、Triton Inference Server的基本用法
- 学习事件驱动架构和消息队列(如AWS SQS/SNS),这是优先资质中提及的技能
面试指南
- STAR法则:情境(Situation)、任务(Task)、行动(Action)、结果(Result)来结构化回答
- 技术原理+实践案例:先阐述相关技术理论知识,再结合自身项目经验展开具体细节
- 强调SRE指标:回答中引入SLO、SLI、错误预算等概念,体现专业深度
- 描述一次你处理Kubernetes集群故障的经历,你是如何诊断和解决的?
- 如何设计一个高可用的学习平台架构?考虑多云部署和灾难恢复
- 解释你在事件响应中的SRE实践,做过哪些改进来减少MTTR?
- 谈谈你对Terraform状态管理和模块化设计的经验?
- 你如何保证直播培训活动不会出现基础设施问题?制定过哪些预案?
匹配度报告
70
综合匹配度
AI巨头核心运维岗,前沿技术栈满分,薪资大概率高,但WLB不明朗。
适合人群
适合追求技术前沿、希望积累AI基础设施经验、不在意工作生活界限的技术驱动型求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展90
工作生活40
使命价值85
薪资福利匹配
65中等
薪资未披露,但英伟达作为AI巨头通常提供有竞争力的薪酬;福利从JD中无法确认,总体满足度中等。
薪资信号未披露(AI估算:35K-65K/月)
成长发展匹配
90较高
职位涉及生成式AI、NVIDIA专有AI栈等前沿技术,技能成长空间极大;虽未明确晋升通道,但平台和项目本身带来高价值。
技术前沿前沿/新兴技术
技术栈Python、Docker、Kubernetes、AWS、Azure、GCP、Terraform、SRE、CI/CD、LLM、RAG、NeMo、TensorRT、NIM
业务类型cost_center
工作生活匹配
40较低
工作地点在上海和北京现场办公,办公模式未明确;JD未提及WLB信息,需承担活动期间的压力,生活化动机满足度较低。
工作模式未明确
办公地点未明确
加班情况未提及(无法判断)
使命价值匹配
85较高
职位致力于让AI教育广泛可及,推动负责任的AI发展,使命感和行业前景很强;公司处于AI革命中心,社会影响力高。
行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号making pivotal technologies like generative AI accessible and profoundly learnable
创新程度积极采用新技术
英伟达 的其他在招职位
Senior Supply Base Engineer
英伟达 · 深圳市AI 估算 · 25k-45kSenior Developer Relations Manager for DataBase and Data Processing
英伟达 · 北京市AI 估算 · 40k-60kSenior Developer Relations Manager - AI Algorithms, Datasets, and Benchmarks
英伟达 · 北京市AI 估算 · 35k-55kSolution Architect - ISV for AI Infra
英伟达 · 北京市AI 估算 · 35k-60kAI Computing Software Development Engineer, TensorRT
英伟达 · 上海市AI 估算 · 35k-55k
相似职位推荐
Watch Jobs