System Software Engineer, Platform Operations的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

英伟达的System Software Engineer, Platform Operations有什么任职要求？

该职位要求本科学历及高级经验工作经验。

英伟达

System Software Engineer, Platform Operations

立即应聘

System Software Engineer, Platform Operations

发布于大约 2 个月前

普通员工/个人贡献者

上海市 / 北京市

高级经验

全职员工

仅现场办公

本科

软件工程

SRE

LLM

CI/CD

Nvidia Ai Stack

AI 估算 · 35k–65k

高级工程师，AI大厂，技能稀缺度高，薪资领先市场

职位详情

关于这个职位

加入英伟达深度学习学院（DLI）平台运维团队，负责确保全球AI培训活动的技术流畅执行

你将运维基于云原生的Kubernetes和Docker容器化平台，主导线上活动保障与突发事件响应，同时参与SRE体系建设

职位涉及Python、Terraform及多云环境，深度接触NVIDIA AI工具链（如NeMo、TensorRT），是技术极客与AI教育结合的理想舞台

最低要求

计算机科学或相关技术专业学士学位，或同等经验

超过5年的DevOps经验，专注于优化、部署和运行跨AWS、Azure和GCP的容器化应用（Docker, Kubernetes），包括EKS、AKS和GKE的实际操作经验

精通Python和Linux shell脚本，用于自动化、应用开发、系统管理和问题解决

有使用Terraform架构、实施和管理云基础设施的成熟经验

具备在压力下诊断和解决复杂技术问题的细心问题和分析能力

出色的沟通、团队协作能力，能向不同受众清晰阐述技术概念，并在事件期间领导技术响应

工作职责

制定全面的运维计划和风险规避策略，确保技术培训活动完美执行

在直播培训活动中提供专家级现场技术领导，管理部署并快速解决突发问题以优化用户体验

监督DLI学习平台的稳定性、可扩展性和可靠性，实施SRE原则并领导事件响应

领导跨职能协调，建立并强制执行运维最佳实践，推动持续改进以提升平台服务

优先资格

有设计和实施使用发布/订阅模式（如AWS SNS/SQS、Google Pub/Sub或Azure Service Bus）的事件驱动架构的经验

了解生成式AI架构（LLM、扩散模型）及检索增强生成（RAG）和向量数据库等概念

有使用NVIDIA AI栈（NeMo、Triton推理服务器、TensorRT）进行模型开发、服务和优化的经验

有NVIDIA NIM的生产经验者优先

有构建和运行CI/CD流水线（Jenkins、GitLab CI）及管理软件开发环境的经验，应用SRE原则实现自动化、提升可靠性和性能

熟悉基于Python的学习管理系统（如Open edX）

AI 洞察

优缺点分析

优点

技术栈前沿：深度接触NVIDIA自研AI工具（NeMo、TensorRT）和生成式AI，积累稀缺经验
平台优势：英伟达在AI领域的龙头地位，项目具有全球影响力，与顶尖工程师合作
职业成长：有机会学习SRE、AI基础设施等热门领域，内部技术资源丰富
技术要求全面：不仅需要传统运维技能，还需掌握云原生和AI推理部署，学习曲线陡峭
适合具备扎实DevOps基础、对AI基础设施有浓厚兴趣、能应对突发状况并追求技术深度的工程师

缺点 / 挑战

运维压力：需要保障全球培训活动的零故障，可能面临紧急事件和高压响应

角色解读

技术深耕：向云原生架构师或SRE专家发展，深入NVIDIA AI栈（NeMo、Triton等）
管理方向：成为平台运维团队的技术负责人，领导跨职能项目
行业转型：积累AI教育与底层平台经验，可转向AI Infra或云平台架构师岗位
负责AI培训平台的日常运维和稳定性保障，包括容器化部署、事件响应和故障排除
在实时培训活动中提供技术支持，管理云端资源并快速解决用户问题
运用SRE原则改进系统可靠性，自动化运维流程，参与跨部门协作
深度参与云基础设施（AWS/Azure/GCP）的架构设计与Terraform管理
精通Python和Linux Shell，能够编写自动化脚本和工具
深入掌握Docker和Kubernetes，具备多云环境（AWS、Azure、GCP）的生产经验
熟悉Terraform进行基础设施即代码管理，有CI/CD流水线（Jenkins、GitLab CI）经验
了解SRE最佳实践，具备事件响应和压力下问题解决能力

申请策略

申请时表达对AI教育和授人以渔的热情，这与英伟达DLI的使命契合
可以提前了解英伟达的AI软件栈（CUDA、NVIDIA AI Enterprise），在面试中展现兴趣
突出大规模容器化平台（Kubernetes）的生产运维经验和具体成果（如可靠性提升、故障恢复时间缩短）
强调多云环境（AWS/Azure/GCP）的实际操作和自动化案例（Terraform、CI/CD）
展示Python脚本开发或系统工具开发经验，特别是与监控、自动化相关的项目
补充AI推理优化知识，了解NVIDIA TensorRT、Triton Inference Server的基本用法
学习事件驱动架构和消息队列（如AWS SQS/SNS），这是优先资质中提及的技能

面试指南

STAR法则：情境(Situation)、任务(Task)、行动(Action)、结果(Result)来结构化回答
技术原理+实践案例：先阐述相关技术理论知识，再结合自身项目经验展开具体细节
强调SRE指标：回答中引入SLO、SLI、错误预算等概念，体现专业深度
描述一次你处理Kubernetes集群故障的经历，你是如何诊断和解决的？
如何设计一个高可用的学习平台架构？考虑多云部署和灾难恢复
解释你在事件响应中的SRE实践，做过哪些改进来减少MTTR？
谈谈你对Terraform状态管理和模块化设计的经验？
你如何保证直播培训活动不会出现基础设施问题？制定过哪些预案？

匹配度报告

综合匹配度

AI巨头核心运维岗，前沿技术栈满分，薪资大概率高，但WLB不明朗。

适合人群

适合追求技术前沿、希望积累AI基础设施经验、不在意工作生活界限的技术驱动型求职者。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利65

成长发展90

工作生活40

使命价值85

薪资福利匹配

65中等

薪资未披露，但英伟达作为AI巨头通常提供有竞争力的薪酬；福利从JD中无法确认，总体满足度中等。

薪资信号未披露（AI估算：35K-65K/月）

成长发展匹配

90较高

职位涉及生成式AI、NVIDIA专有AI栈等前沿技术，技能成长空间极大；虽未明确晋升通道，但平台和项目本身带来高价值。

技术前沿前沿/新兴技术

技术栈Python、Docker、Kubernetes、AWS、Azure、GCP、Terraform、SRE、CI/CD、LLM、RAG、NeMo、TensorRT、NIM

业务类型cost_center

工作生活匹配

40较低

工作地点在上海和北京现场办公，办公模式未明确；JD未提及WLB信息，需承担活动期间的压力，生活化动机满足度较低。

工作模式未明确

办公地点未明确

加班情况未提及（无法判断）

使命价值匹配

85较高

职位致力于让AI教育广泛可及，推动负责任的AI发展，使命感和行业前景很强；公司处于AI革命中心，社会影响力高。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号making pivotal technologies like generative AI accessible and profoundly learnable

创新程度积极采用新技术

英伟达的其他在招职位

相似职位推荐

Watch Jobs

System Software Engineer, Platform Operations

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

匹配度报告

薪资福利匹配

成长发展匹配

工作生活匹配

使命价值匹配

Senior Supply Base Engineer

Senior Developer Relations Manager for DataBase and Data Processing

Senior Developer Relations Manager - AI Algorithms, Datasets, and Benchmarks

Solution Architect - ISV for AI Infra

AI Computing Software Development Engineer, TensorRT

联盟广告算法工程师-商业算法

AI应用开发工程师-实习

微信-高级算法工程师-音频理解/ASR/对话模型方向

Project T UE5 客户端开发工程师（性能优化）

Project T UE5 高级引擎开发

英伟达的其他在招职位

Senior Supply Base Engineer

Senior Developer Relations Manager for DataBase and Data Processing

Senior Developer Relations Manager - AI Algorithms, Datasets, and Benchmarks

Solution Architect - ISV for AI Infra

AI Computing Software Development Engineer, TensorRT

相似职位推荐

联盟广告算法工程师-商业算法

AI应用开发工程师-实习

微信-高级算法工程师-音频理解/ASR/对话模型方向

Project T UE5 客户端开发工程师（性能优化）

Project T UE5 高级引擎开发

System Software Engineer, Platform Operations

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

匹配度报告

薪资福利匹配

成长发展匹配

工作生活匹配

使命价值匹配

英伟达 的其他在招职位

Senior Supply Base Engineer

Senior Developer Relations Manager for DataBase and Data Processing

Senior Developer Relations Manager - AI Algorithms, Datasets, and Benchmarks

Solution Architect - ISV for AI Infra

AI Computing Software Development Engineer, TensorRT

相似职位推荐

联盟广告算法工程师-商业算法

AI应用开发工程师-实习

微信-高级算法工程师-音频理解/ASR/对话模型方向

Project T UE5 客户端开发工程师（性能优化）

Project T UE5 高级引擎开发

英伟达的其他在招职位