Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

AMD logo
超威半导体
DevOps Software Development Engineer
立即应聘

DevOps Software Development Engineer

发布于 1 天前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
GPU
PyTorch
GO
TensorFlow
CI/CD
ROCm
cmake
GitHub Actions
Buildkite

AI 估算 · 25k–40k

AMD外企大厂,DevOps中高级岗位,市场竞争力强,考虑上海薪资水平和GPU/ML行业溢价

职位详情

关于这个职位

作为AMD AI/ML框架团队的DevOps软件工程师,你将负责设计和维护CI/CD流水线、管理Kubernetes GPU环境,并使用Python、Go、Ansible等工具自动化基础设施

该角色需要深入理解构建系统(CMake、Bazel)和ML框架(PyTorch、TensorFlow),高效排查构建问题,并通过工具和培训提升团队效率
适合有较强编程能力、热爱基础设施自动化的工程师

最低要求

计算机科学、软件工程或相关技术领域的学士或硕士学位

熟练使用Python和Go进行编程,能够阅读和修改C++代码者优先
对ML框架(PyTorch、TensorFlow等)的架构和代码库有理解
精通Kubernetes、Docker、Helm,以及CI/CD工具(Buildkite、GitHub Actions、Jenkins)
熟悉Ansible等基础设施自动化框架
熟悉构建系统(CMake、Bazel、Make)和编译器工具链
具备GPU计算环境管理经验(ROCm/CUDA)
具备在Linux环境中进行系统管理、Shell脚本编写和故障排除的背景

工作职责

构建系统专长与问题排查*:深入了解构建工具和流程(CMake、Bazel、Make、编译器工具链)

通过理解从源码到二进制的完整构建流程,排查复杂的构建失败
识别基础设施、工具链和代码层面问题的根本原因
团队培训与知识分享*:培训并指导团队成员关于构建系统、CI/CD工作流和调试技术
创建文档、runbook和培训课程,确保团队能够独立有效地排查问题
培养围绕构建基础设施的持续学习文化
ML框架集成与代码贡献*:理解ML框架(PyTorch、TensorFlow、ROCm栈)的架构和代码库
根据需要审查、调试并贡献代码更改,以解决构建问题、提高CI可靠性或支持新功能
工具与自动化开发*:主要使用Python和Go设计并开发内部工具、自动化脚本和服务
编写经过充分测试的生产级代码,解决基础设施和工作流挑战
CI/CD流水线开发*:使用Buildkite、GitHub Actions和Jenkins设计、实施并管理高效的持续集成和交付流水线,以实现ML工作负载的快速可靠部署
Kubernetes基础设施管理*:在本地和云平台上部署并维护稳健的基于Kubernetes的环境,以支持可扩展的服务编排
基础设施自动化*:使用Ansible、Python和Bash自动化基础设施的配置、配置和管理,以提高系统一致性并减少人工干预
使用Helm进行服务部署*:使用Helm charts在Kubernetes中管理应用程序和服务的部署,实现一致且可重复的发布流程
GPU服务器支持*:配置、管理并维护基于GPU的计算环境,包括生命周期自动化和硬件级测试集成,用于ML训练和推理工作负载
数据库与可观测性集成*:与MySQL数据库交互以支持动态数据更新,并将数据源集成到Grafana仪表板中进行监控和洞察
跨职能协作*:与ML框架开发人员、SRE和项目利益相关者紧密合作,确保系统级对齐和高影响力交付
质量保证支持*:将自动化测试框架集成到CI流水线中,确保开发周期中的代码质量、稳定性和性能

优先资格

构建系统与工具链:对CMake、Bazel、Make和编译器工具链(GCC、Clang、LLVM)有深入理解,能够调试复杂构建失败

编程语言:较强的Python和Go编程能力,能够阅读和修改C++代码更佳
ML框架熟悉度:理解ML框架架构(PyTorch、TensorFlow、JAX等),能够在大型代码库中导航并贡献修复
指导与培训:具备记录复杂系统和培训团队成员的经验
DevOps工具与自动化:熟练使用Buildkite、GitHub Actions、Jenkins、Ansible等
容器化与编排:丰富的Docker、Kubernetes、Helm使用经验
基础设施即代码(IaC):具备自动化基础设施配置和管理的实际操作经验
GPU计算环境:熟悉GPU服务器生命周期管理、ROCm/CUDA工具链,以及将GPU资源集成到CI测试工作流中
监控与可观测性:使用Checkmk、Prometheus、Grafana等工具的经验
版本控制与协作:高级Git知识,包括分支策略和CI/CD集成
Linux与系统管理:扎实的Linux环境背景,包括Shell脚本和分布式系统故障排除
Agile与跨学科协作:能够在敏捷团队中工作,并与软件、基础设施和产品团队合作

AI 洞察

优缺点分析

优点

  • 加入AMD,前沿AI/ML基础设施团队,接触GPU集群和最新框架
  • 外企文化,工作氛围开放,注重技术创新和员工成长
  • 薪酬福利有竞争力,股票期权等长期激励
  • 技能积累全面,覆盖DevOps、构建系统、ML框架三大领域
  • 需要同时掌握构建系统、CI/CD、Kubernetes和ML框架,学习曲线陡峭
  • GPU环境运维复杂,故障排查需深入底层
  • 适合有3年以上DevOps经验、熟悉Python/Go、对ML基础设施有浓厚兴趣、愿意深入构建系统细节的工程师

缺点 / 挑战

  • 跨团队协作频繁,沟通成本较高

角色解读

  • 深耕DevOps和AI基础设施领域,成为ML基础设施架构师
  • 向SRE或平台工程方向进阶,管理更大规模GPU集群和分布式系统
  • 跨团队协作积累经验,未来可转向技术管理或AI框架开发岗位
  • 设计并维护CI/CD流水线,使用Buildkite、GitHub Actions等工具确保AI软件快速可靠交付
  • 管理基于Kubernetes的GPU集群,自动化基础设施配置(Ansible、Python),支持大规模ML训练
  • 深入构建系统(CMake、Bazel)和ML框架(PyTorch、TensorFlow),排查构建失败并贡献代码修复
  • 培训和指导团队成员,提升团队在构建系统和CI/CD方面的能力
  • 精通Python和Go,能编写生产级自动化代码
  • 扎实的Kubernetes、Docker、Helm和CI/CD工具经验
  • 熟悉构建工具链(CMake、Bazel、Make)和编译器(GCC、Clang)
  • 理解ML框架架构,能阅读和修改PyTorch/TensorFlow代码

申请策略

  • 在求职信中表达对AI基础设施的热情,结合AMD的产品(如ROCm)说明你的了解
  • 准备一个技术分享案例,展示你如何将构建系统知识传递给团队成员
  • 突出Kubernetes、CI/CD(Buildkite/Jenkins)的实际项目经验,量化效果(如构建时间缩短X%)
  • 展示Python/Go编码能力,附上GitHub链接或自动化工具开源贡献
  • 强调对构建系统(CMake/Bazel)和ML框架(PyTorch/TensorFlow)的理解,即使贡献过小fix也值得提及
  • 如有GPU环境管理或Ansible经验,单独列出
  • 复习CMake和Bazel的高级用法,例如自定义规则和依赖管理
  • 动手搭建一个小型GPU集群(如使用Kind和NVIDIA operator),实践Helm部署

面试指南

  • 如何设计一个高效的CI流水线?请结合Buildkite或GitHub Actions举例
  • 描述一次你排查复杂构建失败的经历,以及你是如何找到根本原因的
  • 解释Kubernetes中Pod、Deployment、Service的关系,并说明如何在GPU环境下调度Pod
  • 如何优化Docker镜像大小以加速构建?
  • 你对PyTorch或TensorFlow的构建系统了解多少?能否解释其构建过程?
  • STAR法则(情境-任务-行动-结果)描述排查和优化经历
  • 技术对比框架:列出不同工具(如Bazel vs CMake)的优缺点,结合场景推荐
  • 系统设计思路:从需求、架构、风险、迭代角度阐述CI/CD方案

匹配度报告

79
综合匹配度

前沿AI基础设施岗位,技术栈新、成长空间大,薪酬有竞争力但WLB待验证。

适合人群
最适合追求技术成长和高价值项目的开发者,愿意接受一定的不确定性(WLB未明确)。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活60
使命价值85

薪资福利匹配

80较高

AMD作为上市大厂,薪资福利有竞争力,但JD未明确具体数字,推测处于市场较高水平。

薪资信号未披露(AI估算:25K-40K/月)
福利待遇Benefits offered are described

成长发展匹配

90较高

职位涉及AI/ML前沿技术栈,GPU、Kubernetes、CI/CD等主流现代技术,且有明确的培训和知识分享要求,成长空间大。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、CI/CD、Python、Go、PyTorch、TensorFlow、CMake、Bazel、Ansible、Docker、Helm、ROCm、Buildkite、GitHub Actions
成长机会Train and mentor team members、create documentation、training sessions、continuous learning
业务类型profit_center

工作生活匹配

60中等

JD未明确工作模式和WLB,但AMD外企通常有较好平衡,不过GPU环境可能需要on-call。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

85较高

AMD在AI芯片和计算领域具有重要地位,参与构建下一代计算基础设施,社会影响力较高,属于高速增长赛道。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号build great products that accelerate next-generation computing experiences、solve the world’s most important challenges
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

超威半导体 的其他在招职位

  • PMTS Product Application Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • Systems Design Eng.

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k

相似职位推荐

  • 微服务治理架构师/Leader-Data

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • 风险监测专员(直播方向)-CQC

    字节跳动 · 成都市
    AI 估算 · 15k-25k
  • 数据工程师

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 产品技术架构师/资深技术架构师-火山引擎

    字节跳动 · 上海市
    AI 估算 · 40k-70k
  • 大模型数据安全策略运营-小荷健康

    字节跳动 · 北京市
    AI 估算 · 25k-45k

超威半导体 的其他在招职位

  • PMTS Product Application Engineer

    超威半导体 · 上海市
    AI 估算 · 35k-55k
  • Systems Design Eng.

    超威半导体 · 上海市
    AI 估算 · 25k-45k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k
  • Silicon Design Engineer

    超威半导体 · 上海市
    AI 估算 · 30k-50k
  • Systems Design Engineer

    超威半导体 · 上海市
    AI 估算 · 20k-35k

相似职位推荐

  • 微服务治理架构师/Leader-Data

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • 风险监测专员(直播方向)-CQC

    字节跳动 · 成都市
    AI 估算 · 15k-25k
  • 数据工程师

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 产品技术架构师/资深技术架构师-火山引擎

    字节跳动 · 上海市
    AI 估算 · 40k-70k
  • 大模型数据安全策略运营-小荷健康

    字节跳动 · 北京市
    AI 估算 · 25k-45k