Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Roche logo
罗氏
AI platform engineer
立即应聘

AI platform engineer

发布于 大约 16 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
信息技术与基础设施
GPU
MLOps
IaC
CI/CD
Alibaba Cloud
RHEL

AI 估算 · 35k–55k

外企制药巨头,AI平台关键岗位,技能稀缺,高薪竞争力强;上海生活成本较高,薪资处行业高端。

职位详情

关于这个职位

该职位负责罗氏AI/ML平台的全生命周期管理,涵盖本地GPU集群、多云基础设施(AWS、阿里云)以及服务交付

你将与全球工程团队和业务方协作,确保在GxP合规的制药环境下高效运行AI工作负载
适合具备深厚Linux、Kubernetes和IaC经验,希望在AI基础设施领域深耕的资深工程师

最低要求

年以上生产环境Linux系统工程经验,精通RHEL(Satellite、Kickstart、自定义ISO构建)

年以上生产级Kubernetes运维经验(500+节点或5000+ Pod),包括集群生命周期管理、灾备和多租户隔离
专家级IaC能力:Ansible(自定义模块/插件开发)、Terraform(Provider开发、大规模状态管理)
实际GPU集群经验:NVIDIA驱动生命周期、MIG/vGPU分区、CUDA兼容性矩阵管理、GPU健康监控
扎实的网络基础:L2/L3设计、VLAN划分、BGP基础、数据中心级IPAM
高性能网络(RDMA/RoCE/InfiniBand)经验
深度AWS经验(VPC架构、EC2 placement groups、EKS、IAM策略设计)及生产负载
Helm Chart开发:编写复杂chart(子chart、hooks、CRD生命周期管理)
CI/CD流水线端到端所有权:容器镜像构建、漏洞扫描、制品推进、基于GitOps的部署
商务级英语(书面和口语)
跨职能协作能力:在基础设施、安全、合规和数据科学团队之间驱动对齐
有实时故障排除、清晰沟通和进行无指责事后复盘的能力
生产环境AI/ML服务平台的运营和定制经验(Seldon Core、KServe、Triton Inference Server)
服务网格专家级经验(Istio:流量管理、mTLS、授权策略)
全栈可观测性设计:Prometheus联邦、Grafana仪表盘即代码、ELK/OpenSearch日志管道、OpenTelemetry
多云编排生产经验(AWS+阿里云),包括跨云网络和统一IaC
熟悉制药/生命科学领域的GxP/CSV合规(变更控制、验证协议、审计追踪要求)
AI网关/LLM路由系统经验(Portkey、LiteLLM或等价)
FinOps实践:GPU成本建模、计费/分摊实现、云资源成本优化
对开源基础设施项目有贡献(CNCF生态优先)
有指导初级工程师或领导小型基础设施团队(2-5人)的经验
有为ML/数据科学团队构建内部开发者平台或自助服务工具的经验

工作职责

## 基础设施工程(本地和云)

管理操作系统基线:REDHAT Satellite管理、自定义Base ISO生命周期
与企业存储系统集成(由罗氏存储团队管理)
GPU服务器BOM选型和硬件认证
架构云资源策略:预留实例规划、AWS和阿里云的成本优化
云账户(AWS和阿里云)后配置、管理和平台及平台托管用例账户
## 基础设施即代码(IaC)
开发和维护Ansible脚本以实现自动化服务器管理(部署、退役、配置)
构建和运行AMI Bakery流水线以实现不可变镜像交付
通过IaC编排多云服务器部署(AWS、阿里云)
自动化Kubernetes集群的配置和管理
开发和加固自定义IaC脚本
## MLOps平台工程
管理完整的集群生命周期:配置、升级、扩缩容、灾难恢复
管理以下领域的30+平台组件:
GPU和设备管理
AI工作负载编排:Kubernetes调度和SLURM调度工程
网络:Kubernetes集群内部连接工程
存储:多种类型存储集成,包括对象存储和块存储
可观测性:通过Prometheus、Grafana、OpenTelemetry等设计和实现可观测性仪表盘
安全与PKI:整个平台的PKI管理,在DevOps生命周期中实施DevSecOps实践
平台工程:数据配置、API、训练/推理框架、流水线和工具集
构建和维护CI/CD流水线
构建和维护Github/Gitlab模板
支持AI用例的工程任务
负责平台相关问题故障排除,包括牵头跨不同团队的故障排除
## AI平台服务
部署和运维AI网关(Portkey数据平面)并完全覆盖IaC
执行本地模型生命周期管理
开发和维护工作空间自动配置脚本
集成AI安全护栏
构建和实施FinOps流程
支持AI用例的工程任务
负责平台相关问题故障排除,包括牵头跨不同团队的故障排除
## 合规与流程
编写和维护系统设计文档
文档和审批工作流管理(通过Veeva Quality Doc、Gitlab中的Markdown项目文档、runbooks和用户手册)
在Jira中管理工作负载

优先资格

熟悉制药IT服务管理(ServiceNow ITSM、Veeva Quality Doc)

有服务内部ML/数据科学用户(100+用户)的平台团队经验

AI 洞察

优缺点分析

优点

  • 外企巨头,工作稳定,福利完善,有全球协作机会,技术视野开阔
  • AI基础设施是当前热门方向,技能稀缺,薪资竞争力强,职业前景广阔
  • 涉及GxP合规,学习到行业特有规范,提升不可替代性
  • 技术栈深且广,需要同时掌握Linux、K8s、IaC、GPU、网络、多云等多个领域,学习曲线陡峭
  • 制药行业合规要求严格,流程繁琐,开发节奏较慢,可能不适应快节奏环境
  • 跨时区协作频繁,需良好的英语沟通能力和时间管理能力
  • 适合有多年基础设施经验、热爱技术深耕、希望在稳定平台中持续发展的资深工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 在罗氏这样的全球制药巨头中,可向AI基础设施架构师或平台工程负责人方向发展,领导更大规模的团队
  • 因涉及GxP合规,可成为医药行业IT合规与基础设施融合的专家,开辟细分领域
  • 随着AI在制药领域的深入,可转向MLOps或AI平台产品管理,从工程到产品化转型
  • 负责AI/ML平台的完整生命周期,从GPU服务器选型、操作系统基线到Kubernetes集群管理和多云资源优化
  • 通过Ansible、Terraform等IaC工具自动化基础设施部署与配置,确保平台的一致性与可重复性
  • 运维30+平台组件,包括GPU管理、工作负载调度、网络、存储、可观测性及安全PKI,保障AI业务稳定运行
  • 支持AI团队的工程任务,部署AI网关,管理模型生命周期,并建立FinOps流程优化云成本
  • 深厚Linux和RHEL系统管理能力,包括Satellite、Kickstart及自定义ISO构建
  • 生产级Kubernetes运维经验,熟悉集群生命周期、灾备和多租户隔离,管理500+节点
  • 专家级IaC技能:精通Ansible和Terraform,能开发自定义模块和Provider
  • GPU集群经验:NVIDIA驱动、MIG/vGPU、CUDA兼容性及健康监控
  • 具备高性能网络知识

申请策略

  • 研究罗氏在AI制药领域的战略,面试中展示对该行业痛点的理解
  • 强调跨团队协作和故障排除能力,准备一个无指责复盘的案例
  • 突出8+年Linux系统管理和5+年K8s生产运维的具体案例,包括管理节点数、Pod数、灾备场景
  • 详细描述IaC项目经验,如Ansible模块开发、Terraform Provider或Helm Chart编写
  • 展示GPU集群的实操经验,特别是NVIDIA驱动、MIG配置、CUDA兼容性管理
  • 提及多云(AWS+阿里云)基础设施设计及成本优化成果
  • 如不熟悉制药合规,可学习GxP/CSV基本概念,了解验证流程
  • 补充AI/ML serving平台(如KServe、Triton Inference Server)的实操经验

面试指南

  • 对于技术问题,采用STAR方法(情境-任务-行动-结果),结合具体数字和案例
  • 对于合规问题,强调流程意识,列举具体工具(如Veeva)和步骤(变更控制、验证)
  • Describe a time you managed a Kubernetes cluster upgrade with minimal downtime. How did you handle rollback?
  • How do you design IaC for multi-cloud environment? What are the key considerations?
  • Explain how you would troubleshoot a GPU node showing high error rates during model training.
  • What is your experience with Helm? How would you structure a complex chart for a microservices platform?
  • How do you ensure compliance (GxP) in infrastructure changes? What documentation is required?
  • 复习Kubernetes集群管理的深入知识,包括etcd备份、节点维护、网络策略

匹配度报告

72
综合匹配度

外企制药巨头,前沿AI基础设施,高薪高技能,但WLB可能一般。

适合人群
最适合理工科背景、追求技术深度和前沿领域、对薪资和发展有高要求的资深工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值75

薪资福利匹配

85较高

该职位薪资处于行业高端,外企福利完善(五险一金、补充医疗等),补偿动机满足度较高。但JD未明确薪资,面议可能性大。

薪资信号面议 (35K-55K/月)

成长发展匹配

90较高

该职位涉及前沿AI基础设施技术、多云、IaC、GPU等,技能成长空间极大;但JD未明确晋升通道。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、NVIDIA、CUDA、Ansible、Terraform、AWS、Alibaba Cloud、Istio、Helm
成长机会mentoring
业务类型ambiguous

工作生活匹配

40较低

需要现场办公,上海核心地段?JD未明确,但推测为市区。未提及WLB,但外企通常较重视,不过该岗位可能涉及on-call。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

罗氏作为制药巨头,致力于改善全球健康,有一定社会影响力。创新水平积极采用新技术,行业稳定增长。

行业发展稳定成熟行业
社会影响正向社会影响力较高
使命信号prevent, stop and cure diseases、everyone has access to healthcare
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

罗氏 的其他在招职位

  • SHE&BCM Intern

    罗氏 · 上海市
    AI 估算 · 4k-6k
  • 抗感染治疗领域经理

    罗氏 · 南京市
    AI 估算 · 15k-25k
  • HR Intern - APAC Early in Career Program Focus

    罗氏 · 上海市
    AI 估算 · 4k-7k
  • (高级)治疗领域专员

    罗氏 · 杭州市
    AI 估算 · 15k-25k
  • (Senior) Analyst of P/C Lab

    罗氏 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • 腾讯云-运维工程师(北京)(成都)

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • 物联网专项开发

    中国机械工业集团有限公司 · 郑州市
    AI 估算 · 6k-10k
  • Sr. IT Engineering & Delivery Engineer

    特斯拉 · 上海市
    AI 估算 · 40k-60k
  • IT网络安全专员

    三井住友 · 上海市
    AI 估算 · 18k-28k
  • IT基础架构工程师

    三井住友 · 上海市
    AI 估算 · 25k-40k

罗氏 的其他在招职位

  • SHE&BCM Intern

    罗氏 · 上海市
    AI 估算 · 4k-6k
  • 抗感染治疗领域经理

    罗氏 · 南京市
    AI 估算 · 15k-25k
  • HR Intern - APAC Early in Career Program Focus

    罗氏 · 上海市
    AI 估算 · 4k-7k
  • (高级)治疗领域专员

    罗氏 · 杭州市
    AI 估算 · 15k-25k
  • (Senior) Analyst of P/C Lab

    罗氏 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • 腾讯云-运维工程师(北京)(成都)

    腾讯 · 深圳市
    AI 估算 · 20k-35k
  • 物联网专项开发

    中国机械工业集团有限公司 · 郑州市
    AI 估算 · 6k-10k
  • Sr. IT Engineering & Delivery Engineer

    特斯拉 · 上海市
    AI 估算 · 40k-60k
  • IT网络安全专员

    三井住友 · 上海市
    AI 估算 · 18k-28k
  • IT基础架构工程师

    三井住友 · 上海市
    AI 估算 · 25k-40k