Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AI Infra平台研发工程师(大模型开发机方向)-Seed
立即应聘

AI Infra平台研发工程师(大模型开发机方向)-Seed

发布于 大约 3 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
软件工程
分布式系统
GO
容器化
机器学习平台
云原生
GPU调度
Ai Infra
资源编排

AI 估算 · 40k–70k

大模型基础设施领域技术难度高,市场竞争激烈,字节跳动薪资具有竞争力,综合评定月薪范围。

职位详情

关于这个职位

作为AI Infra平台研发工程师,你将负责大模型开发机平台的后端系统设计与研发,包括开发机生命周期管理、资源调度、云端开发体验等核心能力

该岗位需要扎实的软件工程和架构基础,深入理解Kubernetes生态和资源编排技术,与算法、训练平台等团队协作,共同提升大模型研发效率和资源利用率,是AI基础设施领域极具技术挑战和发展前景的岗位

最低要求

本科及以上学历,计算机、软件工程或相关专业优先

具备扎实的软件工程能力与架构基础:
)熟悉至少一种主流后端开发语言,如Go、Java、Python、C++等,有较强的系统设计和代码实现能力
)理解分布式系统、高可用设计、服务治理、异步任务、缓存、消息队列、数据库设计等常见后端架构模式
熟悉应用开发和平台开发,有复杂业务系统、基础平台、研发平台、云平台或机器学习平台建设经验
熟悉容器化和Kubernetes生态,理解Pod、Deployment、StatefulSet、CRD、Operator、Scheduler、Volume、Network政策等核心机制
理解资源编排与调度相关技术,有CPU/GPU调度、队列、配额、多租户隔离、弹性伸缩、资源回收等经验者优先
具备良好的问题分析、故障排查与跨团队协作能力:能独立定位复杂线上问题
能够和算法、平台、SRE、基础设施团队高效配合

工作职责

负责大模型平台开发机的后端系统设计与研发,包括开发机生命周期管理、用户权限与资源隔离等能力

设计和优化基于Kubernetes的资源编排与调度体系,支持CPU/GPU、共享存储、网络、镜像等复杂资源管理场景
建设面向算法研发的云端开发体验,包括VS Code Server、SSH、Web IDE、任务环境复用、镜像管理、数据挂载等能力
负责平台架构设计,提升系统的稳定性、可扩展性、可观测性和运维效率
与算法、训练平台、基础架构、运维等团队协作,持续提升大模型研发效率和资源利用率
参与平台工程化建设,包括服务治理、监控告警、日志链路、故障诊断、灰度发布、容量规划和成本优化,跟进云原生、AI Infra、GPU调度、分布式训练、AI Agent等方向的技术演进,并推动在平台中的落地

优先资格

有机器学习平台、训练平台、开发机平台、AI Infra、MLOps平台建设经验

熟悉Kubeflow、JupyterHub、Ray、Volcano、Kueue、Argo Workflows、KServe、MLflow等相关技术
有GPU集群、异构资源调度、分布式训练、模型开发环境建设经验
熟悉Linux、容器运行时、网络、存储、镜像构建、远程开发协议等底层技术
有云厂商、AI平台或基础架构团队经验
对研发效率、平台产品体验、稳定性和成本优化有深入理解
了解AI Agent 相关技术,有Agent IDE、AI Coding、自动化研发助手、数据/训练Agent等产品或平台建设经验者优先

AI 洞察

优缺点分析

优点

  • 接触前沿AI基础设施技术栈,包括云原生、GPU调度、分布式训练等,技术成长空间大
  • 字节跳动Seed团队是核心AI部门,平台资源丰富,项目影响力大
  • 薪资待遇优厚,股票激励机会,职业发展路径清晰
  • 技术栈复杂,需要同时掌握分布式系统、Kubernetes、AI框架等多领域知识

缺点 / 挑战

  • 大模型训练对平台稳定性要求极高,线上问题排查压力较大
  • 跨团队协作频繁,沟通成本较高,需要较强的协调能力
  • 适合具备扎实后端基础、对云原生和AI Infra有浓厚兴趣、追求技术深度、能够承受一定工作压力的工程师

角色解读

  • 从平台研发工程师成长为AI Infra领域的资深专家,深入GPU调度、分布式训练等核心技术
  • 可向架构师方向演进,负责更大规模AI平台的架构设计与技术决策
  • 有机会转型为团队技术Leader,带领团队攻克基础设施难题
  • 设计并开发大模型开发机平台的后端系统,管理开发机的全生命周期和资源隔离
  • 基于Kubernetes构建资源编排与调度体系,优化CPU、GPU等资源的分配与弹性伸缩
  • 为算法研发提供云端开发体验,集成VS Code Server、SSH、Web IDE等工具
  • 参与平台架构设计,提升系统稳定性、可扩展性和运维效率,并与算法、基础架构等团队协同
  • 扎实的软件工程能力,精通Go、Python或C++等后端开发语言
  • 深入理解分布式系统、高可用设计、服务治理等后端架构模式
  • 熟悉Kubernetes生态核心机制,如Pod、Operator、调度器、CRD等
  • 具备资源编排与调度经验,理解多租户隔离、弹性伸缩等技术

申请策略

  • 关注字节跳动Seed团队的技术博客或开源项目,了解团队技术方向
  • 准备一个体现系统设计能力的架构方案,例如开发机平台的设计思路
  • 重点突出Kubernetes相关项目经验,如自研Operator、调度器优化等
  • 展示分布式系统设计案例,包括高可用架构、资源隔离方案等
  • 如果有机器学习平台或训练平台建设经验,务必详细描述技术细节
  • 强调跨团队协作成果和复杂问题排查能力
  • 深入学习Kubernetes源码,理解调度、CRD、Operator等核心机制
  • 补充GPU调度和分布式训练相关知识,如NVIDIA GPU Operator、MPI等

面试指南

  • 对于设计类问题,采用“需求→架构→关键设计→权衡”的结构,先明确功能和非功能需求,再给出分层架构,并说明资源隔离、调度算法等关键设计
  • 对于技术原理问题,先给出核心概念定义,再解释工作机制,最后结合实际场景举例
  • 对于经验类问题,使用STAR原则(情境、任务、行动、结果),突出技术难度和你的贡献
  • 请设计一个支持多租户的开发机平台,如何实现资源隔离和弹性调度?
  • 解释Kubernetes中Pod调度器的原理,如何自定义调度策略?
  • 如何处理GPU集群中的资源碎片问题?
  • 描述一次你解决过的复杂线上问题,包括排查和修复过程
  • 你认为AI Infra平台未来最重要的技术趋势是什么?

匹配度报告

74
综合匹配度

大厂核心AI团队,前沿技术栈,发展空间大,但工作强度和现场办公要求较高。

适合人群
适合追求技术前沿、重视职业成长、愿意在AI基础设施领域深耕的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值80

薪资福利匹配

75中等

薪资未具体披露,但字节跳动和AI方向通常提供有竞争力的薪酬及股票,但JD中未明确福利,整体补偿性中等偏上。

薪资信号未披露(AI估算:40K-70K/月)

成长发展匹配

90较高

该岗位涉及AI Infra前沿技术,团队资源强大,有明确的技术成长空间,发展性动机满足度高。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU调度、分布式训练、云原生、AI Agent
业务类型profit_center

工作生活匹配

50较低

JD未提及远程或弹性办公,字节跳动通常要求现场办公,且互联网公司工作强度较高,生活化动机满足度一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

Seed团队致力于通用智能研究,项目对社会有较大潜在影响,使命感和行业前景较强。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号为科技和社会发展作出贡献
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 豆包AI大模型评测工程师-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k

相似职位推荐

  • 搜广推大数据开发实习生

    小红书 · 上海市
    AI 估算 · 4k-7k
  • 腾讯云-AgentRuntime高级技术专家(沙箱方向)(深圳/北京)

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 腾讯云 -AgentRuntime研发负责人(深圳/北京)

    腾讯 · 深圳市
    AI 估算 · 50k-80k
  • 腾讯云-高性能网络后台研发工程师

    腾讯 · 上海市
    AI 估算 · 30k-50k
  • 智驾算法工程师/专家(一段式端到端)-【自动驾驶】

    哈啰出行 · 北京市
    AI 估算 · 25k-45k

字节跳动 的其他在招职位

  • 豆包AI大模型评测工程师-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 20k-35k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 30k-50k
  • SRE高级工程师/专家(数据库方向)-飞书

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 游玩小组负责人-抖音生活服务(山东)

    字节跳动 · 济南市
    AI 估算 · 15k-25k
  • 跨境物流A段流程规划师-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 15k-30k

相似职位推荐

  • 搜广推大数据开发实习生

    小红书 · 上海市
    AI 估算 · 4k-7k
  • 腾讯云-AgentRuntime高级技术专家(沙箱方向)(深圳/北京)

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 腾讯云 -AgentRuntime研发负责人(深圳/北京)

    腾讯 · 深圳市
    AI 估算 · 50k-80k
  • 腾讯云-高性能网络后台研发工程师

    腾讯 · 上海市
    AI 估算 · 30k-50k
  • 智驾算法工程师/专家(一段式端到端)-【自动驾驶】

    哈啰出行 · 北京市
    AI 估算 · 25k-45k