Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型基础设施工程师(大模型资源管理/数据管理处理方向)-TikTok Shop
立即应聘

大模型基础设施工程师(大模型资源管理/数据管理处理方向)-TikTok Shop

发布于 大约 17 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
GO
数据湖
ETL
FinOps
ELT
ELK
对象存储
GPU调度
数据血缘
Volcano

AI 估算 · 35k–60k

大模型基础设施高级岗位,技术稀缺性高,字节跳动薪资竞争力强,上海生活成本较高。

职位详情

关于这个职位

这个职位负责构建和优化大模型基础设施,包括GPU资源调度、成本优化(FinOps)、以及大模型数据平台的建设

你将参与到电商场景下多租户算力管理、弹性伸缩与可观测性等核心工作中,是支撑大模型训练与推理的关键角色
适合有分布式系统、Kubernetes、大数据处理经验的技术专家

最低要求

扎实的工程背景:精通至少一种主流语言(Go/Java/Python),具备高并发、分布式系统设计与性能优化经验

资源与调度:熟悉Kubernetes生态与GPU调度(如Volcano/Kueue/自研调度器)、容器网络与存储、服务编排与弹性伸缩
存储与数据:了解对象存储/分布式文件系统/数据湖(Iceberg/Delta Lake)、消息与流处理(Kafka/Flink/Spark)、数据质量与血缘
可观测与治理:掌握监控与告警(Prometheus/Grafana/ELK)、审计与权限体系(IAM/KMS/加密),具备故障定位与稳定性治理能力
性能与成本:有资源利用率提升、训练/推理性能优化、成本管控与FinOps落地经验
良好的跨团队协作与沟通能力,能够与模型/平台/安全/合规等协作方共同推进复杂项目

工作职责

设计与实现电商场景多租户算力资源管理与调度体系(GPU/CPU/内存/网络),支持训练、推理、评测等多场景的容量规划、配额与隔离

优化集群调度与队列策略(优先级、预占/回收、抢占/让渡),提升资源利用率与SLA稳定性
构建适合电商场景的端到端FinOps能力(成本归因、预算控制、用量可视化、成本优化策略),持续降本增效
打造弹性伸缩与自动化恢复能力(自动扩容/缩容、故障域隔离、灰度与回滚、容灾演练)
建设可观测性与治理体系(监控/日志/Tracing/告警/审计),形成容量与性能调优闭环
规划并实现大模型数据平台(原始语料→清洗→标注→去重→采样→版本管理→数据血缘→合规审计),支撑SFT/RLHF/评测等流程
设计高吞吐与低延迟的数据链路与存储方案(对象存储/数据湖/分布式文件系统/缓存),优化IO与数据冷热分层
构建批流一体的ETL/ELT流水线与质量体系(规则校验、异常检测、覆盖率与漂移监控、指标看板)
建设数据安全与合规机制(PII治理、脱敏/加密、访问控制、密钥管理、审计留痕),满足内部与外部合规要求
推进数据资产化(元数据、标签体系、数据/特征版本与复用),提升数据可发现与可复用性

优先资格

有大模型训练/推理Infra经验(NCCL/CUDA、Triton/Ray/自研推理服务、权重与KV缓存优化)

参与过RLHF/数据标注平台/数据评测基线建设,具备数据闭环与在线反馈的工程化经验
具备多云/混合云实践、裸金属与高性能网络栈优化(RDMA/NVLink/Topo-aware调度)
具备资源调度器或数据平台自研经历,开放源码贡献或论文/技术演讲经历

AI 洞察

优缺点分析

  • 深度参与大模型核心基础设施,接触前沿技术栈(GPU调度、数据湖、FinOps等),技术积累价值高
  • 字节跳动平台大、业务场景丰富(TikTok电商),能积累大规模分布式系统的实战经验
  • 职业发展空间广阔,团队技术氛围浓厚,有机会与业界大牛合作
  • 涉及技术栈广泛,从底层调度到上层数据平台,学习曲线陡峭
  • 电商场景对SLA和成本敏感,工作强度可能较高,需要快速响应和持续优化
  • 跨团队协作频繁,需要良好的沟通能力来推动多方合作
  • 适合有较强分布式系统背景、对AI基础设施充满热情、乐于挑战高难度技术问题并追求职业快速成长的工程师

角色解读

  • 可向大模型基础设施架构师发展,成为资源调度、数据平台或FinOps领域的专家
  • 横向扩展到AI平台或数据中心基础设施团队,负责更大规模的集群管理和调度系统
  • 在字节跳动内部,有机会参与开源项目或发表技术演讲,积累行业影响力,逐步晋升为技术专家或团队负责人
  • 设计并实现多租户GPU/CPU/内存/网络资源调度系统,支持大模型训练、推理、评测等场景的容量规划与配额管理
  • 优化集群调度策略,平衡资源利用率与SLA稳定性,并构建端到端FinOps能力以实现成本可视化与降本增效
  • 建设大模型数据平台,涵盖数据采集、清洗、标注、版本管理、血缘追踪等环节,同时构建批流一体的ETL流水线和数据质量体系
  • 打造弹性伸缩、自动化恢复及可观测性体系,包括监控、日志、告警、审计等,形成容量与性能调优的闭环
  • 精通Go/Java/Python中的至少一种,具备高并发和分布式系统设计经验
  • 深入理解Kubernetes生态及GPU调度框架(如Volcano、Kueue),熟悉容器网络、存储和服务编排
  • 掌握数据湖技术(Iceberg/Delta Lake)、流处理(Kafka/Flink/Spark)以及数据质量与血缘工具
  • 具备监控告警体系(Prometheus/Grafana/ELK)和权限审计(IAM/KMS/加密)的实操经验

申请策略

  • 提前了解字节跳动TikTok电商的业务背景和技术挑战,在面试中展示对电商场景下资源管理的理解
  • 强调自己的工程化思维和系统性解决问题的能力,而不仅仅是单一技术栈的熟练度
  • 突出Kubernetes、GPU调度(如Volcano、Kueue)的实际项目经验,最好有大规模集群管理案例
  • 强调在数据平台建设(数据湖、ETL、数据血缘)或FinOps方面的落地成果,量化资源利用率提升或成本节约数据
  • 展示跨团队协作经验,尤其是在推动复杂项目时的沟通与协调能力
  • 补充大模型训练/推理基础设施知识,如NCCL、CUDA、Triton、Ray等
  • 学习主流数据湖技术(Iceberg/Delta Lake)和流处理框架(Flink/Spark)的深度应用
  • 了解FinOps理念和成本优化工具,积累多云/混合云管理经验

面试指南

  • 对于架构设计类问题,采用“场景-方案-权衡”框架:先描述业务场景和需求,然后给出设计方案,最后讨论取舍和优化点
  • 对于问题解决类问题,采用“问题分解-根因分析-解决措施-效果衡量”框架,突出系统性思考
  • 对于技术选型问题,对比不同方案的优缺点,结合业务特点给出选择理由
  • 请描述你过去如何设计一个多租户资源调度系统,如何处理优先级、抢占和隔离?
  • 在Kubernetes上调度GPU任务时,你遇到过哪些挑战?如何优化资源利用率?
  • 请谈谈你对FinOps的理解,实际项目中如何实现成本归因和优化?
  • 如何设计一个支持大模型训练数据链路的数据平台?需要考虑哪些关键要素?
  • 当集群出现故障时,你的排查思路和自动化恢复策略是怎样的?

匹配度报告

66
综合匹配度

大厂高薪前沿技术岗,发展空间大但WLB一般。

适合人群
适合追求技术快速成长和薪资回报,不介意高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活30
使命价值70

薪资福利匹配

75中等

字节跳动薪资具有竞争力,但JD未明确福利细节,且工作强度可能较高,补偿性动机满足度中等偏上。

薪资信号偏高 (35K-60K/月)

成长发展匹配

90较高

该职位涉及大模型前沿技术栈,技能成长空间大,JD中虽未明确晋升通道,但字节跳动内部有完善的职级体系,发展性动机强。

技术前沿前沿/新兴技术
技术栈Go、Java、Python、Kubernetes、GPU调度、Volcano、Kueue、数据湖、Iceberg、Delta Lake、Flink、Spark、FinOps、NCCL、CUDA、Triton、Ray
业务类型profit_center

工作生活匹配

30较低

JD未提及任何WLB相关措施,且互联网大厂数据中心岗位通常需On-Call,生活化动机满足度低。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型和电商结合是高速增长赛道,但直接社会影响力有限,意义感动机中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 游戏关卡策划-绿洲

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • Android开发工程师-今日头条

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • AI/大模型网络研发工程师

    字节跳动 · 深圳市
    AI 估算 · 30k-60k
  • 抖音直播服务端核心研发工程师-游戏商业化方向

    字节跳动 · 广州市
    AI 估算 · 25k-45k
  • 大模型Agent研究工程师-Seed

    字节跳动 · 上海市
    AI 估算 · 30k-60k

相似职位推荐

  • Engineer

    友邦保险 · 上海市
    AI 估算 · 12k-18k
  • Engineer

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k
  • Engineer

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k

字节跳动 的其他在招职位

  • 游戏关卡策划-绿洲

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • Android开发工程师-今日头条

    字节跳动 · 北京市
    AI 估算 · 20k-40k
  • AI/大模型网络研发工程师

    字节跳动 · 深圳市
    AI 估算 · 30k-60k
  • 抖音直播服务端核心研发工程师-游戏商业化方向

    字节跳动 · 广州市
    AI 估算 · 25k-45k
  • 大模型Agent研究工程师-Seed

    字节跳动 · 上海市
    AI 估算 · 30k-60k

相似职位推荐

  • Engineer

    友邦保险 · 上海市
    AI 估算 · 12k-18k
  • Engineer

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k
  • Engineer

    友邦保险 · CN-M Plaza
    AI 估算 · 15k-25k