Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型技术支持工程师-火山方舟(北京/杭州/成都)
立即应聘

大模型技术支持工程师-火山方舟(北京/杭州/成都)

发布于 大约 10 小时前

普通员工/个人贡献者

北京市 / 杭州市
中级经验
全职员工
仅现场办公
学历未注明
GPU
技术支持
运维
云原生
火山引擎

AI 估算 · 20k–40k

字节跳动大模型相关岗位薪资较高,结合一线城市行情和技能稀缺性,月薪约2-4万。

职位详情

关于这个职位

该职位是大模型技术支持工程师,主要负责大模型训练、推理及平台服务的监控与故障处理,响应内外部客户的技术支持需求,并支撑大规模批量推理任务的日常运维

需要具备Kubernetes、云原生和GPU运维经验,能适应轮班和OnCall值班
适合希望深入AI基础设施领域的技术支持或运维人员

最低要求

年以上运维或技术支持经验

熟悉Kubernetes及云原生体系,具备集群运维和故障排查能力
熟悉至少一种公有云平台(AWS/GCP/火山引擎等),了解GPU及异构计算基础,能进行GPU节点健康检查与问题排查
熟悉Prometheus、Grafana等监控体系,具备扎实的Linux基础和网络知识
熟练使用Python/Shell进行脚本开发与自动化相关工作
能适应轮班及OnCall值班(含夜班及节假日)

工作职责

负责大模型训练、推理及平台服务的监控告警接收与处理,按SOP完成故障定位、响应与跟踪

作为一线业务OnCall接口人,响应内外部客户的技术支持与问题排查,负责OnCall记录、交接班及问题升级
支撑大规模批量推理任务的日常运维,包括实例管理、扩缩容、流量调配及异常恢复
编写并维护运维SOP、OnCall手册、监控告警及应急预案,参与自动化工具建设,提升运维效率

AI 洞察

优缺点分析

优点

  • 身处AI大模型最热门赛道,技能含金量高,市场稀缺性极强
  • 字节跳动平台大,技术栈先进,能接触到超大规模集群和前沿技术
  • 薪资待遇优厚,福利完善,有明确的职业晋升路径
  • 需要轮班和OnCall值班,包括夜班和节假日,工作强度较大
  • 技术迭代快,需要持续学习新工具和新架构
  • 适合对AI基础设施运维充满热情,能适应高强度工作节奏,并希望在云计算和AI领域深耕的技术支持或运维工程师

缺点 / 挑战

  • 大模型运维压力大,故障处理需快速响应,对心理素质和抗压能力有要求

角色解读

  • 可向大模型基础设施专家或SRE方向深入发展
  • 积累大规模GPU集群运维经验后,可转向AI平台架构或云原生开发岗位
  • 在字节跳动内部有丰富的技术培训和晋升通道,可向技术管理或专家路线发展
  • 接收并处理大模型训练和推理平台的监控告警,按SOP定位和排除故障
  • 作为一线OnCall接口人,响应内外部客户的技术支持需求,并做好问题记录和升级
  • 负责大规模批量推理任务的日常运维,包括实例扩缩容、流量调配和异常恢复
  • 扎实的Kubernetes和云原生运维能力,能独立处理集群故障
  • 掌握至少一种公有云平台,了解GPU硬件和异构计算基础
  • 熟悉Prometheus/Grafana等监控工具,以及Linux系统和网络知识
  • 熟练使用Python/Shell开发自动化脚本,提升运维效率

申请策略

  • 在简历中体现对OnCall和轮班制的接受意愿,展现责任心和抗压能力
  • 了解火山引擎的产品体系,提前熟悉其容器服务和GPU实例相关文档
  • 突出Kubernetes集群运维和故障排查的具体案例,例如处理过的线上事故
  • 强调GPU相关经验,如GPU节点健康检查、驱动安装、CUDA版本管理等
  • 展示Python/Shell自动化脚本开发成果,如监控告警自动化、故障自愈工具
  • 建议深入学习Kubernetes调度和GPU虚拟化技术(如MIG、vGPU)
  • 补充大模型训练和推理的基础知识,了解常见的分布式框架(如Megatron、DeepSpeed)

面试指南

  • 使用STAR法则(情境-任务-行动-结果)结构化描述故障处理案例
  • 对于技术类问题,先讲原理,再结合实际操作经验,最后总结优化建议
  • 请描述一次你处理过的Kubernetes集群故障,并说明排查过程
  • 如何监控GPU节点的健康状态?你会关注哪些指标?
  • 如果大批量推理任务出现异常,你如何快速定位问题并恢复?
  • 你如何看待OnCall和轮班制度?你如何平衡工作与生活?
  • 回顾Kubernetes核心资源(Pod、Service、Deployment、Node)和常见故障排查命令
  • 准备至少一个GPU相关问题的解决案例(如驱动问题、显存溢出等)

匹配度报告

69
综合匹配度

大厂+前沿AI基础设施,高薪高成长,但需接受轮班和高强度。

适合人群
最适合看重技术成长和薪资回报、愿意牺牲部分生活平衡的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活30
使命价值70

薪资福利匹配

85较高

大厂薪资高、福利好,但轮班制可能影响稳定性。

薪资信号未披露(AI估算:20K-40K/月)

成长发展匹配

90较高

技术栈前沿(大模型、K8s、GPU),成长空间大。

技术前沿前沿/新兴技术
技术栈Kubernetes、GPU、云原生、大模型
业务类型profit_center

工作生活匹配

30较低

需要轮班和OnCall,工作强度大,生活平衡差。

工作模式仅现场办公
办公地点市区核心地段
加班情况明确要求弹性/高强度

使命价值匹配

70中等

参与AI基础设施,有技术价值,但社会影响中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 直播高级产品经理(激励增长方向)-抖音直播

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 资深架构师(机审方向)-国际化内容安全平台

    字节跳动 · 上海市
    AI 估算 · 50k-70k
  • 豆包AI大模型数据分析-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 商业产品经理(线索闭环化方向)-抖音生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • AI应用开发工程师-Cross Platform

    字节跳动 · 上海市
    AI 估算 · 30k-50k

字节跳动 的其他在招职位

  • 直播高级产品经理(激励增长方向)-抖音直播

    字节跳动 · 北京市
    AI 估算 · 35k-55k
  • 资深架构师(机审方向)-国际化内容安全平台

    字节跳动 · 上海市
    AI 估算 · 50k-70k
  • 豆包AI大模型数据分析-火山方舟MaaS

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 商业产品经理(线索闭环化方向)-抖音生活服务

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • AI应用开发工程师-Cross Platform

    字节跳动 · 上海市
    AI 估算 · 30k-50k