字节跳动的大模型技术支持工程师-火山方舟（北京/杭州/成都）薪资是多少？

该职位薪资范围为 20k–40k（人民币/月）。

大模型技术支持工程师-火山方舟（北京/杭州/成都）的工作地点在哪里？

该职位工作地点位于北京市、杭州市、成都市。工作形式为仅现场办公。

字节跳动的大模型技术支持工程师-火山方舟（北京/杭州/成都）有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

字节跳动

大模型技术支持工程师-火山方舟（北京/杭州/成都）

立即应聘

大模型技术支持工程师-火山方舟（北京/杭州/成都）

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 杭州市

中级经验

全职员工

仅现场办公

学历未注明

信息技术与基础设施

云原生

技术支持

火山引擎

运维

GPU

AI 估算 · 20k–40k

字节跳动大模型相关岗位薪资较高，结合一线城市行情和技能稀缺性，月薪约2-4万。

职位详情

关于这个职位

该职位是大模型技术支持工程师，主要负责大模型训练、推理及平台服务的监控与故障处理，响应内外部客户的技术支持需求，并支撑大规模批量推理任务的日常运维

需要具备Kubernetes、云原生和GPU运维经验，能适应轮班和OnCall值班

适合希望深入AI基础设施领域的技术支持或运维人员

最低要求

年以上运维或技术支持经验

熟悉Kubernetes及云原生体系，具备集群运维和故障排查能力

熟悉至少一种公有云平台（AWS/GCP/火山引擎等），了解GPU及异构计算基础，能进行GPU节点健康检查与问题排查

熟悉Prometheus、Grafana等监控体系，具备扎实的Linux基础和网络知识

熟练使用Python/Shell进行脚本开发与自动化相关工作

能适应轮班及OnCall值班（含夜班及节假日）

工作职责

负责大模型训练、推理及平台服务的监控告警接收与处理，按SOP完成故障定位、响应与跟踪

作为一线业务OnCall接口人，响应内外部客户的技术支持与问题排查，负责OnCall记录、交接班及问题升级

支撑大规模批量推理任务的日常运维，包括实例管理、扩缩容、流量调配及异常恢复

编写并维护运维SOP、OnCall手册、监控告警及应急预案，参与自动化工具建设，提升运维效率

AI 洞察

优缺点分析

优点

身处AI大模型最热门赛道，技能含金量高，市场稀缺性极强
字节跳动平台大，技术栈先进，能接触到超大规模集群和前沿技术
薪资待遇优厚，福利完善，有明确的职业晋升路径
需要轮班和OnCall值班，包括夜班和节假日，工作强度较大
技术迭代快，需要持续学习新工具和新架构
适合对AI基础设施运维充满热情，能适应高强度工作节奏，并希望在云计算和AI领域深耕的技术支持或运维工程师

缺点 / 挑战

大模型运维压力大，故障处理需快速响应，对心理素质和抗压能力有要求

角色解读

可向大模型基础设施专家或SRE方向深入发展
积累大规模GPU集群运维经验后，可转向AI平台架构或云原生开发岗位
在字节跳动内部有丰富的技术培训和晋升通道，可向技术管理或专家路线发展
接收并处理大模型训练和推理平台的监控告警，按SOP定位和排除故障
作为一线OnCall接口人，响应内外部客户的技术支持需求，并做好问题记录和升级
负责大规模批量推理任务的日常运维，包括实例扩缩容、流量调配和异常恢复
扎实的Kubernetes和云原生运维能力，能独立处理集群故障
掌握至少一种公有云平台，了解GPU硬件和异构计算基础
熟悉Prometheus/Grafana等监控工具，以及Linux系统和网络知识
熟练使用Python/Shell开发自动化脚本，提升运维效率

申请策略

在简历中体现对OnCall和轮班制的接受意愿，展现责任心和抗压能力
了解火山引擎的产品体系，提前熟悉其容器服务和GPU实例相关文档
突出Kubernetes集群运维和故障排查的具体案例，例如处理过的线上事故
强调GPU相关经验，如GPU节点健康检查、驱动安装、CUDA版本管理等
展示Python/Shell自动化脚本开发成果，如监控告警自动化、故障自愈工具
建议深入学习Kubernetes调度和GPU虚拟化技术（如MIG、vGPU）
补充大模型训练和推理的基础知识，了解常见的分布式框架（如Megatron、DeepSpeed）

面试指南

使用STAR法则（情境-任务-行动-结果）结构化描述故障处理案例
对于技术类问题，先讲原理，再结合实际操作经验，最后总结优化建议
请描述一次你处理过的Kubernetes集群故障，并说明排查过程
如何监控GPU节点的健康状态？你会关注哪些指标？
如果大批量推理任务出现异常，你如何快速定位问题并恢复？
你如何看待OnCall和轮班制度？你如何平衡工作与生活？
回顾Kubernetes核心资源（Pod、Service、Deployment、Node）和常见故障排查命令
准备至少一个GPU相关问题的解决案例（如驱动问题、显存溢出等）

职位点评

综合评分

大厂+前沿AI基础设施，高薪高成长，但需接受轮班和高强度。

更适合这类人

最适合看重技术成长和薪资回报、愿意牺牲部分生活平衡的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活30

使命价值70

薪资福利

85较高

大厂薪资高、福利好，但轮班制可能影响稳定性。

薪资信号未披露（AI估算：20K-40K/月）

成长发展

90较高

技术栈前沿（大模型、K8s、GPU），成长空间大。

技术前沿前沿/新兴技术

技术栈Kubernetes、GPU、云原生、大模型

业务类型profit_center

工作生活

30较低

需要轮班和OnCall，工作强度大，生活平衡差。

工作模式仅现场办公

办公地点市区核心地段

加班情况明确要求弹性/高强度

使命价值

70中等

参与AI基础设施，有技术价值，但社会影响中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型技术支持工程师-火山方舟（北京/杭州/成都）

立即应聘

大模型技术支持工程师-火山方舟（北京/杭州/成都）

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 杭州市

中级经验

全职员工

仅现场办公

学历未注明

信息技术与基础设施

云原生

技术支持

火山引擎

运维

GPU

AI 估算 · 20k–40k

字节跳动大模型相关岗位薪资较高，结合一线城市行情和技能稀缺性，月薪约2-4万。

职位详情

关于这个职位

需要具备Kubernetes、云原生和GPU运维经验，能适应轮班和OnCall值班

适合希望深入AI基础设施领域的技术支持或运维人员

最低要求

年以上运维或技术支持经验

熟悉Kubernetes及云原生体系，具备集群运维和故障排查能力

熟悉至少一种公有云平台（AWS/GCP/火山引擎等），了解GPU及异构计算基础，能进行GPU节点健康检查与问题排查

熟悉Prometheus、Grafana等监控体系，具备扎实的Linux基础和网络知识

熟练使用Python/Shell进行脚本开发与自动化相关工作

能适应轮班及OnCall值班（含夜班及节假日）

工作职责

负责大模型训练、推理及平台服务的监控告警接收与处理，按SOP完成故障定位、响应与跟踪

作为一线业务OnCall接口人，响应内外部客户的技术支持与问题排查，负责OnCall记录、交接班及问题升级

支撑大规模批量推理任务的日常运维，包括实例管理、扩缩容、流量调配及异常恢复

编写并维护运维SOP、OnCall手册、监控告警及应急预案，参与自动化工具建设，提升运维效率

AI 洞察

优缺点分析

优点

身处AI大模型最热门赛道，技能含金量高，市场稀缺性极强
字节跳动平台大，技术栈先进，能接触到超大规模集群和前沿技术
薪资待遇优厚，福利完善，有明确的职业晋升路径
需要轮班和OnCall值班，包括夜班和节假日，工作强度较大
技术迭代快，需要持续学习新工具和新架构
适合对AI基础设施运维充满热情，能适应高强度工作节奏，并希望在云计算和AI领域深耕的技术支持或运维工程师

缺点 / 挑战

大模型运维压力大，故障处理需快速响应，对心理素质和抗压能力有要求

角色解读

可向大模型基础设施专家或SRE方向深入发展
积累大规模GPU集群运维经验后，可转向AI平台架构或云原生开发岗位
在字节跳动内部有丰富的技术培训和晋升通道，可向技术管理或专家路线发展
接收并处理大模型训练和推理平台的监控告警，按SOP定位和排除故障
作为一线OnCall接口人，响应内外部客户的技术支持需求，并做好问题记录和升级
负责大规模批量推理任务的日常运维，包括实例扩缩容、流量调配和异常恢复
扎实的Kubernetes和云原生运维能力，能独立处理集群故障
掌握至少一种公有云平台，了解GPU硬件和异构计算基础
熟悉Prometheus/Grafana等监控工具，以及Linux系统和网络知识
熟练使用Python/Shell开发自动化脚本，提升运维效率

申请策略

在简历中体现对OnCall和轮班制的接受意愿，展现责任心和抗压能力
了解火山引擎的产品体系，提前熟悉其容器服务和GPU实例相关文档
突出Kubernetes集群运维和故障排查的具体案例，例如处理过的线上事故
强调GPU相关经验，如GPU节点健康检查、驱动安装、CUDA版本管理等
展示Python/Shell自动化脚本开发成果，如监控告警自动化、故障自愈工具
建议深入学习Kubernetes调度和GPU虚拟化技术（如MIG、vGPU）
补充大模型训练和推理的基础知识，了解常见的分布式框架（如Megatron、DeepSpeed）

面试指南

使用STAR法则（情境-任务-行动-结果）结构化描述故障处理案例
对于技术类问题，先讲原理，再结合实际操作经验，最后总结优化建议
请描述一次你处理过的Kubernetes集群故障，并说明排查过程
如何监控GPU节点的健康状态？你会关注哪些指标？
如果大批量推理任务出现异常，你如何快速定位问题并恢复？
你如何看待OnCall和轮班制度？你如何平衡工作与生活？
回顾Kubernetes核心资源（Pod、Service、Deployment、Node）和常见故障排查命令
准备至少一个GPU相关问题的解决案例（如驱动问题、显存溢出等）

职位点评

综合评分

大厂+前沿AI基础设施，高薪高成长，但需接受轮班和高强度。

更适合这类人

最适合看重技术成长和薪资回报、愿意牺牲部分生活平衡的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活30

使命价值70

薪资福利

85较高

大厂薪资高、福利好，但轮班制可能影响稳定性。

薪资信号未披露（AI估算：20K-40K/月）

成长发展

90较高

技术栈前沿（大模型、K8s、GPU），成长空间大。

技术前沿前沿/新兴技术

技术栈Kubernetes、GPU、云原生、大模型

业务类型profit_center

工作生活

30较低

需要轮班和OnCall，工作强度大，生活平衡差。

工作模式仅现场办公

办公地点市区核心地段

加班情况明确要求弹性/高强度

使命价值

70中等

参与AI基础设施，有技术价值，但社会影响中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型技术支持工程师-火山方舟（北京/杭州/成都）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型技术支持工程师-火山方舟（北京/杭州/成都）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯安全-云主机安全能力运营工程师

AgenticOps Staff Engineer

Advisory Solution Architect

HRIS Analyst (用友技术解决方案架构师)

IT运维专家

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯安全-云主机安全能力运营工程师

AgenticOps Staff Engineer

Advisory Solution Architect

HRIS Analyst (用友技术解决方案架构师)

IT运维专家

字节跳动的其他在招职位

字节跳动的其他在招职位