字节跳动的AML-火山方舟大模型推理系统工程师薪资是多少？

该职位薪资范围为 35k–70k（人民币/月）。

AML-火山方舟大模型推理系统工程师的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的AML-火山方舟大模型推理系统工程师有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

AML-火山方舟大模型推理系统工程师

立即应聘

AML-火山方舟大模型推理系统工程师

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

学历未注明

信息技术与基础设施

分布式系统

GPU优化

Megatron-LM

PyTorch

SGLang

TensorFlow

TensorRT-LLM

vLLM

AI 估算 · 35k–70k

大模型推理系统工程师稀缺，字节跳动薪资竞争力强，技术深度要求高，预估月薪35k-70k

职位详情

关于这个职位

作为火山引擎大模型推理系统工程师，你将负责大规模分布式训练和推理系统的研发与性能优化，解决高并发、高可靠性等挑战，并探索前沿技术如编译优化和模型量化

该岗位需要与算法团队深度合作，推动火山引擎日均千亿Token的推理流量高效运行

最低要求

熟练掌握Linux环境下的C/C++与Python语言，有大规模机器学习系统或搜广推推荐系统相关经验

熟悉至少一种机器学习框架（Tensorflow/PyTorch/MxNet或其他自研框架）

熟悉至少一种大模型训练/推理框架，包括但不限于：vLLM、TensorRT-LLM、SGLang、Megatron-LM等

具有独立解决问题的能力，良好的团队合作精神，具备优秀的复杂问题拆解能力

有强烈的工作责任心，较好的学习能力、沟通能力和自驱力

工作职责

负责火山引擎大模型训练和推理系统的研发与性能优化，包括但不限于：模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等

负责解决系统高并发、高可靠性、高可扩展性等技术难关，支撑火山引擎千亿级别的日均Token训练推理流量

负责大模型训练和推理前瞻性技术架构的调研和引入，技术方案不限于子图匹配、编译优化、模型量化等

负责异构硬件的引入与训练推理框架的集成，包括但不限于GPU、NPU、TPU等

面向海内外多地域超大规模GPU算力集群，通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率

与算法部门深度合作，进行算法与系统的联合优化

优先资格

有大规模分布式系统架构设计经验

理解GPU硬件架构，理解GPU软件栈（CUDA，cuDNN)，具备GPU性能分析的经验

有硕士研究生或博士研究生阶段的计算机系统方向（包含分布式系统，并行计算，编程语言与编译器，网络，存储等）研究背景

AI 洞察

优缺点分析

优点

字节跳动技术平台强大，团队汇聚顶尖工程人才，学习氛围浓厚
岗位薪资优厚，股权激励机会多，职业回报显著
工作强度大，需要快速响应线上问题，对抗压能力要求高
技术迭代极快，需持续跟踪AI系统领域最新成果，保持学习热情
对分布式系统、GPU优化等复合技能要求高，入门门槛不低

缺点 / 挑战

身处大模型AI最前沿，接触千亿级推理流量场景，技术挑战与成长空间极大
适合技术扎实、渴望挑战、对AI系统性能优化有浓厚兴趣的工程师，享受从底层到上层全栈调优的成就感

角色解读

技术深耕：成为大模型推理系统领域的专家，负责核心架构设计与性能突破
架构升级：晋升为系统架构师，主导超大规模分布式系统设计与技术演进
管理拓展：转型为技术团队负责人，带领团队攻克复杂系统难题
参与大模型训练和推理系统的核心研发，优化模型计算性能与分布式集群效率
处理高并发、高可靠性的大规模推理流量调度，确保系统稳定运行
调研并引入编译优化、模型量化等前沿技术，提升系统吞吐和延迟指标
与算法团队协作，实现模型与系统的联合优化，推动千亿级Token训练推理落地
精通C/C++和Python，具备Linux环境下大规模系统开发经验
熟悉至少一种主流机器学习框架（如PyTorch、TensorFlow）
掌握大模型推理框架（如vLLM、TensorRT-LLM）及分布式训练框架（如Megatron-LM）
具备系统性能分析和优化能力，理解GPU硬件架构与CUDA编程更佳

申请策略

面试前了解火山引擎大模型产品方向，思考如何优化推理延迟和吞吐
准备一个完整的系统优化案例，从问题发现到解决方案及效果量化
突出大规模分布式系统或推荐系统的项目经验，尤其是性能优化成果
展示对深度学习框架（如PyTorch）和推理框架（如vLLM）的深入理解与实际调优案例
强调C++/Python编程能力，附上Github链接或技术博客展示系统设计能力
系统学习GPU编程（CUDA）和性能分析工具（如Nsight），提升硬件理解
动手部署开源推理框架（如vLLM、TensorRT-LLM），实践集群调优

面试指南

从需求分析出发，明确瓶颈指标，提出多级优化方案（模型层、系统层、硬件层）
使用STAR方法描述过往项目：情境-任务-行动-结果，量化优化收益
结合具体技术细节，如使用FlashAttention减少显存，通过异步调度提高吞吐
如何设计一个高吞吐、低延迟的大模型推理服务？
在大规模训练中如何保证集群的稳定性和利用率？
谈一谈你对vLLM或TensorRT-LLM的理解，有哪些优化点？
如何解决分布式训练中的通信瓶颈问题？
假设模型推理出现显存溢出，你会如何定位和解决？

职位点评

综合评分

顶级大厂大模型系统核心岗位，技术前沿成长快，但工作强度大、WLB一般。

更适合这类人

适合追求技术成长、愿意在高强度下快速提升的工程师，对薪资和前沿技术有强烈诉求。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值70

薪资福利

75中等

薪资竞争力强，大厂福利完善，但未明确具体数值，且工作强度大可能影响稳定性感知。

薪资信号未披露（AI估算：35K-70K/月）

成长发展

90较高

处于AI系统前沿技术栈，接触分布式、GPU优化等硬核技能，成长空间极大，且团队技术氛围浓厚。

技术前沿前沿/新兴技术

技术栈大模型、分布式系统、GPU、vLLM、TensorRT-LLM、编译优化、模型量化

业务类型profit_center

工作生活

40较低

仅现场办公，地点在科技园区，字节跳动加班文化较普遍，JD未提WLB信息。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型赛道高速增长，火山引擎是重要利润中心，但具体社会影响信号不明显。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

AML-火山方舟大模型推理系统工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级传输系统产品架构师

【练习生】智能体Agent AI 网关开发工程师

特药事业部-医学信息沟通代表-绵阳

特药事业部-医学信息沟通代表-绵阳

IT Architecture, VP

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级传输系统产品架构师

【练习生】智能体Agent AI 网关开发工程师

特药事业部-医学信息沟通代表-绵阳

特药事业部-医学信息沟通代表-绵阳

IT Architecture, VP

AML-火山方舟大模型推理系统工程师

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级传输系统产品架构师

【练习生】智能体Agent AI 网关开发工程师

特药事业部-医学信息沟通代表-绵阳

特药事业部-医学信息沟通代表-绵阳

IT Architecture, VP

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

高级传输系统产品架构师

【练习生】智能体Agent AI 网关开发工程师

特药事业部-医学信息沟通代表-绵阳

特药事业部-医学信息沟通代表-绵阳

IT Architecture, VP

字节跳动的其他在招职位

字节跳动的其他在招职位