Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
AML-火山方舟大模型推理系统工程师
立即应聘

AML-火山方舟大模型推理系统工程师

发布于 大约 3 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
机器学习
分布式系统
GPU
CUDA
Megatron-LM
vLLM
大模型推理
TensorRT-LLM

AI 估算 · 30k–60k

结合大模型赛道热度与字节薪资体系,预估月薪30k-60k

职位详情

关于这个职位

作为火山引擎大模型推理系统工程师,你将负责大模型训练和推理系统的研发与性能优化,解决高并发、高可靠等技术难题,引入前沿技术提升算力利用率,并与算法团队深度合作优化系统

该岗位需要扎实的C++/Python基础和分布式系统经验,熟悉主流大模型框架

最低要求

熟练掌握 Linux 环境下的C/C++ 与Python语言,有大规模机器学习系统或搜广推推荐系统相关经验

熟悉至少一种机器学习框架(Tensorflow/PyTorch/MxNet或其他自研框架)
熟悉至少一种大模型训练/推理框架,包括但不限于:vLLM、TensorRT-LLM、SGLang、Megatron-LM等
具有独立解决问题的能力,良好的团队合作精神,具备优秀的复杂问题拆解能力
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力

工作职责

负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等

负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量
负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等
负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU 等
面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率
与算法部门深度合作,进行算法与系统的联合优化

优先资格

加分项:

有大规模分布式系统架构设计经验
理解GPU硬件架构,理解 GPU 软件栈(CUDA,cuDNN),具备GPU性能分析的经验
有硕士研究生或博士研究生阶段的计算机系统方向(包含分布式系统,并行计算,编程语言与编译器,网络,存储等)研究背景

AI 洞察

优缺点分析

优点

  • 身处大模型技术前沿,接触最先进的推理优化技术,技能积累快
  • 与顶尖算法团队合作,能深入了解大模型算法与系统协同
  • 技术迭代极快,需要持续学习新框架和硬件,保持技术敏感度
  • 对综合能力要求高,既要深挖底层优化,又要理解上层业务需求

缺点 / 挑战

  • 字节跳动平台资源丰富,业务场景海量,技术挑战大,成长空间广阔
  • 薪资竞争力强,且公司已上市,稳定性较高
  • 工作强度较高,需要应对高并发和实时优化任务,可能面临较大压力
  • 适合热爱系统底层优化、对大模型技术有强烈兴趣、能承受快节奏工作、喜欢解决极具挑战性技术问题的工程师

角色解读

  • 技术深耕方向:成为大模型系统优化专家,主导超大规模集群架构设计
  • 架构方向:从IC逐步转向系统架构师,负责整体技术方案与演进
  • 管理方向:可向技术经理或团队负责人发展,带领团队攻克难题
  • 负责大模型训练/推理系统的研发与性能优化,包括模型计算、分布式集群调优、推理服务部署等
  • 解决高并发、高可靠性等技术问题,支撑千亿级别Token流量
  • 调研并引入前沿技术(如编译优化、模型量化),集成异构硬件(GPU/NPU/TPU)
  • 通过弹性调度、GPU超卖等手段提升算力利用率,并与算法团队联合优化
  • 精通C++/Python,具备大规模机器学习系统或搜广推系统经验
  • 熟悉TensorFlow/PyTorch等框架,以及至少一种大模型推理框架(vLLM、TensorRT-LLM等)
  • 有分布式系统、GPU编程(CUDA)和性能分析经验
  • 具备独立解决复杂问题的能力和团队协作精神

申请策略

  • 关注字节跳动火山引擎的技术博客,了解团队技术方向和成果,面试中展现对该领域的理解
  • 准备1-2个从系统角度解决性能瓶颈的深度案例,展示分析问题和解决问题的能力
  • 突出大模型训练/推理相关项目经验,具体说明性能优化成果(如吞吐提升、延迟降低)
  • 强调分布式系统设计或优化实践,包括集群规模、调度策略等细节
  • 展示C++/Python编程能力和CUDA开发经历,如有开源贡献可重点提及
  • 列出熟悉的大模型推理框架(vLLM, TensorRT-LLM等)以及使用场景
  • 系统学习GPU架构和CUDA优化,了解Tensor Core、内存层次等
  • 实操vLLM或TensorRT-LLM,掌握其核心源码和部署流程

面试指南

  • 对于系统设计题,采用STAR法则(情境-任务-行动-结果),先明确背景和目标,再详细描述具体措施和量化效果
  • 对于技术原理题,先讲核心概念,再对比不同方案的优缺点,最后结合实践经验给出理解
  • 对于优化题,先分析瓶颈,再提出方案,强调权衡和最终收益
  • 请描述你参与过的大规模分布式训练或推理系统的架构,遇到的主要挑战是什么?如何解决的?
  • 解释vLLM中PagedAttention的工作原理,以及它如何提升推理效率?
  • 如何优化GPU算子?举一个你实际优化过的例子,用了哪些手段?
  • 在几百卡集群上进行训练时,如何定位和解决通信瓶颈?
  • 你对模型量化了解多少?有哪些量化方法,分别适用于什么场景?

匹配度报告

68
综合匹配度

字节跳动大模型推理系统工程师,前沿技术栈,高薪资,但工作强度大,几乎无WLB。

适合人群
最适合追求技术成长和高薪酬、能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展92
工作生活35
使命价值60

薪资福利匹配

85较高

薪资位于行业高水平,字节福利优厚,但未明确提及具体薪资和福利细节。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

92较高

职位涉及前沿大模型技术,技术栈先进,有极大成长空间,但JD未明确晋升路径。

技术前沿前沿/新兴技术
技术栈大模型训练、推理系统、vLLM、TensorRT-LLM、CUDA、GPU、分布式系统、编译优化、模型量化
成长机会前瞻性技术架构的调研和引入
业务类型profit_center

工作生活匹配

35较低

仅现场办公,位于北京,未提及弹性工作或WLB,互联网大厂通常工作强度大。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

属于高速增长赛道,但社会正向影响力一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 人审交付运营(BPO/众包方向)-大模型安全&模型运维

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • AI搜索/Agent算法工程师-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-60k
  • 后端开发工程师(数据方向)-国际化(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 后端开发工程师-国际化达人营销平台

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 保险增长产品经理-财经

    字节跳动 · 北京市
    AI 估算 · 20k-35k

字节跳动 的其他在招职位

  • 人审交付运营(BPO/众包方向)-大模型安全&模型运维

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • AI搜索/Agent算法工程师-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-60k
  • 后端开发工程师(数据方向)-国际化(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 后端开发工程师-国际化达人营销平台

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 保险增长产品经理-财经

    字节跳动 · 北京市
    AI 估算 · 20k-35k