ByteDance logo
字节跳动
AML-火山方舟大模型推理系统工程师

AML-火山方舟大模型推理系统工程师

发布于 大约 3 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
分布式系统
PyTorch
TensorFlow
GPU优化
Megatron-LM
SGLang
vLLM
TensorRT-LLM

AI 估算 · 35k–70k

大模型推理系统工程师稀缺,字节跳动薪资竞争力强,技术深度要求高,预估月薪35k-70k

职位详情

关于这个职位

作为火山引擎大模型推理系统工程师,你将负责大规模分布式训练和推理系统的研发与性能优化,解决高并发、高可靠性等挑战,并探索前沿技术如编译优化和模型量化

该岗位需要与算法团队深度合作,推动火山引擎日均千亿Token的推理流量高效运行

最低要求

熟练掌握Linux环境下的C/C++与Python语言,有大规模机器学习系统或搜广推推荐系统相关经验

熟悉至少一种机器学习框架(Tensorflow/PyTorch/MxNet或其他自研框架)
熟悉至少一种大模型训练/推理框架,包括但不限于:vLLM、TensorRT-LLM、SGLang、Megatron-LM等
具有独立解决问题的能力,良好的团队合作精神,具备优秀的复杂问题拆解能力
有强烈的工作责任心,较好的学习能力、沟通能力和自驱力

工作职责

负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等

负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量
负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等
负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等
面向海内外多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率
与算法部门深度合作,进行算法与系统的联合优化

优先资格

有大规模分布式系统架构设计经验

理解GPU硬件架构,理解GPU软件栈(CUDA,cuDNN),具备GPU性能分析的经验
有硕士研究生或博士研究生阶段的计算机系统方向(包含分布式系统,并行计算,编程语言与编译器,网络,存储等)研究背景

AI 洞察

优缺点分析

优点

  • 字节跳动技术平台强大,团队汇聚顶尖工程人才,学习氛围浓厚
  • 岗位薪资优厚,股权激励机会多,职业回报显著
  • 工作强度大,需要快速响应线上问题,对抗压能力要求高
  • 技术迭代极快,需持续跟踪AI系统领域最新成果,保持学习热情
  • 对分布式系统、GPU优化等复合技能要求高,入门门槛不低

缺点 / 挑战

  • 身处大模型AI最前沿,接触千亿级推理流量场景,技术挑战与成长空间极大
  • 适合技术扎实、渴望挑战、对AI系统性能优化有浓厚兴趣的工程师,享受从底层到上层全栈调优的成就感

角色解读

  • 技术深耕:成为大模型推理系统领域的专家,负责核心架构设计与性能突破
  • 架构升级:晋升为系统架构师,主导超大规模分布式系统设计与技术演进
  • 管理拓展:转型为技术团队负责人,带领团队攻克复杂系统难题
  • 参与大模型训练和推理系统的核心研发,优化模型计算性能与分布式集群效率
  • 处理高并发、高可靠性的大规模推理流量调度,确保系统稳定运行
  • 调研并引入编译优化、模型量化等前沿技术,提升系统吞吐和延迟指标
  • 与算法团队协作,实现模型与系统的联合优化,推动千亿级Token训练推理落地
  • 精通C/C++和Python,具备Linux环境下大规模系统开发经验
  • 熟悉至少一种主流机器学习框架(如PyTorch、TensorFlow)
  • 掌握大模型推理框架(如vLLM、TensorRT-LLM)及分布式训练框架(如Megatron-LM)
  • 具备系统性能分析和优化能力,理解GPU硬件架构与CUDA编程更佳

申请策略

  • 面试前了解火山引擎大模型产品方向,思考如何优化推理延迟和吞吐
  • 准备一个完整的系统优化案例,从问题发现到解决方案及效果量化
  • 突出大规模分布式系统或推荐系统的项目经验,尤其是性能优化成果
  • 展示对深度学习框架(如PyTorch)和推理框架(如vLLM)的深入理解与实际调优案例
  • 强调C++/Python编程能力,附上Github链接或技术博客展示系统设计能力
  • 系统学习GPU编程(CUDA)和性能分析工具(如Nsight),提升硬件理解
  • 动手部署开源推理框架(如vLLM、TensorRT-LLM),实践集群调优

面试指南

  • 从需求分析出发,明确瓶颈指标,提出多级优化方案(模型层、系统层、硬件层)
  • 使用STAR方法描述过往项目:情境-任务-行动-结果,量化优化收益
  • 结合具体技术细节,如使用FlashAttention减少显存,通过异步调度提高吞吐
  • 如何设计一个高吞吐、低延迟的大模型推理服务?
  • 在大规模训练中如何保证集群的稳定性和利用率?
  • 谈一谈你对vLLM或TensorRT-LLM的理解,有哪些优化点?
  • 如何解决分布式训练中的通信瓶颈问题?
  • 假设模型推理出现显存溢出,你会如何定位和解决?

匹配度报告

69
综合匹配度

顶级大厂大模型系统核心岗位,技术前沿成长快,但工作强度大、WLB一般。

适合人群
适合追求技术成长、愿意在高强度下快速提升的工程师,对薪资和前沿技术有强烈诉求。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活40
使命价值70

薪资福利匹配

75中等

薪资竞争力强,大厂福利完善,但未明确具体数值,且工作强度大可能影响稳定性感知。

薪资信号未披露(AI估算:35K-70K/月)

成长发展匹配

90较高

处于AI系统前沿技术栈,接触分布式、GPU优化等硬核技能,成长空间极大,且团队技术氛围浓厚。

技术前沿前沿/新兴技术
技术栈大模型、分布式系统、GPU、vLLM、TensorRT-LLM、编译优化、模型量化
业务类型profit_center

工作生活匹配

40较低

仅现场办公,地点在科技园区,字节跳动加班文化较普遍,JD未提WLB信息。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型赛道高速增长,火山引擎是重要利润中心,但具体社会影响信号不明显。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs