ByteDance logo
字节跳动
DiT模型推理服务工程师-Data AML

DiT模型推理服务工程师-Data AML

发布于 大约 4 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
分布式系统
GO
LLM
TensorRT
vLLM
DiT
推理服务

AI 估算 · 35k–60k

字节跳动高级工程师岗位,北京地区,结合大模型推理服务稀缺技能,薪资偏高,中位数约47.5k/月。

职位详情

关于这个职位

这个职位主要负责DiT/LLM推理服务框架的架构设计与核心模块开发,涉及分布式系统优化、DAG调度引擎构建以及性能与稳定性提升

你将与算法、平台、运维团队紧密协作,推动AI模型的落地与迭代,适合对AI工程化和分布式系统充满热情的高级工程师

最低要求

熟悉分布式系统原理与高性能计算,具备多线程/多进程编程经验

精通至少一种后端开发语言(C++/Go/Python等),具备大规模服务开发经验
理解大规模模型(DiT、LLM)推理特性及性能瓶颈,熟悉主流推理框架(如TensorRT、vLLM、DeepSpeed-Inference、Triton等)等相关经验者优先
具备负载均衡、流量调度、服务编排等系统设计能力,有Kubernetes、Service Mesh、RPC框架等相关经验者优先
对AI工程化、分布式系统优化充满热情,能快速定位与解决复杂系统问题

工作职责

推理框架开发:负责DiT/LLM推理服务框架的架构设计与核心模块研发

分布式系统优化:实现跨节点、多GPU/CPU混合部署的并行推理与调度
DAG调度引擎:设计并实现可配置化的多服务DAG调用与数据依赖管理
性能与稳定性:在高并发、低延迟场景下优化服务性能,降低P99延迟
运维与可观测性:建设推理服务的监控、日志、链路追踪与异常处理体系
跨团队协作:与算法、平台、运维等团队紧密配合,完成模型落地与迭代

优先资格

有千万级QPS、毫秒级延迟的推理服务优化经验

参与或主导过多服务DAG调度系统的研发
对GPU通信优化(NCCL、RDMA)、异构计算调度有实战经验
对Diffusion Transformer、LLM推理加速技术有深入理解

AI 洞察

优缺点分析

优点

  • 字节跳动提供顶级技术平台和海量业务场景,有机会处理千万级QPS问题,快速提升系统设计能力
  • 团队技术氛围浓厚,能与算法、平台等顶尖工程师协作,职业发展空间大
  • 工作强度较大,需应对高并发、低延迟的极致优化需求,可能会涉及紧急情况处理
  • 技术要求非常高,需要同时掌握分布式、推理框架、调度系统等多方面知识,学习曲线陡峭
  • 大模型技术迭代快,需要持续跟进最新论文和框架,保持技术敏锐度

缺点 / 挑战

  • 身处大模型推理前沿领域,技术栈新且挑战性高,能深度参与DiT/LLM落地,积累稀缺经验
  • 适合对AI工程化充满热情、具备扎实分布式系统基础、乐于挑战高性能优化问题的高级工程师

角色解读

  • 在AI推理领域成为技术专家,主导推理框架架构演进和性能优化,晋升为技术负责人或架构师
  • 横向拓展至AI平台架构或大模型训练优化,参与公司级AI基础设施规划
  • 积累分布式系统和GPU通信优化经验,未来可转向云计算、高性能计算或AI芯片相关方向
  • 负责DiT/LLM推理服务框架的架构设计,开发高性能推理引擎,优化模型推理速度和资源利用率
  • 实现跨节点、多GPU/CPU混合部署的分布式推理系统,设计DAG调度引擎管理多服务调用与数据依赖
  • 建设推理服务的监控、日志和异常处理体系,确保在高并发场景下的稳定运行,并参与模型落地与迭代
  • 精通分布式系统原理和高性能计算,熟练掌握C++/Go/Python中的至少一种语言,具备大规模服务开发经验
  • 深入理解大规模模型推理特性,熟悉TensorRT、vLLM、DeepSpeed-Inference等推理框架
  • 掌握负载均衡、流量调度、服务编排等系统设计能力,有Kubernetes、Service Mesh等容器编排经验

申请策略

  • 关注字节跳动在AI Infra方向的布局,了解AML团队的业务目标,在面试中展现你对工程落地的热情
  • 准备一个你主导的系统优化案例,用STAR法则详细说明问题、方案、结果,突出你的思考过程
  • 突出你在分布式系统或推理服务方面的项目经验,尤其是性能优化成果(如延迟降低、吞吐提升)
  • 强调你精通的语言(C++/Go/Python)和框架(TensorRT、vLLM等),并用数据说明规模(如QPS、延迟指标)
  • 展示你在Kubernetes、DAG调度、GPU通信等方面的实际应用,最好有系统设计案例
  • 若对推理框架不熟,可提前学习TensorRT、vLLM的源码和最佳实践,动手部署一个小型模型
  • 补充分布式系统调度知识,如Kubernetes自定义资源、Service Mesh原理,以及NCCL通信优化

面试指南

  • 对于架构设计类问题,先明确需求和约束(QPS、延迟、成本),然后给出分层或分布式方案,最后说明关键优化点
  • 对于性能优化问题,从瓶颈分析入手(CPU/GPU/网络),结合具体工具(profiling)定位,给出量化改进效果
  • 对于技术对比问题,先阐述各自特性,再结合场景分析优劣,展现你的理解深度
  • 请设计一个支持高并发、低延迟的LLM推理服务架构,并说明如何优化P99延迟
  • 谈谈你对DiT模型推理与LLM推理在性能瓶颈上的异同,以及如何针对性优化
  • 如何实现一个支持多服务依赖的DAG调度引擎?请描述数据依赖管理和失败处理机制
  • 你在项目中如何使用NCCL或RDMA优化GPU通信?遇到过哪些挑战?
  • 请描述一次你解决线上推理服务性能问题的经历,包括排查思路和最终方案

匹配度报告

68
综合匹配度

字节高级推理工程师,前沿技术栈、薪资优厚,但工作强度大、WLB一般。

适合人群
该职位最适合追求技术成长和薪资回报、能接受高强度工作节奏的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值60

薪资福利匹配

80较高

字节跳动薪资福利在业内属于顶尖水平,该岗位作为高级工程师薪资偏高,且公司提供完善福利,但JD未提及具体福利,综合评分较高。

薪资信号偏高 (35K-60K/月)

成长发展匹配

90较高

岗位涉及大模型推理前沿技术,能深入掌握DiT/LLM、分布式系统优化等核心技能,且JD明确要求熟悉前沿框架,技术成长空间极大。

技术前沿前沿/新兴技术
技术栈DiT、LLM、TensorRT、vLLM、DeepSpeed-Inference、Kubernetes、NCCL
业务类型profit_center

工作生活匹配

40较低

北京现场办公,互联网大厂高强度工作文化,JD未提及WLB相关描述,因此生活方面得分较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

大模型推理是高速增长赛道,技术影响力大,但属于商业驱动,社会影响力中性,整体意义感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs