
字节跳动
DiT模型推理服务工程师-Data AML
DiT模型推理服务工程师-Data AML
发布于 大约 4 小时前普通员工/个人贡献者
北京市
高级经验
全职员工
仅现场办公
学历未注明
分布式系统
GO
LLM
TensorRT
vLLM
DiT
推理服务
AI 估算 · 35k–60k
字节跳动高级工程师岗位,北京地区,结合大模型推理服务稀缺技能,薪资偏高,中位数约47.5k/月。
职位详情
关于这个职位
这个职位主要负责DiT/LLM推理服务框架的架构设计与核心模块开发,涉及分布式系统优化、DAG调度引擎构建以及性能与稳定性提升
你将与算法、平台、运维团队紧密协作,推动AI模型的落地与迭代,适合对AI工程化和分布式系统充满热情的高级工程师
最低要求
熟悉分布式系统原理与高性能计算,具备多线程/多进程编程经验
精通至少一种后端开发语言(C++/Go/Python等),具备大规模服务开发经验
理解大规模模型(DiT、LLM)推理特性及性能瓶颈,熟悉主流推理框架(如TensorRT、vLLM、DeepSpeed-Inference、Triton等)等相关经验者优先
具备负载均衡、流量调度、服务编排等系统设计能力,有Kubernetes、Service Mesh、RPC框架等相关经验者优先
对AI工程化、分布式系统优化充满热情,能快速定位与解决复杂系统问题
工作职责
推理框架开发:负责DiT/LLM推理服务框架的架构设计与核心模块研发
分布式系统优化:实现跨节点、多GPU/CPU混合部署的并行推理与调度
DAG调度引擎:设计并实现可配置化的多服务DAG调用与数据依赖管理
性能与稳定性:在高并发、低延迟场景下优化服务性能,降低P99延迟
运维与可观测性:建设推理服务的监控、日志、链路追踪与异常处理体系
跨团队协作:与算法、平台、运维等团队紧密配合,完成模型落地与迭代
优先资格
有千万级QPS、毫秒级延迟的推理服务优化经验
参与或主导过多服务DAG调度系统的研发
对GPU通信优化(NCCL、RDMA)、异构计算调度有实战经验
对Diffusion Transformer、LLM推理加速技术有深入理解
AI 洞察
优缺点分析
优点
- 字节跳动提供顶级技术平台和海量业务场景,有机会处理千万级QPS问题,快速提升系统设计能力
- 团队技术氛围浓厚,能与算法、平台等顶尖工程师协作,职业发展空间大
- 工作强度较大,需应对高并发、低延迟的极致优化需求,可能会涉及紧急情况处理
- 技术要求非常高,需要同时掌握分布式、推理框架、调度系统等多方面知识,学习曲线陡峭
- 大模型技术迭代快,需要持续跟进最新论文和框架,保持技术敏锐度
缺点 / 挑战
- 身处大模型推理前沿领域,技术栈新且挑战性高,能深度参与DiT/LLM落地,积累稀缺经验
- 适合对AI工程化充满热情、具备扎实分布式系统基础、乐于挑战高性能优化问题的高级工程师
角色解读
- 在AI推理领域成为技术专家,主导推理框架架构演进和性能优化,晋升为技术负责人或架构师
- 横向拓展至AI平台架构或大模型训练优化,参与公司级AI基础设施规划
- 积累分布式系统和GPU通信优化经验,未来可转向云计算、高性能计算或AI芯片相关方向
- 负责DiT/LLM推理服务框架的架构设计,开发高性能推理引擎,优化模型推理速度和资源利用率
- 实现跨节点、多GPU/CPU混合部署的分布式推理系统,设计DAG调度引擎管理多服务调用与数据依赖
- 建设推理服务的监控、日志和异常处理体系,确保在高并发场景下的稳定运行,并参与模型落地与迭代
- 精通分布式系统原理和高性能计算,熟练掌握C++/Go/Python中的至少一种语言,具备大规模服务开发经验
- 深入理解大规模模型推理特性,熟悉TensorRT、vLLM、DeepSpeed-Inference等推理框架
- 掌握负载均衡、流量调度、服务编排等系统设计能力,有Kubernetes、Service Mesh等容器编排经验
申请策略
- 关注字节跳动在AI Infra方向的布局,了解AML团队的业务目标,在面试中展现你对工程落地的热情
- 准备一个你主导的系统优化案例,用STAR法则详细说明问题、方案、结果,突出你的思考过程
- 突出你在分布式系统或推理服务方面的项目经验,尤其是性能优化成果(如延迟降低、吞吐提升)
- 强调你精通的语言(C++/Go/Python)和框架(TensorRT、vLLM等),并用数据说明规模(如QPS、延迟指标)
- 展示你在Kubernetes、DAG调度、GPU通信等方面的实际应用,最好有系统设计案例
- 若对推理框架不熟,可提前学习TensorRT、vLLM的源码和最佳实践,动手部署一个小型模型
- 补充分布式系统调度知识,如Kubernetes自定义资源、Service Mesh原理,以及NCCL通信优化
面试指南
- 对于架构设计类问题,先明确需求和约束(QPS、延迟、成本),然后给出分层或分布式方案,最后说明关键优化点
- 对于性能优化问题,从瓶颈分析入手(CPU/GPU/网络),结合具体工具(profiling)定位,给出量化改进效果
- 对于技术对比问题,先阐述各自特性,再结合场景分析优劣,展现你的理解深度
- 请设计一个支持高并发、低延迟的LLM推理服务架构,并说明如何优化P99延迟
- 谈谈你对DiT模型推理与LLM推理在性能瓶颈上的异同,以及如何针对性优化
- 如何实现一个支持多服务依赖的DAG调度引擎?请描述数据依赖管理和失败处理机制
- 你在项目中如何使用NCCL或RDMA优化GPU通信?遇到过哪些挑战?
- 请描述一次你解决线上推理服务性能问题的经历,包括排查思路和最终方案
匹配度报告
68
综合匹配度
字节高级推理工程师,前沿技术栈、薪资优厚,但工作强度大、WLB一般。
适合人群
该职位最适合追求技术成长和薪资回报、能接受高强度工作节奏的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值60
薪资福利匹配
80较高
字节跳动薪资福利在业内属于顶尖水平,该岗位作为高级工程师薪资偏高,且公司提供完善福利,但JD未提及具体福利,综合评分较高。
薪资信号偏高 (35K-60K/月)
成长发展匹配
90较高
岗位涉及大模型推理前沿技术,能深入掌握DiT/LLM、分布式系统优化等核心技能,且JD明确要求熟悉前沿框架,技术成长空间极大。
技术前沿前沿/新兴技术
技术栈DiT、LLM、TensorRT、vLLM、DeepSpeed-Inference、Kubernetes、NCCL
业务类型profit_center
工作生活匹配
40较低
北京现场办公,互联网大厂高强度工作文化,JD未提及WLB相关描述,因此生活方面得分较低。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
60中等
大模型推理是高速增长赛道,技术影响力大,但属于商业驱动,社会影响力中性,整体意义感中等。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs