字节跳动的DiT模型推理服务工程师-Data AML薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

DiT模型推理服务工程师-Data AML的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的DiT模型推理服务工程师-Data AML有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

DiT模型推理服务工程师-Data AML

立即应聘

DiT模型推理服务工程师-Data AML

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

分布式系统

推理服务

DiT

LLM

TensorRT

vLLM

AI 估算 · 35k–60k

字节跳动高级工程师岗位，北京地区，结合大模型推理服务稀缺技能，薪资偏高，中位数约47.5k/月。

职位详情

关于这个职位

这个职位主要负责DiT/LLM推理服务框架的架构设计与核心模块开发，涉及分布式系统优化、DAG调度引擎构建以及性能与稳定性提升

你将与算法、平台、运维团队紧密协作，推动AI模型的落地与迭代，适合对AI工程化和分布式系统充满热情的高级工程师

最低要求

熟悉分布式系统原理与高性能计算，具备多线程/多进程编程经验

精通至少一种后端开发语言（C++/Go/Python等），具备大规模服务开发经验

理解大规模模型（DiT、LLM）推理特性及性能瓶颈，熟悉主流推理框架（如TensorRT、vLLM、DeepSpeed-Inference、Triton等）等相关经验者优先

具备负载均衡、流量调度、服务编排等系统设计能力，有Kubernetes、Service Mesh、RPC框架等相关经验者优先

对AI工程化、分布式系统优化充满热情，能快速定位与解决复杂系统问题

工作职责

推理框架开发：负责DiT/LLM推理服务框架的架构设计与核心模块研发

分布式系统优化：实现跨节点、多GPU/CPU混合部署的并行推理与调度

DAG调度引擎：设计并实现可配置化的多服务DAG调用与数据依赖管理

性能与稳定性：在高并发、低延迟场景下优化服务性能，降低P99延迟

运维与可观测性：建设推理服务的监控、日志、链路追踪与异常处理体系

跨团队协作：与算法、平台、运维等团队紧密配合，完成模型落地与迭代

优先资格

有千万级QPS、毫秒级延迟的推理服务优化经验

参与或主导过多服务DAG调度系统的研发

对GPU通信优化（NCCL、RDMA）、异构计算调度有实战经验

对Diffusion Transformer、LLM推理加速技术有深入理解

AI 洞察

优缺点分析

优点

字节跳动提供顶级技术平台和海量业务场景，有机会处理千万级QPS问题，快速提升系统设计能力
团队技术氛围浓厚，能与算法、平台等顶尖工程师协作，职业发展空间大
工作强度较大，需应对高并发、低延迟的极致优化需求，可能会涉及紧急情况处理
技术要求非常高，需要同时掌握分布式、推理框架、调度系统等多方面知识，学习曲线陡峭
大模型技术迭代快，需要持续跟进最新论文和框架，保持技术敏锐度

缺点 / 挑战

身处大模型推理前沿领域，技术栈新且挑战性高，能深度参与DiT/LLM落地，积累稀缺经验
适合对AI工程化充满热情、具备扎实分布式系统基础、乐于挑战高性能优化问题的高级工程师

角色解读

在AI推理领域成为技术专家，主导推理框架架构演进和性能优化，晋升为技术负责人或架构师
横向拓展至AI平台架构或大模型训练优化，参与公司级AI基础设施规划
积累分布式系统和GPU通信优化经验，未来可转向云计算、高性能计算或AI芯片相关方向
负责DiT/LLM推理服务框架的架构设计，开发高性能推理引擎，优化模型推理速度和资源利用率
实现跨节点、多GPU/CPU混合部署的分布式推理系统，设计DAG调度引擎管理多服务调用与数据依赖
建设推理服务的监控、日志和异常处理体系，确保在高并发场景下的稳定运行，并参与模型落地与迭代
精通分布式系统原理和高性能计算，熟练掌握C++/Go/Python中的至少一种语言，具备大规模服务开发经验
深入理解大规模模型推理特性，熟悉TensorRT、vLLM、DeepSpeed-Inference等推理框架
掌握负载均衡、流量调度、服务编排等系统设计能力，有Kubernetes、Service Mesh等容器编排经验

申请策略

关注字节跳动在AI Infra方向的布局，了解AML团队的业务目标，在面试中展现你对工程落地的热情
准备一个你主导的系统优化案例，用STAR法则详细说明问题、方案、结果，突出你的思考过程
突出你在分布式系统或推理服务方面的项目经验，尤其是性能优化成果（如延迟降低、吞吐提升）
强调你精通的语言（C++/Go/Python）和框架（TensorRT、vLLM等），并用数据说明规模（如QPS、延迟指标）
展示你在Kubernetes、DAG调度、GPU通信等方面的实际应用，最好有系统设计案例
若对推理框架不熟，可提前学习TensorRT、vLLM的源码和最佳实践，动手部署一个小型模型
补充分布式系统调度知识，如Kubernetes自定义资源、Service Mesh原理，以及NCCL通信优化

面试指南

对于架构设计类问题，先明确需求和约束（QPS、延迟、成本），然后给出分层或分布式方案，最后说明关键优化点
对于性能优化问题，从瓶颈分析入手（CPU/GPU/网络），结合具体工具（profiling）定位，给出量化改进效果
对于技术对比问题，先阐述各自特性，再结合场景分析优劣，展现你的理解深度
请设计一个支持高并发、低延迟的LLM推理服务架构，并说明如何优化P99延迟
谈谈你对DiT模型推理与LLM推理在性能瓶颈上的异同，以及如何针对性优化
如何实现一个支持多服务依赖的DAG调度引擎？请描述数据依赖管理和失败处理机制
你在项目中如何使用NCCL或RDMA优化GPU通信？遇到过哪些挑战？
请描述一次你解决线上推理服务性能问题的经历，包括排查思路和最终方案

职位点评

综合评分

字节高级推理工程师，前沿技术栈、薪资优厚，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术成长和薪资回报、能接受高强度工作节奏的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值60

薪资福利

80较高

字节跳动薪资福利在业内属于顶尖水平，该岗位作为高级工程师薪资偏高，且公司提供完善福利，但JD未提及具体福利，综合评分较高。

薪资信号偏高 (35K-60K/月)

成长发展

90较高

岗位涉及大模型推理前沿技术，能深入掌握DiT/LLM、分布式系统优化等核心技能，且JD明确要求熟悉前沿框架，技术成长空间极大。

技术前沿前沿/新兴技术

技术栈DiT、LLM、TensorRT、vLLM、DeepSpeed-Inference、Kubernetes、NCCL

业务类型profit_center

工作生活

40较低

北京现场办公，互联网大厂高强度工作文化，JD未提及WLB相关描述，因此生活方面得分较低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

大模型推理是高速增长赛道，技术影响力大，但属于商业驱动，社会影响力中性，整体意义感中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

DiT模型推理服务工程师-Data AML

立即应聘

DiT模型推理服务工程师-Data AML

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

分布式系统

推理服务

DiT

LLM

TensorRT

vLLM

AI 估算 · 35k–60k

字节跳动高级工程师岗位，北京地区，结合大模型推理服务稀缺技能，薪资偏高，中位数约47.5k/月。

职位详情

关于这个职位

这个职位主要负责DiT/LLM推理服务框架的架构设计与核心模块开发，涉及分布式系统优化、DAG调度引擎构建以及性能与稳定性提升

你将与算法、平台、运维团队紧密协作，推动AI模型的落地与迭代，适合对AI工程化和分布式系统充满热情的高级工程师

最低要求

熟悉分布式系统原理与高性能计算，具备多线程/多进程编程经验

精通至少一种后端开发语言（C++/Go/Python等），具备大规模服务开发经验

理解大规模模型（DiT、LLM）推理特性及性能瓶颈，熟悉主流推理框架（如TensorRT、vLLM、DeepSpeed-Inference、Triton等）等相关经验者优先

具备负载均衡、流量调度、服务编排等系统设计能力，有Kubernetes、Service Mesh、RPC框架等相关经验者优先

对AI工程化、分布式系统优化充满热情，能快速定位与解决复杂系统问题

工作职责

推理框架开发：负责DiT/LLM推理服务框架的架构设计与核心模块研发

分布式系统优化：实现跨节点、多GPU/CPU混合部署的并行推理与调度

DAG调度引擎：设计并实现可配置化的多服务DAG调用与数据依赖管理

性能与稳定性：在高并发、低延迟场景下优化服务性能，降低P99延迟

运维与可观测性：建设推理服务的监控、日志、链路追踪与异常处理体系

跨团队协作：与算法、平台、运维等团队紧密配合，完成模型落地与迭代

优先资格

有千万级QPS、毫秒级延迟的推理服务优化经验

参与或主导过多服务DAG调度系统的研发

对GPU通信优化（NCCL、RDMA）、异构计算调度有实战经验

对Diffusion Transformer、LLM推理加速技术有深入理解

AI 洞察

优缺点分析

优点

字节跳动提供顶级技术平台和海量业务场景，有机会处理千万级QPS问题，快速提升系统设计能力
团队技术氛围浓厚，能与算法、平台等顶尖工程师协作，职业发展空间大
工作强度较大，需应对高并发、低延迟的极致优化需求，可能会涉及紧急情况处理
技术要求非常高，需要同时掌握分布式、推理框架、调度系统等多方面知识，学习曲线陡峭
大模型技术迭代快，需要持续跟进最新论文和框架，保持技术敏锐度

缺点 / 挑战

身处大模型推理前沿领域，技术栈新且挑战性高，能深度参与DiT/LLM落地，积累稀缺经验
适合对AI工程化充满热情、具备扎实分布式系统基础、乐于挑战高性能优化问题的高级工程师

角色解读

在AI推理领域成为技术专家，主导推理框架架构演进和性能优化，晋升为技术负责人或架构师
横向拓展至AI平台架构或大模型训练优化，参与公司级AI基础设施规划
积累分布式系统和GPU通信优化经验，未来可转向云计算、高性能计算或AI芯片相关方向
负责DiT/LLM推理服务框架的架构设计，开发高性能推理引擎，优化模型推理速度和资源利用率
实现跨节点、多GPU/CPU混合部署的分布式推理系统，设计DAG调度引擎管理多服务调用与数据依赖
建设推理服务的监控、日志和异常处理体系，确保在高并发场景下的稳定运行，并参与模型落地与迭代
精通分布式系统原理和高性能计算，熟练掌握C++/Go/Python中的至少一种语言，具备大规模服务开发经验
深入理解大规模模型推理特性，熟悉TensorRT、vLLM、DeepSpeed-Inference等推理框架
掌握负载均衡、流量调度、服务编排等系统设计能力，有Kubernetes、Service Mesh等容器编排经验

申请策略

关注字节跳动在AI Infra方向的布局，了解AML团队的业务目标，在面试中展现你对工程落地的热情
准备一个你主导的系统优化案例，用STAR法则详细说明问题、方案、结果，突出你的思考过程
突出你在分布式系统或推理服务方面的项目经验，尤其是性能优化成果（如延迟降低、吞吐提升）
强调你精通的语言（C++/Go/Python）和框架（TensorRT、vLLM等），并用数据说明规模（如QPS、延迟指标）
展示你在Kubernetes、DAG调度、GPU通信等方面的实际应用，最好有系统设计案例
若对推理框架不熟，可提前学习TensorRT、vLLM的源码和最佳实践，动手部署一个小型模型
补充分布式系统调度知识，如Kubernetes自定义资源、Service Mesh原理，以及NCCL通信优化

面试指南

对于架构设计类问题，先明确需求和约束（QPS、延迟、成本），然后给出分层或分布式方案，最后说明关键优化点
对于性能优化问题，从瓶颈分析入手（CPU/GPU/网络），结合具体工具（profiling）定位，给出量化改进效果
对于技术对比问题，先阐述各自特性，再结合场景分析优劣，展现你的理解深度
请设计一个支持高并发、低延迟的LLM推理服务架构，并说明如何优化P99延迟
谈谈你对DiT模型推理与LLM推理在性能瓶颈上的异同，以及如何针对性优化
如何实现一个支持多服务依赖的DAG调度引擎？请描述数据依赖管理和失败处理机制
你在项目中如何使用NCCL或RDMA优化GPU通信？遇到过哪些挑战？
请描述一次你解决线上推理服务性能问题的经历，包括排查思路和最终方案

职位点评

综合评分

字节高级推理工程师，前沿技术栈、薪资优厚，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术成长和薪资回报、能接受高强度工作节奏的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值60

薪资福利

80较高

字节跳动薪资福利在业内属于顶尖水平，该岗位作为高级工程师薪资偏高，且公司提供完善福利，但JD未提及具体福利，综合评分较高。

薪资信号偏高 (35K-60K/月)

成长发展

90较高

岗位涉及大模型推理前沿技术，能深入掌握DiT/LLM、分布式系统优化等核心技能，且JD明确要求熟悉前沿框架，技术成长空间极大。

技术前沿前沿/新兴技术

技术栈DiT、LLM、TensorRT、vLLM、DeepSpeed-Inference、Kubernetes、NCCL

业务类型profit_center

工作生活

40较低

北京现场办公，互联网大厂高强度工作文化，JD未提及WLB相关描述，因此生活方面得分较低。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

大模型推理是高速增长赛道，技术影响力大，但属于商业驱动，社会影响力中性，整体意义感中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

DiT模型推理服务工程师-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

DiT模型推理服务工程师-Data AML

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位