字节跳动的大模型推理研发专家-基础设施薪资是多少？

该职位薪资范围为 40k–80k（人民币/月）。

大模型推理研发专家-基础设施的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型推理研发专家-基础设施有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

大模型推理研发专家-基础设施

立即应聘

大模型推理研发专家-基础设施

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

性能优化

系统优化

CUDA

GPU

LLM推理

SGLang

TensorRT-LLM

vLLM

AI 估算 · 40k–80k

大模型方向前沿技术，字节跳动高薪酬体系，资深专家岗，薪资位于市场领先区间。

职位详情

关于这个职位

该职位专注于构建和优化大语言模型（LLM）的高性能推理引擎与平台，涉及全链路性能分析、瓶颈定位与极致优化

你将参与前沿推理框架的研发，如 vLLM、TensorRT-LLM，通过编译优化、模型量化等技术实现成本与性能的最佳平衡

适合对大规模系统性能优化有浓厚兴趣的资深工程师

最低要求

熟练掌握Linux环境下的C/C++与Python语言，有大规模机器学习系统相关经验

熟悉至少一种大模型训练/推理框架，包括但不限于：推理（vLLM、TensorRT-LLM、SGLang等）、机器学习框架（Tensorflow/PyTorch等）

具备定位和解决复杂系统性能瓶颈的丰富经验，善于运用各类性能分析工具（Perf、eBPF、Nsight等）

优秀的跨团队沟通与协作能力，独立负责并推进大型技术项目

工作职责

负责构建性能领先的LLM推理服务引擎与平台，大模型推理性能优化，参与Servingkit的研发等开发工作

负责LLM推理服务的全链路性能分析、瓶颈定位与优化，能够深入理解大模型推理服务，通过极致的系统优化，在满足SLO/SLA要求的前提下，最大化推理系统的吞吐、降低时延，并实现成本与性能的最佳平衡

负责大模型推理前瞻性技术架构的调研和引入，技术方案不限于编译优化、模型量化等

优先资格

在主流大模型推理框架（SGlang、vLLM、TensorRT-LLM 等）有深入使用或二次开发经验者优先

理解GPU硬件架构，理解GPU软件栈（CUDA，cuDNN），具备GPU性能分析的经验

对InfiniBand/RDMA网络编程与性能调优有实践经验

AI 洞察

优缺点分析

优点

身处大模型技术最前沿，参与核心推理引擎研发，技术积累丰厚
字节跳动平台大，资源多，能接触到海量真实业务场景
薪资和期权回报丰厚，职业发展空间广阔
工作强度大，可能面临高压和长时间投入
适合对系统性能优化有极致追求、热爱大模型技术、能承受高强度工作的资深工程师

缺点 / 挑战

技术挑战极高，需持续学习，保持对最新技术动态的跟踪

角色解读

技术深度发展：成为大模型推理系统架构专家，主导核心技术
横向扩展：可转向AI基础设施、分布式计算等相邻领域
管理路线：技术领导力强可晋升为技术经理或架构师
负责设计并实现高性能的大模型推理服务引擎，优化推理性能与吞吐
进行全链路性能分析，定位并解决系统瓶颈，确保SLA达标
研究并引入前沿推理技术，如编译优化、模型量化等
与跨团队协作，推动大型技术项目的落地
精通C/C++和Python，具备大规模机器学习系统开发经验
深入了解至少一种大模型推理框架（如vLLM、TensorRT-LLM）
熟练使用性能分析工具（Perf、eBPF、Nsight），具备复杂系统调优能力
优秀的沟通协作能力，能独立推进项目

申请策略

面试前准备一两个性能调优的完整项目故事，包括问题、方法、结果
了解字节跳动大模型相关业务（如豆包），思考如何与职位结合
突出在推理框架（vLLM等）上的深入使用或二次开发经历
详细描述性能优化的具体案例和量化成果（如吞吐提升、时延降低）
展示GPU编程（CUDA）和系统调优（Perf/eBPF）的实战经验
深入研读vLLM或TensorRT-LLM源码，理解核心优化策略
学习GPU架构和CUDA编程，掌握Nsight性能分析工具

面试指南

STAR法则：情境、任务、行动、结果，量化成果
比较分析时，从架构、生态、性能等维度展开，结合实践经验
技术问题先给出理论，再结合实际场景说明应用
请描述一次你优化系统性能的经历，使用了哪些工具和方法？
对比vLLM和TensorRT-LLM的优缺点，你更倾向于哪种？为什么？
如何在大模型推理中平衡延迟和吞吐？请给出具体策略
解释CUDA中的grid和block调度，如何影响性能？
如何处理分布式推理中的通信瓶颈？

职位点评

综合评分

字节跳动大模型推理专家，顶尖技术栈、高薪、强发展，但工作强度大。

更适合这类人

适合追求技术前沿、高薪回报、能接受高强度工作的资深AI系统工程师。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值70

薪资福利

80较高

字节跳动薪酬竞争力强，大模型方向薪资处于行业顶端，但JD未披露具体福利，综合补偿性动机满足度高。

薪资信号未披露（AI估算：40K-80K/月）

成长发展

95较高

职位处于大模型技术前沿，涉及大量先进技术栈，成长空间极大，但JD未提及晋升或培训计划。

技术前沿前沿/新兴技术

技术栈C++、Python、vLLM、TensorRT-LLM、SGLang、GPU、CUDA、性能优化、LLM推理

业务类型profit_center

工作生活

40较低

北京现场办公，字节工作强度大，JD未提及弹性或WLB，生活化动机满足有限。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型技术推动行业进步，有一定社会价值，但职位更偏技术实现，使命感中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

大模型推理研发专家-基础设施

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

大模型推理研发专家-基础设施

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

GPU性能优化工程师

腾讯云应用性能优化工程师

腾讯云汽车行业-AI交付方案工程师（FDE方向）

高级投放 Agent 研发工程师（北京/深圳）

软件开发工程师

字节跳动的其他在招职位