字节跳动的大模型推理优化工程师-Data语音薪资是多少？

该职位薪资范围为 40k–70k（人民币/月）。

大模型推理优化工程师-Data语音的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型推理优化工程师-Data语音有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

大模型推理优化工程师-Data语音

立即应聘

大模型推理优化工程师-Data语音

发布于大约 11 小时前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

CUDA

模型量化

GPU推理

SGLang

vLLM

分布式推理

稀疏化

AI 估算 · 40k–70k

高级大模型推理工程师岗位，技术难度高，字节跳动薪资竞争力强，北京地区月薪参考范围合理。

职位详情

关于这个职位

作为大模型推理优化工程师，你将负责构建和优化新一代大模型推理引擎，专注于多模态语音模型的GPU推理性能提升

工作涉及CUDA/Triton算子开发、vLLM/SGLang框架升级、分布式推理策略优化及模型量化/稀疏化等前沿技术，旨在实现低延迟、高吞吐的工业级部署

你将与上下游团队合作，通过软硬结合解决性能瓶颈，推动AI技术落地

最低要求

精通Python，熟悉C++特性，具备高性能代码开发能力和算法相关经验

至少具备以下一个领域经验：GPU编程（CUDA/Triton/AscendC/TileLang开发）、模型量化/稀疏化/蒸馏、基于vLLM的框架研发、并行计算通算结合（多卡/多机推理优化）

工作职责

负责构建新一代大模型推理引擎并主导性能优化，涵盖CUDA/Triton算子开发、vLLM/SGLang框架升级、分布式推理策略优化、量化/稀疏化等模型效能加速技术，优化多模态语音理解/语音生成等多模态生成大模型在GPU集群上的推理性能，实现低延迟、高吞吐的工业级部署

研发GPU推理加速技术栈，设计最佳分布式通算结合方案，搭建PCIe通信与高并发推理架构

负责高性能方案前瞻性建设，构建基于C++/Python研发的高性能推理系统

与上下游部门深度合作，分析性能瓶颈，通过软硬结合提升模型训推效率，优化和部署语音大模型，支撑语音多模态场景下的性能优化需求并推动业务落地，支持AI工具链和技术生态建设，推动AI关键业务发展

优先资格

符合以下条件者优先：拥有推理系统经验、具备vLLM/SGLang开发经验、Tilelang/Tritton开发经验，深入了解Transformer架构，有量化/稀疏化等相关技术落地或者论文发表等相关经验

AI 洞察

优缺点分析

优点

前沿技术领域，参与大模型推理核心技术，技能积累价值高
字节跳动平台大，资源丰富，项目影响力广
团队技术氛围浓厚，与顶尖工程师合作，成长快
薪资待遇优厚，期权激励（上市后仍具价值）
技术难度高，需要掌握多项底层技术（CUDA、分布式、模型压缩）
工作强度可能较大，涉及复杂的性能优化和迭代
适合对底层系统性能优化充满热情、具备扎实编程和并行计算基础、愿意在AI基础设施领域深入发展的技术人才

缺点 / 挑战

需要快速跟进业界最新技术动态，持续学习压力大

角色解读

可向AI系统架构师方向发展，负责大型推理集群的设计与优化
也可深入模型算法研究，成为模型压缩与加速领域的专家
未来可转向AI平台或基础设施团队，主导技术栈演进
负责大模型推理引擎的构建和性能优化，包括CUDA/Triton算子开发、vLLM/SGLang框架升级
深入优化多模态语音大模型在GPU集群上的推理性能，实现低延迟高吞吐
研发GPU推理加速技术栈，设计分布式通算结合方案和高并发推理架构
与上下游团队协作，分析性能瓶颈，通过软硬结合提升模型效率
精通Python和C++，具备高性能代码开发能力
扎实的GPU编程经验，熟悉CUDA/Triton等
熟悉大模型推理框架如vLLM、SGLang，了解Transformer架构
掌握模型量化、稀疏化、蒸馏等加速技术

申请策略

在简历和面试中突出对性能优化的热情和具体成果
了解字节跳动语音技术方向，准备相关场景的优化思路
突出GPU编程项目经验，特别是CUDA/Triton相关优化案例
展示大模型推理框架使用或二次开发经历（vLLM、SGLang等）
强调量化/稀疏化等模型加速技术的实际落地效果
提供性能优化数据对比，如延迟降低、吞吐提升等
补充学习Triton编程语言和AscendC（如果未接触）
深入理解Transformer架构和模型量化原理

面试指南

技术类问题：先阐述原理，再结合实际项目经验，最后总结优化效果
场景设计题：明确目标，分析瓶颈，提出多种方案对比，最终推荐并解释
开放性问题：结构化回答，从算法、工程、系统多维度思考
请描述你在CUDA/Triton编程中解决的一个性能瓶颈案例
介绍vLLM和SGLang的区别及各自适用场景
如何对大模型进行量化？有哪些常见量化方法及优缺点？
在分布式推理中如何减少通信开销？
Transformer架构中哪些部分最影响推理性能？如何优化？

职位点评

综合评分

前沿技术、高薪酬、强成长，但工作强度大、WLB一般。

更适合这类人

最适合追求技术深度和快速成长的求职者，对生活工作平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值65

薪资福利

85较高

字节跳动提供有竞争力的薪酬和福利，但JD未明确说明具体福利细节，薪资估算在市场较高水平，补偿性动机满足较好。

薪资信号偏高 (40K-70K/月)

成长发展

90较高

该职位处于AI前沿技术领域，涉及大模型推理、CUDA、分布式等技术栈，成长空间极大，且字节跳动内部有完善的技术发展路径。

技术前沿前沿/新兴技术

技术栈CUDA、Triton、vLLM、SGLang、模型量化、稀疏化、分布式推理

业务类型ambiguous

工作生活

40较低

JD未提及工作模式和弹性办公，字节跳动通常要求现场办公且可能加班，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

AI语音技术具有广阔应用前景，但职位本身偏底层优化，社会影响力中性，行业高速增长带来意义感。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型推理优化工程师-Data语音

立即应聘

大模型推理优化工程师-Data语音

发布于大约 11 小时前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

CUDA

模型量化

GPU推理

SGLang

vLLM

分布式推理

稀疏化

AI 估算 · 40k–70k

高级大模型推理工程师岗位，技术难度高，字节跳动薪资竞争力强，北京地区月薪参考范围合理。

职位详情

关于这个职位

作为大模型推理优化工程师，你将负责构建和优化新一代大模型推理引擎，专注于多模态语音模型的GPU推理性能提升

工作涉及CUDA/Triton算子开发、vLLM/SGLang框架升级、分布式推理策略优化及模型量化/稀疏化等前沿技术，旨在实现低延迟、高吞吐的工业级部署

你将与上下游团队合作，通过软硬结合解决性能瓶颈，推动AI技术落地

最低要求

精通Python，熟悉C++特性，具备高性能代码开发能力和算法相关经验

工作职责

研发GPU推理加速技术栈，设计最佳分布式通算结合方案，搭建PCIe通信与高并发推理架构

负责高性能方案前瞻性建设，构建基于C++/Python研发的高性能推理系统

优先资格

AI 洞察

优缺点分析

优点

前沿技术领域，参与大模型推理核心技术，技能积累价值高
字节跳动平台大，资源丰富，项目影响力广
团队技术氛围浓厚，与顶尖工程师合作，成长快
薪资待遇优厚，期权激励（上市后仍具价值）
技术难度高，需要掌握多项底层技术（CUDA、分布式、模型压缩）
工作强度可能较大，涉及复杂的性能优化和迭代
适合对底层系统性能优化充满热情、具备扎实编程和并行计算基础、愿意在AI基础设施领域深入发展的技术人才

缺点 / 挑战

需要快速跟进业界最新技术动态，持续学习压力大

角色解读

可向AI系统架构师方向发展，负责大型推理集群的设计与优化
也可深入模型算法研究，成为模型压缩与加速领域的专家
未来可转向AI平台或基础设施团队，主导技术栈演进
负责大模型推理引擎的构建和性能优化，包括CUDA/Triton算子开发、vLLM/SGLang框架升级
深入优化多模态语音大模型在GPU集群上的推理性能，实现低延迟高吞吐
研发GPU推理加速技术栈，设计分布式通算结合方案和高并发推理架构
与上下游团队协作，分析性能瓶颈，通过软硬结合提升模型效率
精通Python和C++，具备高性能代码开发能力
扎实的GPU编程经验，熟悉CUDA/Triton等
熟悉大模型推理框架如vLLM、SGLang，了解Transformer架构
掌握模型量化、稀疏化、蒸馏等加速技术

申请策略

在简历和面试中突出对性能优化的热情和具体成果
了解字节跳动语音技术方向，准备相关场景的优化思路
突出GPU编程项目经验，特别是CUDA/Triton相关优化案例
展示大模型推理框架使用或二次开发经历（vLLM、SGLang等）
强调量化/稀疏化等模型加速技术的实际落地效果
提供性能优化数据对比，如延迟降低、吞吐提升等
补充学习Triton编程语言和AscendC（如果未接触）
深入理解Transformer架构和模型量化原理

面试指南

技术类问题：先阐述原理，再结合实际项目经验，最后总结优化效果
场景设计题：明确目标，分析瓶颈，提出多种方案对比，最终推荐并解释
开放性问题：结构化回答，从算法、工程、系统多维度思考
请描述你在CUDA/Triton编程中解决的一个性能瓶颈案例
介绍vLLM和SGLang的区别及各自适用场景
如何对大模型进行量化？有哪些常见量化方法及优缺点？
在分布式推理中如何减少通信开销？
Transformer架构中哪些部分最影响推理性能？如何优化？

职位点评

综合评分

前沿技术、高薪酬、强成长，但工作强度大、WLB一般。

更适合这类人

最适合追求技术深度和快速成长的求职者，对生活工作平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活40

使命价值65

薪资福利

85较高

字节跳动提供有竞争力的薪酬和福利，但JD未明确说明具体福利细节，薪资估算在市场较高水平，补偿性动机满足较好。

薪资信号偏高 (40K-70K/月)

成长发展

90较高

该职位处于AI前沿技术领域，涉及大模型推理、CUDA、分布式等技术栈，成长空间极大，且字节跳动内部有完善的技术发展路径。

技术前沿前沿/新兴技术

技术栈CUDA、Triton、vLLM、SGLang、模型量化、稀疏化、分布式推理

业务类型ambiguous

工作生活

40较低

JD未提及工作模式和弹性办公，字节跳动通常要求现场办公且可能加班，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

65中等

AI语音技术具有广阔应用前景，但职位本身偏底层优化，社会影响力中性，行业高速增长带来意义感。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型推理优化工程师-Data语音

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型推理优化工程师-Data语音

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

多媒体处理高级开发工程师

招聘专家-广告

自动化开发专家-TikTok（杭州/上海）

AI业务研发工程师-TikTok Shop

平台产品经理（游戏AI方向）-抖音

相似职位推荐

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

字节跳动 的其他在招职位

多媒体处理高级开发工程师

招聘专家-广告

自动化开发专家-TikTok（杭州/上海）

AI业务研发工程师-TikTok Shop

平台产品经理（游戏AI方向）-抖音

相似职位推荐

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

字节跳动的其他在招职位

字节跳动的其他在招职位