字节跳动的大模型应用研发工程师（推理部署优化方向）-TRAE薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

大模型应用研发工程师（推理部署优化方向）-TRAE的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的大模型应用研发工程师（推理部署优化方向）-TRAE有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

大模型应用研发工程师（推理部署优化方向）-TRAE

立即应聘

大模型应用研发工程师（推理部署优化方向）-TRAE

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

GPU优化

LLM

CUDA

模型量化

SGLang

vLLM

diffusion

TRT-LLM

MoE

AI 估算 · 30k–60k

大模型推理优化属前沿方向，技能稀缺，字节跳动薪资竞争力强，结合杭州市场水平

职位详情

关于这个职位

该职位负责字节跳动TRAE AI编程产品的模型推理部署与优化，保障服务稳定性、提升性能并降低成本

你将接触到前沿的大模型推理技术，使用vLLM、TRT-LLM等工具，逼近硬件算力极限

适合对LLM应用有热情、具备系统性优化能力的技术专家

最低要求

对LLM应用层创新有热情，追求卓越，致力于逼近模型能力边界与硬件理论算力极限

具备端到端分析业务性能瓶颈、稳定性的能力，能精准定位关键卡点并推动解决

熟悉LLM模型部署流程及常见优化技术，有vLLM、TRT-LLM、SGLang开发/优化经验者优先

了解NVIDIA GPU硬件特性，具备一定CUDA Kernel开发及调优经验

自驱力强，能主动学习LLM前沿结构与推理、部署优化方案，并推动业务落地

工作职责

服务稳定性保障：保障TRAE产品AI功能的模型服务稳定，处理线上报警、完成部署扩缩容，支撑To C/To B业务增长

E2E性能及成本优化：端到端分析链路性能，协同客户端与服务端优化代码补全及Agent时延、吞吐

从业务视角优化模型部署成本，提升GPU利用率

高性能推理部署优化：结合业务特性设计并迭代模型推理、部署方案，逼近硬件理论算力极限

基于高性能算子库扩展新模型结构支持，构建“模型量化-推理加速-部署”完整Pipeline并产品化落地（如MoE稀疏结构、Diffusion模型）

AI 洞察

优缺点分析

优点

接触业界最前沿的大模型推理技术，技术成长迅速
字节跳动平台资源丰富，项目影响力大，有机会定义行业标准
薪资福利优厚，股票期权等长期激励
技术难度极高，需持续跟进快速迭代的LLM领域
适合对LLM推理优化有浓厚兴趣、技术自驱力强、能适应高强度工作的资深工程师

缺点 / 挑战

互联网大厂工作节奏快，可能存在较大压力

角色解读

成长为AI推理优化专家，主导大规模模型部署架构设计
向AI系统架构师方向发展，覆盖算法、工程与硬件协同优化
可横向拓展至AI编程产品全栈，或深耕底层算力与编译器技术
保障TRAE产品AI模型服务的稳定性，处理线上报警和部署扩缩容，支撑业务增长
端到端分析链路性能，协同优化代码补全和Agent的时延与吞吐，提升用户体验
设计并迭代模型推理部署方案，逼近硬件算力极限，构建量化-推理-部署完整Pipeline
深入理解LLM模型部署流程与常见优化技术，如vLLM、TRT-LLM、SGLang
熟悉NVIDIA GPU硬件特性，具备CUDA Kernel开发与调优经验
拥有端到端性能瓶颈分析能力，能精准定位并解决问题
自驱力强，主动学习LLM前沿结构与部署优化方案

申请策略

了解TRAE产品的技术架构与业务场景，准备相关的优化方案思考
关注字节跳动技术博客或开源项目，展现对该方向的热情
突出LLM部署优化项目经验，特别是使用vLLM、TRT-LLM等工具的实际成果
展示端到端性能优化的案例，包括时延、吞吐、成本等指标的提升
强调CUDA Kernel开发经验与GPU硬件理解的深度
深入学习CUDA编程与GPU架构，动手实现常用算子
熟悉主流推理框架（vLLM、SGLang）源码，尝试进行二次开发

面试指南

STAR法则：描述情境、任务、行动、结果，量化指标
从系统视角分析：先定位瓶颈（计算/访存/通信），再针对性优化
结合理论：如Roofline模型分析，然后选择优化手段（算子融合、量化等）
请介绍你优化LLM推理性能的项目经验，具体用了哪些技术？
vLLM的PagedAttention原理是什么？如何解决显存碎片问题？
如何端到端定位推理延迟瓶颈？请举例说明
CUDA Kernel开发中如何优化访存？请分享一个具体案例
MoE模型推理部署有哪些挑战？如何设计方案？

职位点评

综合评分

字节大模型推理优化岗，前沿技术栈、高薪资，但工作强度大。

更适合这类人

适合追求技术前沿与快速成长的求职者，能接受高强度工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活30

使命价值85

薪资福利

80较高

字节跳动薪资处于行业顶尖水平，福利待遇完善，但JD中未明确薪资范围。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

岗位涉及LLM前沿推理优化技术，技术栈新颖，成长空间大，但JD未明确晋升路径。

技术前沿前沿/新兴技术

技术栈LLM、vLLM、TRT-LLM、SGLang、CUDA、GPU、MoE、Diffusion

业务类型profit_center

工作生活

30较低

未提及远程办公或弹性工时，互联网大厂普遍高强度，JD中无WLB信号。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

参与塑造未来AI编程工具，行业前景广阔，创新性强，社会影响力较大。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

Watch Jobs

字节跳动

大模型应用研发工程师（推理部署优化方向）-TRAE

立即应聘

大模型应用研发工程师（推理部署优化方向）-TRAE

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

GPU优化

LLM

CUDA

模型量化

SGLang

vLLM

diffusion

TRT-LLM

MoE

AI 估算 · 30k–60k

大模型推理优化属前沿方向，技能稀缺，字节跳动薪资竞争力强，结合杭州市场水平

职位详情

关于这个职位

该职位负责字节跳动TRAE AI编程产品的模型推理部署与优化，保障服务稳定性、提升性能并降低成本

你将接触到前沿的大模型推理技术，使用vLLM、TRT-LLM等工具，逼近硬件算力极限

适合对LLM应用有热情、具备系统性优化能力的技术专家

最低要求

对LLM应用层创新有热情，追求卓越，致力于逼近模型能力边界与硬件理论算力极限

具备端到端分析业务性能瓶颈、稳定性的能力，能精准定位关键卡点并推动解决

熟悉LLM模型部署流程及常见优化技术，有vLLM、TRT-LLM、SGLang开发/优化经验者优先

了解NVIDIA GPU硬件特性，具备一定CUDA Kernel开发及调优经验

自驱力强，能主动学习LLM前沿结构与推理、部署优化方案，并推动业务落地

工作职责

服务稳定性保障：保障TRAE产品AI功能的模型服务稳定，处理线上报警、完成部署扩缩容，支撑To C/To B业务增长

E2E性能及成本优化：端到端分析链路性能，协同客户端与服务端优化代码补全及Agent时延、吞吐

从业务视角优化模型部署成本，提升GPU利用率

高性能推理部署优化：结合业务特性设计并迭代模型推理、部署方案，逼近硬件理论算力极限

基于高性能算子库扩展新模型结构支持，构建“模型量化-推理加速-部署”完整Pipeline并产品化落地（如MoE稀疏结构、Diffusion模型）

AI 洞察

优缺点分析

优点

接触业界最前沿的大模型推理技术，技术成长迅速
字节跳动平台资源丰富，项目影响力大，有机会定义行业标准
薪资福利优厚，股票期权等长期激励
技术难度极高，需持续跟进快速迭代的LLM领域
适合对LLM推理优化有浓厚兴趣、技术自驱力强、能适应高强度工作的资深工程师

缺点 / 挑战

互联网大厂工作节奏快，可能存在较大压力

角色解读

成长为AI推理优化专家，主导大规模模型部署架构设计
向AI系统架构师方向发展，覆盖算法、工程与硬件协同优化
可横向拓展至AI编程产品全栈，或深耕底层算力与编译器技术
保障TRAE产品AI模型服务的稳定性，处理线上报警和部署扩缩容，支撑业务增长
端到端分析链路性能，协同优化代码补全和Agent的时延与吞吐，提升用户体验
设计并迭代模型推理部署方案，逼近硬件算力极限，构建量化-推理-部署完整Pipeline
深入理解LLM模型部署流程与常见优化技术，如vLLM、TRT-LLM、SGLang
熟悉NVIDIA GPU硬件特性，具备CUDA Kernel开发与调优经验
拥有端到端性能瓶颈分析能力，能精准定位并解决问题
自驱力强，主动学习LLM前沿结构与部署优化方案

申请策略

了解TRAE产品的技术架构与业务场景，准备相关的优化方案思考
关注字节跳动技术博客或开源项目，展现对该方向的热情
突出LLM部署优化项目经验，特别是使用vLLM、TRT-LLM等工具的实际成果
展示端到端性能优化的案例，包括时延、吞吐、成本等指标的提升
强调CUDA Kernel开发经验与GPU硬件理解的深度
深入学习CUDA编程与GPU架构，动手实现常用算子
熟悉主流推理框架（vLLM、SGLang）源码，尝试进行二次开发

面试指南

STAR法则：描述情境、任务、行动、结果，量化指标
从系统视角分析：先定位瓶颈（计算/访存/通信），再针对性优化
结合理论：如Roofline模型分析，然后选择优化手段（算子融合、量化等）
请介绍你优化LLM推理性能的项目经验，具体用了哪些技术？
vLLM的PagedAttention原理是什么？如何解决显存碎片问题？
如何端到端定位推理延迟瓶颈？请举例说明
CUDA Kernel开发中如何优化访存？请分享一个具体案例
MoE模型推理部署有哪些挑战？如何设计方案？

职位点评

综合评分

字节大模型推理优化岗，前沿技术栈、高薪资，但工作强度大。

更适合这类人

适合追求技术前沿与快速成长的求职者，能接受高强度工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活30

使命价值85

薪资福利

80较高

字节跳动薪资处于行业顶尖水平，福利待遇完善，但JD中未明确薪资范围。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

岗位涉及LLM前沿推理优化技术，技术栈新颖，成长空间大，但JD未明确晋升路径。

技术前沿前沿/新兴技术

技术栈LLM、vLLM、TRT-LLM、SGLang、CUDA、GPU、MoE、Diffusion

业务类型profit_center

工作生活

30较低

未提及远程办公或弹性工时，互联网大厂普遍高强度，JD中无WLB信号。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

参与塑造未来AI编程工具，行业前景广阔，创新性强，社会影响力较大。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

Watch Jobs

大模型应用研发工程师（推理部署优化方向）-TRAE

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型应用研发工程师（推理部署优化方向）-TRAE

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Backend Developer - AI & Agentic Applications

Data Engineer

（高级）安卓应用开发工程师

Specialist, ML Engineer

VP, Engineering Lead, AI Wealth

字节跳动 的其他在招职位

后端研发工程师-电商交易

原型验证工程师-Data（深圳）

硬件加速推理引擎运行时开发工程师-AI工具链

后台开发工程师-抖音用户体验

分类值班号-CQC

相似职位推荐

Backend Developer - AI & Agentic Applications

Data Engineer

（高级）安卓应用开发工程师

Specialist, ML Engineer

VP, Engineering Lead, AI Wealth

字节跳动的其他在招职位

字节跳动的其他在招职位