Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型应用研发工程师(推理部署优化方向)-TRAE
立即应聘

大模型应用研发工程师(推理部署优化方向)-TRAE

发布于 大约 16 小时前

普通员工/个人贡献者

杭州市
高级经验
全职员工
仅现场办公
学历未注明
GPU优化
LLM
CUDA
模型量化
SGLang
vLLM
diffusion
TRT-LLM
MoE
推理部署

AI 估算 · 30k–60k

大模型推理优化属前沿方向,技能稀缺,字节跳动薪资竞争力强,结合杭州市场水平

职位详情

关于这个职位

该职位负责字节跳动TRAE AI编程产品的模型推理部署与优化,保障服务稳定性、提升性能并降低成本

你将接触到前沿的大模型推理技术,使用vLLM、TRT-LLM等工具,逼近硬件算力极限
适合对LLM应用有热情、具备系统性优化能力的技术专家

最低要求

对LLM应用层创新有热情,追求卓越,致力于逼近模型能力边界与硬件理论算力极限

具备端到端分析业务性能瓶颈、稳定性的能力,能精准定位关键卡点并推动解决
熟悉LLM模型部署流程及常见优化技术,有vLLM、TRT-LLM、SGLang开发/优化经验者优先
了解NVIDIA GPU硬件特性,具备一定CUDA Kernel开发及调优经验
自驱力强,能主动学习LLM前沿结构与推理、部署优化方案,并推动业务落地

工作职责

服务稳定性保障:保障TRAE产品AI功能的模型服务稳定,处理线上报警、完成部署扩缩容,支撑To C/To B业务增长

E2E性能及成本优化:端到端分析链路性能,协同客户端与服务端优化代码补全及Agent时延、吞吐
从业务视角优化模型部署成本,提升GPU利用率
高性能推理部署优化:结合业务特性设计并迭代模型推理、部署方案,逼近硬件理论算力极限
基于高性能算子库扩展新模型结构支持,构建“模型量化-推理加速-部署”完整Pipeline并产品化落地(如MoE稀疏结构、Diffusion模型)

AI 洞察

优缺点分析

优点

  • 接触业界最前沿的大模型推理技术,技术成长迅速
  • 字节跳动平台资源丰富,项目影响力大,有机会定义行业标准
  • 薪资福利优厚,股票期权等长期激励
  • 技术难度极高,需持续跟进快速迭代的LLM领域
  • 适合对LLM推理优化有浓厚兴趣、技术自驱力强、能适应高强度工作的资深工程师

缺点 / 挑战

  • 互联网大厂工作节奏快,可能存在较大压力

角色解读

  • 成长为AI推理优化专家,主导大规模模型部署架构设计
  • 向AI系统架构师方向发展,覆盖算法、工程与硬件协同优化
  • 可横向拓展至AI编程产品全栈,或深耕底层算力与编译器技术
  • 保障TRAE产品AI模型服务的稳定性,处理线上报警和部署扩缩容,支撑业务增长
  • 端到端分析链路性能,协同优化代码补全和Agent的时延与吞吐,提升用户体验
  • 设计并迭代模型推理部署方案,逼近硬件算力极限,构建量化-推理-部署完整Pipeline
  • 深入理解LLM模型部署流程与常见优化技术,如vLLM、TRT-LLM、SGLang
  • 熟悉NVIDIA GPU硬件特性,具备CUDA Kernel开发与调优经验
  • 拥有端到端性能瓶颈分析能力,能精准定位并解决问题
  • 自驱力强,主动学习LLM前沿结构与部署优化方案

申请策略

  • 了解TRAE产品的技术架构与业务场景,准备相关的优化方案思考
  • 关注字节跳动技术博客或开源项目,展现对该方向的热情
  • 突出LLM部署优化项目经验,特别是使用vLLM、TRT-LLM等工具的实际成果
  • 展示端到端性能优化的案例,包括时延、吞吐、成本等指标的提升
  • 强调CUDA Kernel开发经验与GPU硬件理解的深度
  • 深入学习CUDA编程与GPU架构,动手实现常用算子
  • 熟悉主流推理框架(vLLM、SGLang)源码,尝试进行二次开发

面试指南

  • STAR法则:描述情境、任务、行动、结果,量化指标
  • 从系统视角分析:先定位瓶颈(计算/访存/通信),再针对性优化
  • 结合理论:如Roofline模型分析,然后选择优化手段(算子融合、量化等)
  • 请介绍你优化LLM推理性能的项目经验,具体用了哪些技术?
  • vLLM的PagedAttention原理是什么?如何解决显存碎片问题?
  • 如何端到端定位推理延迟瓶颈?请举例说明
  • CUDA Kernel开发中如何优化访存?请分享一个具体案例
  • MoE模型推理部署有哪些挑战?如何设计方案?

匹配度报告

71
综合匹配度

字节大模型推理优化岗,前沿技术栈、高薪资,但工作强度大。

适合人群
适合追求技术前沿与快速成长的求职者,能接受高强度工作。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活30
使命价值85

薪资福利匹配

80较高

字节跳动薪资处于行业顶尖水平,福利待遇完善,但JD中未明确薪资范围。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

岗位涉及LLM前沿推理优化技术,技术栈新颖,成长空间大,但JD未明确晋升路径。

技术前沿前沿/新兴技术
技术栈LLM、vLLM、TRT-LLM、SGLang、CUDA、GPU、MoE、Diffusion
业务类型profit_center

工作生活匹配

30较低

未提及远程办公或弹性工时,互联网大厂普遍高强度,JD中无WLB信号。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

85较高

参与塑造未来AI编程工具,行业前景广阔,创新性强,社会影响力较大。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 商家BD-抖音生活服务(常州)

    字节跳动 · 常州市
    AI 估算 · 8k-15k
  • 市场营销经理(汽车及泛高科技行业)-飞书

    字节跳动 · 上海市
    AI 估算 · 25k-40k
  • 巨量千川自助客户增长运营-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 大客户销售(零售行业)-抖音生活服务(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-40k
  • 高级C++开发工程师 - 飞书视频会议

    字节跳动 · 杭州市
    AI 估算 · 30k-50k

相似职位推荐

  • 广告算法工程师-【海外算法中心】

    快手 · 北京市
    AI 估算 · 30k-60k
  • 高级数据研发工程师-【可灵AI专项】

    快手 · 北京市
    AI 估算 · 30k-50k
  • Java技术专家(架构)-【商业化】

    快手 · 北京市
    AI 估算 · 50k-80k

字节跳动 的其他在招职位

  • 商家BD-抖音生活服务(常州)

    字节跳动 · 常州市
    AI 估算 · 8k-15k
  • 市场营销经理(汽车及泛高科技行业)-飞书

    字节跳动 · 上海市
    AI 估算 · 25k-40k
  • 巨量千川自助客户增长运营-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 大客户销售(零售行业)-抖音生活服务(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-40k
  • 高级C++开发工程师 - 飞书视频会议

    字节跳动 · 杭州市
    AI 估算 · 30k-50k

相似职位推荐

  • 广告算法工程师-【海外算法中心】

    快手 · 北京市
    AI 估算 · 30k-60k
  • 高级数据研发工程师-【可灵AI专项】

    快手 · 北京市
    AI 估算 · 30k-50k
  • Java技术专家(架构)-【商业化】

    快手 · 北京市
    AI 估算 · 50k-80k