Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型推理研发专家-基础设施
立即应聘

大模型推理研发专家-基础设施

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
GPU
性能优化
CUDA
系统优化
SGLang
LLM推理
vLLM
TensorRT-LLM

AI 估算 · 40k–80k

大模型方向前沿技术,字节跳动高薪酬体系,资深专家岗,薪资位于市场领先区间。

职位详情

关于这个职位

该职位专注于构建和优化大语言模型(LLM)的高性能推理引擎与平台,涉及全链路性能分析、瓶颈定位与极致优化

你将参与前沿推理框架的研发,如 vLLM、TensorRT-LLM,通过编译优化、模型量化等技术实现成本与性能的最佳平衡
适合对大规模系统性能优化有浓厚兴趣的资深工程师

最低要求

熟练掌握Linux环境下的C/C++与Python语言,有大规模机器学习系统相关经验

熟悉至少一种大模型训练/推理框架,包括但不限于:推理(vLLM、TensorRT-LLM、SGLang等)、机器学习框架(Tensorflow/PyTorch等)
具备定位和解决复杂系统性能瓶颈的丰富经验,善于运用各类性能分析工具(Perf、eBPF、Nsight等)
优秀的跨团队沟通与协作能力,独立负责并推进大型技术项目

工作职责

负责构建性能领先的LLM推理服务引擎与平台,大模型推理性能优化,参与Servingkit的研发等开发工作

负责LLM推理服务的全链路性能分析、瓶颈定位与优化,能够深入理解大模型推理服务,通过极致的系统优化,在满足SLO/SLA要求的前提下,最大化推理系统的吞吐、降低时延,并实现成本与性能的最佳平衡
负责大模型推理前瞻性技术架构的调研和引入,技术方案不限于编译优化、模型量化等

优先资格

在主流大模型推理框架(SGlang、vLLM、TensorRT-LLM 等)有深入使用或二次开发经验者优先

理解GPU硬件架构,理解GPU软件栈(CUDA,cuDNN),具备GPU性能分析的经验
对InfiniBand/RDMA网络编程与性能调优有实践经验

AI 洞察

优缺点分析

优点

  • 身处大模型技术最前沿,参与核心推理引擎研发,技术积累丰厚
  • 字节跳动平台大,资源多,能接触到海量真实业务场景
  • 薪资和期权回报丰厚,职业发展空间广阔
  • 工作强度大,可能面临高压和长时间投入
  • 适合对系统性能优化有极致追求、热爱大模型技术、能承受高强度工作的资深工程师

缺点 / 挑战

  • 技术挑战极高,需持续学习,保持对最新技术动态的跟踪

角色解读

  • 技术深度发展:成为大模型推理系统架构专家,主导核心技术
  • 横向扩展:可转向AI基础设施、分布式计算等相邻领域
  • 管理路线:技术领导力强可晋升为技术经理或架构师
  • 负责设计并实现高性能的大模型推理服务引擎,优化推理性能与吞吐
  • 进行全链路性能分析,定位并解决系统瓶颈,确保SLA达标
  • 研究并引入前沿推理技术,如编译优化、模型量化等
  • 与跨团队协作,推动大型技术项目的落地
  • 精通C/C++和Python,具备大规模机器学习系统开发经验
  • 深入了解至少一种大模型推理框架(如vLLM、TensorRT-LLM)
  • 熟练使用性能分析工具(Perf、eBPF、Nsight),具备复杂系统调优能力
  • 优秀的沟通协作能力,能独立推进项目

申请策略

  • 面试前准备一两个性能调优的完整项目故事,包括问题、方法、结果
  • 了解字节跳动大模型相关业务(如豆包),思考如何与职位结合
  • 突出在推理框架(vLLM等)上的深入使用或二次开发经历
  • 详细描述性能优化的具体案例和量化成果(如吞吐提升、时延降低)
  • 展示GPU编程(CUDA)和系统调优(Perf/eBPF)的实战经验
  • 深入研读vLLM或TensorRT-LLM源码,理解核心优化策略
  • 学习GPU架构和CUDA编程,掌握Nsight性能分析工具

面试指南

  • STAR法则:情境、任务、行动、结果,量化成果
  • 比较分析时,从架构、生态、性能等维度展开,结合实践经验
  • 技术问题先给出理论,再结合实际场景说明应用
  • 请描述一次你优化系统性能的经历,使用了哪些工具和方法?
  • 对比vLLM和TensorRT-LLM的优缺点,你更倾向于哪种?为什么?
  • 如何在大模型推理中平衡延迟和吞吐?请给出具体策略
  • 解释CUDA中的grid和block调度,如何影响性能?
  • 如何处理分布式推理中的通信瓶颈?

匹配度报告

71
综合匹配度

字节跳动大模型推理专家,顶尖技术栈、高薪、强发展,但工作强度大。

适合人群
适合追求技术前沿、高薪回报、能接受高强度工作的资深AI系统工程师。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展95
工作生活40
使命价值70

薪资福利匹配

80较高

字节跳动薪酬竞争力强,大模型方向薪资处于行业顶端,但JD未披露具体福利,综合补偿性动机满足度高。

薪资信号未披露(AI估算:40K-80K/月)

成长发展匹配

95较高

职位处于大模型技术前沿,涉及大量先进技术栈,成长空间极大,但JD未提及晋升或培训计划。

技术前沿前沿/新兴技术
技术栈C++、Python、vLLM、TensorRT-LLM、SGLang、GPU、CUDA、性能优化、LLM推理
业务类型profit_center

工作生活匹配

40较低

北京现场办公,字节工作强度大,JD未提及弹性或WLB,生活化动机满足有限。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型技术推动行业进步,有一定社会价值,但职位更偏技术实现,使命感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 大模型算法工程师-商品治理

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 芯片DFT工程师(深圳)

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 大模型代码评测专家-大模型数据服务中心

    字节跳动 · 北京市
    AI 估算 · 25k-50k
  • AI客户端开发工程师(应用研究方向)-集团信息系统

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 媒介专家-媒介一组

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 大模型应用研发工程师 ( 电商广告方向 ) -【商业化】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 策略平台开发工程师-【算法引擎部】

    快手 · 北京市
    AI 估算 · 30k-45k

字节跳动 的其他在招职位

  • 大模型算法工程师-商品治理

    字节跳动 · 北京市
    AI 估算 · 35k-60k
  • 芯片DFT工程师(深圳)

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 大模型代码评测专家-大模型数据服务中心

    字节跳动 · 北京市
    AI 估算 · 25k-50k
  • AI客户端开发工程师(应用研究方向)-集团信息系统

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 媒介专家-媒介一组

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 大模型应用研发工程师 ( 电商广告方向 ) -【商业化】

    快手 · 北京市
    AI 估算 · 25k-45k
  • 策略平台开发工程师-【算法引擎部】

    快手 · 北京市
    AI 估算 · 30k-45k