ByteDance logo
字节跳动
电商场景LLM/VLM/AIGC推理工程师-TikTok Shop

电商场景LLM/VLM/AIGC推理工程师-TikTok Shop

发布于 大约 1 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
分布式系统
PyTorch
LLM
CUDA
GPU编程
AIGC
VLM
SGLang
vLLM
TRT-LLM

AI 估算 · 30k–60k

大模型推理稀缺岗位,字节薪资竞争力强,北京一线城市,综合考虑中级经验与行业趋势

职位详情

关于这个职位

该职位负责设计实现电商场景下的大模型推理引擎,处理LLM/VLM/AIGC等多种模型的在线与离线推理,优化性能和资源利用率

需与算法团队深度合作,解决高并发、高可靠等工程难题,支持全球多地域GPU集群
适合具备深度学习模型推理优化经验、熟悉GPU编程和分布式系统的工程师

最低要求

本科及以上学历,计算机、软件工程、人工智能等相关专业优先,熟练掌握Linux环境下的C/C++与Python语言

熟练掌握至少一种机器学习框架(TensorFlow/PyTorch/MxNet或其他自研框架)
熟悉LLM/VLM/SD/Dit等主流深度学习模型,并有实际模型推理优化经验,比如蒸馏能力
熟练掌握常用的大模型推理引擎,如vLLM/SGLang/TRT-LLM等,了解原理
有以下至少一项的背景知识与经验:GPU编程,编译器,高性能网络,分布式存储,集群调度
具有独立解决问题的能力,良好的团队合作精神,有强烈的工作责任心,较好的学习能力、沟通能力和自驱力

工作职责

设计实现电商场景通用的大模型推理引擎,适用于在线实时推理和近离线批量推理等多个场景,并推广到电商各个场景中应用

针对电商LLM/MLLM/AIGC等多种模型,进行针对性的推理性能优化,解决系统高并发、高可靠性、高可扩展性等技术难关
面向全球多地域大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率
与算法部门深度合作,进行算法与系统的联合优化

优先资格

理解GPU硬件架构,理解GPU软件栈(CUDA、cuDNN),具备GPU性能分析的经验

有软硬件联合设计的经验
深入研究过至少一种机器学习框架(TensorFlow/PyTorch/MxNet或其他自研框架)的底层架构和机制

AI 洞察

优缺点分析

优点

  • 接触前沿的大模型推理技术(LLM/VLM/AIGC),技术成长快
  • 字节跳动平台大,业务场景丰富,有全球GPU集群资源
  • 与顶尖算法团队合作,系统与算法结合空间大,职业发展天花板高
  • 薪资福利在行业内有竞争力,股票期权等额外激励
  • 技术栈深且更新快,需要持续学习前沿模型和优化方法
  • 跨团队协作频繁,需要较强的沟通和项目推动能力

缺点 / 挑战

  • 系统高并发、高可靠性要求高,工作压力较大,可能需要应对线上紧急问题
  • 适合对大规模分布式系统和大模型推理优化有浓厚兴趣,具备扎实工程能力且喜欢挑战的工程师

角色解读

  • 向大模型推理架构师方向发展,成为系统优化专家
  • 可横向扩展至AI平台或分布式计算领域,负责更大规模集群的调度与优化
  • 积累电商场景AI应用经验,可转型为AI产品技术负责人或团队管理者
  • 设计并实现电商场景的大模型推理引擎,支持实时和批量推理
  • 针对LLM、VLM、AIGC等模型进行推理性能优化,解决高并发和可靠性问题
  • 管理全球多地域GPU集群,通过弹性调度和任务编排提升算力利用率
  • 与算法团队合作,推动算法与系统的联合优化,提升整体效果
  • 扎实的C/C++和Python编程能力,熟悉Linux开发环境
  • 熟练掌握至少一种深度学习框架(PyTorch/TensorFlow等)
  • 熟悉主流大模型(LLM/VLM/SD)及其推理优化技术,如蒸馏、量化
  • 掌握常用推理引擎(vLLM/SGLang/TRT-LLM)的原理与使用,具备GPU编程或高性能网络经验

申请策略

  • 在简历和面试中强调技术深度和系统性思维,字节跳动面试常考底层原理和手撕代码
  • 关注字节跳动技术博客或开源项目(如ByteDance的推理相关项目),展现你对公司技术的了解
  • 突出在大模型推理优化方面的实际项目经验,包括使用的模型、优化方法(如蒸馏、量化)和取得的性能提升
  • 详细描述对推理引擎(vLLM/SGLang/TRT-LLM)的掌握程度和底层原理理解
  • 强调GPU编程(CUDA)或高性能网络、分布式调度的经验,并附上具体成果
  • 展示独立解决复杂问题的能力,如系统高并发架构设计或故障排查案例
  • 补强GPU编程和性能分析技能,学习CUDA优化技巧和NVIDIA工具(Nsight等)
  • 深入研究一种主流推理引擎的源码或架构,理解其核心设计

面试指南

  • 分析问题:先明确优化目标(延迟/吞吐/显存),再选择合适的优化手段(如算子融合、量化、并行策略)
  • 结合经验:用STAR法则讲述具体项目背景、挑战、行动和结果
  • 对比方案:在多个技术方案中说明利弊,展示技术判断力
  • 如何优化Transformer模型的推理速度?请列举至少三种方法
  • vLLM和SGLang的核心区别是什么?你如何选择使用哪个?
  • 描述一次你解决GPU显存不足或推理延迟问题的经历
  • 如何设计一个支持高并发的推理服务?会考虑哪些架构选型?
  • 你如何理解电商场景中LLM的推理延迟要求?与通用场景有何不同?

匹配度报告

69
综合匹配度

顶级大厂、前沿技术、高薪高压,发展性极强但WLB一般。

适合人群
该职位最适合追求技术前沿和快速成长、愿意为高薪和职业发展投入时间和精力的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值60

薪资福利匹配

85较高

字节跳动薪资在行业处于领先水平,且有股票激励,但JD未明确提及具体福利,综合给予较高评分。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

职位技术前沿(LLM/VLM/AIGC),涉及大规模GPU集群和顶级推理引擎,成长空间极大。JD中明确提到与算法部门深度合作,有利于技能提升。

技术前沿前沿/新兴技术
技术栈LLM、VLM、AIGC、GPU、vLLM、SGLang、TRT-LLM、CUDA、分布式
成长机会与算法部门深度合作
业务类型profit_center

工作生活匹配

40较低

JD未提及远程或弹性工作,字节跳动通常现场办公,且大模型推理优化可能涉及加班,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

电商AI场景具有明确商业价值,但JD未强调社会使命感,属中性。行业属高速增长赛道。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs