
字节跳动
电商场景LLM/VLM/AIGC推理工程师-TikTok Shop
电商场景LLM/VLM/AIGC推理工程师-TikTok Shop
发布于 大约 1 小时前普通员工/个人贡献者
北京市
中级经验
全职员工
仅现场办公
本科
分布式系统
PyTorch
LLM
CUDA
GPU编程
AIGC
VLM
SGLang
vLLM
TRT-LLM
AI 估算 · 30k–60k
大模型推理稀缺岗位,字节薪资竞争力强,北京一线城市,综合考虑中级经验与行业趋势
职位详情
关于这个职位
该职位负责设计实现电商场景下的大模型推理引擎,处理LLM/VLM/AIGC等多种模型的在线与离线推理,优化性能和资源利用率
需与算法团队深度合作,解决高并发、高可靠等工程难题,支持全球多地域GPU集群
适合具备深度学习模型推理优化经验、熟悉GPU编程和分布式系统的工程师
最低要求
本科及以上学历,计算机、软件工程、人工智能等相关专业优先,熟练掌握Linux环境下的C/C++与Python语言
熟练掌握至少一种机器学习框架(TensorFlow/PyTorch/MxNet或其他自研框架)
熟悉LLM/VLM/SD/Dit等主流深度学习模型,并有实际模型推理优化经验,比如蒸馏能力
熟练掌握常用的大模型推理引擎,如vLLM/SGLang/TRT-LLM等,了解原理
有以下至少一项的背景知识与经验:GPU编程,编译器,高性能网络,分布式存储,集群调度
具有独立解决问题的能力,良好的团队合作精神,有强烈的工作责任心,较好的学习能力、沟通能力和自驱力
工作职责
设计实现电商场景通用的大模型推理引擎,适用于在线实时推理和近离线批量推理等多个场景,并推广到电商各个场景中应用
针对电商LLM/MLLM/AIGC等多种模型,进行针对性的推理性能优化,解决系统高并发、高可靠性、高可扩展性等技术难关
面向全球多地域大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率
与算法部门深度合作,进行算法与系统的联合优化
优先资格
理解GPU硬件架构,理解GPU软件栈(CUDA、cuDNN),具备GPU性能分析的经验
有软硬件联合设计的经验
深入研究过至少一种机器学习框架(TensorFlow/PyTorch/MxNet或其他自研框架)的底层架构和机制
AI 洞察
优缺点分析
优点
- 接触前沿的大模型推理技术(LLM/VLM/AIGC),技术成长快
- 字节跳动平台大,业务场景丰富,有全球GPU集群资源
- 与顶尖算法团队合作,系统与算法结合空间大,职业发展天花板高
- 薪资福利在行业内有竞争力,股票期权等额外激励
- 技术栈深且更新快,需要持续学习前沿模型和优化方法
- 跨团队协作频繁,需要较强的沟通和项目推动能力
缺点 / 挑战
- 系统高并发、高可靠性要求高,工作压力较大,可能需要应对线上紧急问题
- 适合对大规模分布式系统和大模型推理优化有浓厚兴趣,具备扎实工程能力且喜欢挑战的工程师
角色解读
- 向大模型推理架构师方向发展,成为系统优化专家
- 可横向扩展至AI平台或分布式计算领域,负责更大规模集群的调度与优化
- 积累电商场景AI应用经验,可转型为AI产品技术负责人或团队管理者
- 设计并实现电商场景的大模型推理引擎,支持实时和批量推理
- 针对LLM、VLM、AIGC等模型进行推理性能优化,解决高并发和可靠性问题
- 管理全球多地域GPU集群,通过弹性调度和任务编排提升算力利用率
- 与算法团队合作,推动算法与系统的联合优化,提升整体效果
- 扎实的C/C++和Python编程能力,熟悉Linux开发环境
- 熟练掌握至少一种深度学习框架(PyTorch/TensorFlow等)
- 熟悉主流大模型(LLM/VLM/SD)及其推理优化技术,如蒸馏、量化
- 掌握常用推理引擎(vLLM/SGLang/TRT-LLM)的原理与使用,具备GPU编程或高性能网络经验
申请策略
- 在简历和面试中强调技术深度和系统性思维,字节跳动面试常考底层原理和手撕代码
- 关注字节跳动技术博客或开源项目(如ByteDance的推理相关项目),展现你对公司技术的了解
- 突出在大模型推理优化方面的实际项目经验,包括使用的模型、优化方法(如蒸馏、量化)和取得的性能提升
- 详细描述对推理引擎(vLLM/SGLang/TRT-LLM)的掌握程度和底层原理理解
- 强调GPU编程(CUDA)或高性能网络、分布式调度的经验,并附上具体成果
- 展示独立解决复杂问题的能力,如系统高并发架构设计或故障排查案例
- 补强GPU编程和性能分析技能,学习CUDA优化技巧和NVIDIA工具(Nsight等)
- 深入研究一种主流推理引擎的源码或架构,理解其核心设计
面试指南
- 分析问题:先明确优化目标(延迟/吞吐/显存),再选择合适的优化手段(如算子融合、量化、并行策略)
- 结合经验:用STAR法则讲述具体项目背景、挑战、行动和结果
- 对比方案:在多个技术方案中说明利弊,展示技术判断力
- 如何优化Transformer模型的推理速度?请列举至少三种方法
- vLLM和SGLang的核心区别是什么?你如何选择使用哪个?
- 描述一次你解决GPU显存不足或推理延迟问题的经历
- 如何设计一个支持高并发的推理服务?会考虑哪些架构选型?
- 你如何理解电商场景中LLM的推理延迟要求?与通用场景有何不同?
匹配度报告
69
综合匹配度
顶级大厂、前沿技术、高薪高压,发展性极强但WLB一般。
适合人群
该职位最适合追求技术前沿和快速成长、愿意为高薪和职业发展投入时间和精力的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值60
薪资福利匹配
85较高
字节跳动薪资在行业处于领先水平,且有股票激励,但JD未明确提及具体福利,综合给予较高评分。
薪资信号未披露(AI估算:30K-60K/月)
成长发展匹配
90较高
职位技术前沿(LLM/VLM/AIGC),涉及大规模GPU集群和顶级推理引擎,成长空间极大。JD中明确提到与算法部门深度合作,有利于技能提升。
技术前沿前沿/新兴技术
技术栈LLM、VLM、AIGC、GPU、vLLM、SGLang、TRT-LLM、CUDA、分布式
成长机会与算法部门深度合作
业务类型profit_center
工作生活匹配
40较低
JD未提及远程或弹性工作,字节跳动通常现场办公,且大模型推理优化可能涉及加班,WLB一般。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
60中等
电商AI场景具有明确商业价值,但JD未强调社会使命感,属中性。行业属高速增长赛道。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs