Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型推理优化工程师-豆包手机助手
立即应聘

大模型推理优化工程师-豆包手机助手

发布于 大约 17 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
PyTorch
TensorFlow
LLM
GPU编程
量化
并行化
推理优化
VLM
vLLM
ONNX Runtime

AI 估算 · 30k–60k

大模型推理优化为前沿热门方向,技能稀缺,字节跳动薪酬竞争力强,结合上海生活成本及岗位要求,月薪范围合理。

职位详情

关于这个职位

该职位主要负责大模型(LLM/VLM)的推理优化与部署,通过量化、并行化等技术提升系统性能并降低成本,同时与算法、业务团队协作推动模型落地,并探索前沿加速技术

适合对GPU编程、模型优化有深入理解的技术专家

最低要求

熟悉Transformers、Stable Diffusion等主流模型原理

熟悉至少一种推理引擎框架(vLLM/Slang/ONNX Runtime或其他自研框架)
熟悉至少一种机器学习框架(TensorFlow/PyTorch/MxNet或其他自研框架)
了解GPU/NPU硬件特性,具备一定的性能调优经验
有以下至少一项的背景知识与经验:GPU编程、模型量化、Kernel开发及优化
良好的团队协作能力,有良好的动手实现能力,对技术有热情

工作职责

负责LLM/VLM大模型的部署和推理优化开发,包括量化、并行化等各种典型的优化工作,确保系统的高性能、高可用和低成本

与业务、产品、算法等团队合作,共同致力提升模型在业务场景的效果
探索一些前沿的推理加速技术,包括在新型GPU/NPU上的部署落地

AI 洞察

优缺点分析

优点

  • 处于AI大模型最前沿领域,技术含量高,能深入理解最新推理优化技术
  • 字节跳动作为头部互联网公司,业务场景丰富,技术落地机会多,个人成长快
  • 团队技术氛围浓厚,有机会与业界顶尖人才合作,积累宝贵经验
  • 大模型推理优化对硬件性能和成本敏感,调试和优化工作可能耗时耗力
  • 跨团队协作频繁,对沟通和项目推进能力要求高
  • 适合对GPU编程和模型优化有强烈兴趣,具备扎实的工程能力,追求技术深度,能接受高强度学习节奏的工程师

缺点 / 挑战

  • 技术更新迭代极快,需要持续学习,压力较大

角色解读

  • 可向大模型系统架构师方向发展,主导推理系统的整体设计与优化
  • 也可深耕底层硬件加速,成为GPU/NPU计算专家,影响芯片设计方向
  • 未来可转向AI平台负责人或技术总监,管理团队并制定技术战略
  • 负责LLM/VLM大模型的推理优化,包括模型量化、并行化等技术,提升推理速度和降低资源消耗
  • 与算法和业务团队合作,将优化后的模型部署到实际业务场景中,确保效果和稳定性
  • 探索新型GPU/NPU上的前沿加速技术,推动推理技术迭代
  • 深入理解Transformer、Stable Diffusion等主流模型架构和原理
  • 熟练使用至少一种推理引擎(如vLLM、ONNX Runtime)和机器学习框架(如PyTorch、TensorFlow)
  • 具备GPU/NPU编程经验,熟悉CUDA或类似平台,掌握性能调优和量化技术

申请策略

  • 在简历中体现对技术社区的开源贡献或技术博客,展示热情
  • 面试前了解字节跳动豆包助手的产品形态,思考推理优化对用户体验的影响
  • 突出在大模型推理优化或类似领域的实际项目经验,如模型量化、推理加速的具体成果
  • 详细描述使用过的推理引擎(vLLM等)和框架(PyTorch等)的优化案例,附上性能数据
  • 强调GPU编程(CUDA)和底层优化能力,包括Kernel开发、性能调优等
  • 提前熟悉vLLM或ONNX Runtime的源码和优化原理,准备一个端到端的模型部署示例
  • 复习GPU硬件架构(如NVIDIA Ampere、Hopper)和内存优化技巧
  • 了解LLM/VLM的最新量化方法(如GPTQ、AWQ)和并行策略(如TP、PP)

面试指南

  • 回答优化项目时,用STAR方法:情境、任务、行动、结果,突出量化值(如延迟降低百分比)
  • 对于设计类问题,从原理出发,对比不同方案的优缺点,并结合业务场景给出推荐
  • 性能分析问题,先说明方法论(profiling工具、指标),再举例说明调优过程
  • 请介绍一个你做过的大模型推理优化项目,包括遇到的问题和解决方案
  • 如何选择模型量化策略?量化的精度损失如何评估和补偿?
  • 解释vLLM的工作原理,如何实现高效的内存管理和调度?
  • 在多GPU环境下,你如何设计并行策略(TP/PP/DP)?
  • 如何分析推理性能瓶颈?请结合具体硬件特性说明

匹配度报告

69
综合匹配度

头部大厂、前沿大模型技术栈、薪酬优厚,但工作强度大,WLB较差。

适合人群
适合以技术成长和前沿探索为核心动机的求职者,对工作强度有心理准备,追求高薪酬和高回报。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展92
工作生活40
使命价值65

薪资福利匹配

80较高

字节跳动薪酬在互联网头部公司中具有竞争力,且岗位技术稀缺度高,薪资通常较高,但未在JD中明确具体福利,因此补偿性动机满足程度良好。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

92较高

岗位涉及大模型前沿技术,技术挑战大,成长空间广阔,且公司平台大,项目经验含金量高,发展性动机满足程度很高。

技术前沿前沿/新兴技术
技术栈LLM、VLM、量化、并行化、GPU编程、vLLM、ONNX Runtime、PyTorch、TensorFlow、CUDA
业务类型profit_center

工作生活匹配

40较低

字节跳动通常要求现场办公,工作强度较大,JD中未提及弹性工作或WLB,生活化动机满足程度较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

65中等

大模型推理优化属于AI技术前沿,对社会智能化有推动价值,但岗位本身偏工程实现,使命感一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 高级蓝牙软件开发工程师-豆包手机助手(北京/深圳)

    字节跳动 · 北京市
    AI 估算 · 30k-55k
  • 发卡产品经理-国际支付

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 广告投放经理-中国用户增长

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • AI应用后端研发工程师-国际化短视频-深圳/上海

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 抖音时政垂类运营经理

    字节跳动 · 北京市
    AI 估算 · 30k-50k

相似职位推荐

  • 服务端测试开发工程师-【品牌营销】

    快手 · 北京市
    AI 估算 · 20k-40k
  • 引擎组长(Warpath) 关键

    莉莉丝 · 上海市
    AI 估算 · 30k-50k
  • Kubernetes 调度器开发工程师

    月之暗面 · 北京市
    AI 估算 · 30k-50k
  • TL

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • Automation Engineer

    飞利浦 · 沈阳市
    AI 估算 · 10k-15k

字节跳动 的其他在招职位

  • 高级蓝牙软件开发工程师-豆包手机助手(北京/深圳)

    字节跳动 · 北京市
    AI 估算 · 30k-55k
  • 发卡产品经理-国际支付

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 广告投放经理-中国用户增长

    字节跳动 · 北京市
    AI 估算 · 20k-35k
  • AI应用后端研发工程师-国际化短视频-深圳/上海

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 抖音时政垂类运营经理

    字节跳动 · 北京市
    AI 估算 · 30k-50k

相似职位推荐

  • 服务端测试开发工程师-【品牌营销】

    快手 · 北京市
    AI 估算 · 20k-40k
  • 引擎组长(Warpath) 关键

    莉莉丝 · 上海市
    AI 估算 · 30k-50k
  • Kubernetes 调度器开发工程师

    月之暗面 · 北京市
    AI 估算 · 30k-50k
  • TL

    中国平安 · 深圳市
    AI 估算 · 30k-50k
  • Automation Engineer

    飞利浦 · 沈阳市
    AI 估算 · 10k-15k