Kwai logo
快手
【快Star】大模型高性能推理算子工程师

【快Star】大模型高性能推理算子工程师

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
学历未注明
量化
vLLM
大模型推理
TensorRT-LLM
分布式通信
Nsys
Gpu算子优化
Sparse Attention

AI 估算 · 25k–45k

快手已上市,大模型推理方向火热,技术门槛高,薪资具备竞争力,预计月薪25K-45K,15薪。

职位详情

关于这个职位

该职位负责研发业界领先的大模型推理优化方案,包括视频生成与多模态模型的推理加速

你将与顶尖算法工程师合作,调研最新论文并实现高性能算子,涉及量化、通信融合、稀疏注意力等方向
适合对GPU编程和推理优化有深入兴趣的工程师

最低要求

计算机、人工智能相关专业,熟悉Linux开发环境,熟练掌握 Python编程语言,熟悉常见算法与数据结构

熟练使用NSYS、NCU等性能分析工具,有使用vLLM、SGLang、TensorRT-LLM、xDiT等开源框架经验
熟悉分布式推理场景下的各类通信机制,能够针对特定场景设计最优通信方案,了解 DeepEP、Triton-distributed 等开源通信方案原理
具有良好的团队合作精神和沟通能力,积极乐观、具备抗压能力、自驱能力

工作职责

和领域内最顶尖的算法工程师合作,一起研发业内领先的大模型推理优化方案,优化目标包括但不限于视频生成大模型、多模态大模型

调研大模型推理优化方向最新论文,方向包括但不限于低bit量化、通算融合、高性能sparse attention算子等

优先资格

有Nvidia GPU ( Hopper、Blackwell )算子开发经验者优先

具备Cute、TileLang、Triton等DSL开发经验
具备低bit量化 kernel 开发经验
在 ICLR、NeurIPS、ICML 等顶会发表过相关论文

AI 洞察

优缺点分析

优点

  • 大模型推理是当前AI最热方向,技术壁垒高,积累的经验极具市场价值
  • 团队顶尖,能与优秀同事合作,快速成长,且有机会发表高水平论文
  • 技术难度高,需要深入理解GPU架构、分布式通信和多种优化手段,学习曲线陡峭
  • 工作强度可能较大,涉及性能调优和实验迭代,需要较强的抗压能力
  • 技术迭代快,需持续跟踪最新论文和开源项目,保持学习状态

缺点 / 挑战

  • 快手作为头部互联网公司,资源丰富,业务场景真实,技术挑战大
  • 适合对GPU编程和大模型推理有强烈兴趣、乐于钻研底层技术、能接受高挑战的工程师

角色解读

  • 技术深耕:成为大模型推理优化领域的专家,掌握GPU底层编程与前沿加速技术
  • 横向扩展:向多模态、视频生成等更广的AI应用方向拓展,或转向AI系统架构设计
  • 管理路径:未来可带领团队负责推理引擎研发,晋升为技术Leader或架构师
  • 与顶尖算法工程师协作,设计并实现大模型推理的优化方案,涵盖视频生成与多模态模型
  • 调研最新论文,落地低bit量化、计算通信融合、稀疏注意力等高性能算子
  • 使用vLLM、TensorRT-LLM等框架优化推理性能,并针对分布式场景设计高效通信方案
  • 精通Python及Linux开发,熟悉常见算法与数据结构
  • 熟练使用NSYS、NCU等GPU性能分析工具,有vLLM、TensorRT-LLM等框架实战经验
  • 深入理解分布式推理通信机制(如DeepEP、Triton-distributed),能设计最优方案
  • 加分项:Hopper/Blackwell算子开发、Cute/Triton DSL、低bit量化Kernel、顶会论文

申请策略

  • 关注快手技术博客和开源项目,了解其推理优化方向,面试中可展示相关思考
  • 突出GPU算子开发经历,尤其是Hopper/Blackwell架构或Cute/Triton使用案例
  • 详细描述使用vLLM、TensorRT-LLM等框架进行推理优化的项目,量化性能提升数据
  • 展示分布式通信优化经验(如DeepEP、NCCL)或相关论文/开源贡献
  • 若缺乏算子开发经验,可学习Triton或CUDA编写简单Kernel,并熟练使用NSYS分析性能
  • 阅读近期大模型推理优化论文(如FlashAttention、Sparse Attention变体),并尝试复现

面试指南

  • 对于原理类问题:先清晰阐述核心概念,再联系实际应用场景,举例说明
  • 对于优化类问题:从瓶颈分析(Profiling)入手,提出方案,并考虑权衡(如精度 vs 速度)
  • 对于经验类问题:采用STAR法则,说明背景、任务、行动和量化结果
  • 请解释FlashAttention的原理及其在推理中的优势
  • 如何优化一个Transformer模型在推理时的内存占用和延迟?
  • 谈谈你使用vLLM或TensorRT-LLM的经验,遇到性能瓶颈如何定位?
  • 在分布式推理场景中,通信延迟如何影响效果?请设计一个优化方案
  • 如何实现一个低bit量化Kernel?需要注意哪些数值问题?

匹配度报告

69
综合匹配度

快手大模型推理优化岗,技术前沿成长快,薪资竞争力强,但工作强度高。

适合人群
该职位最适合重视技术成长与前沿挑战的求职者,愿意在高压下获取顶尖技能。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值60

薪资福利匹配

75中等

薪资在行业中处于较高水平,快手上市股票期权具吸引力,但未明确福利细节。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

90较高

该职位直接参与最前沿的大模型推理优化,技术成长空间极大,且团队和资源一流。

技术前沿前沿/新兴技术
技术栈大模型推理、GPU算子、量化、分布式通信、vLLM、TensorRT-LLM
业务类型profit_center

工作生活匹配

50较低

北京现场办公,互联网大厂通常工作强度较大,未提及灵活工作安排。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

大模型推理技术推动AI发展,具有一定社会价值,但岗位偏工程实现,使命感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs