
快手
【快Star】大模型高性能推理算子工程师
【快Star】大模型高性能推理算子工程师
发布于 大约 2 小时前普通员工/个人贡献者
北京市
中级经验
全职员工
仅现场办公
学历未注明
量化
vLLM
大模型推理
TensorRT-LLM
分布式通信
Nsys
Gpu算子优化
Sparse Attention
AI 估算 · 25k–45k
快手已上市,大模型推理方向火热,技术门槛高,薪资具备竞争力,预计月薪25K-45K,15薪。
职位详情
关于这个职位
该职位负责研发业界领先的大模型推理优化方案,包括视频生成与多模态模型的推理加速
你将与顶尖算法工程师合作,调研最新论文并实现高性能算子,涉及量化、通信融合、稀疏注意力等方向
适合对GPU编程和推理优化有深入兴趣的工程师
最低要求
计算机、人工智能相关专业,熟悉Linux开发环境,熟练掌握 Python编程语言,熟悉常见算法与数据结构
熟练使用NSYS、NCU等性能分析工具,有使用vLLM、SGLang、TensorRT-LLM、xDiT等开源框架经验
熟悉分布式推理场景下的各类通信机制,能够针对特定场景设计最优通信方案,了解 DeepEP、Triton-distributed 等开源通信方案原理
具有良好的团队合作精神和沟通能力,积极乐观、具备抗压能力、自驱能力
工作职责
和领域内最顶尖的算法工程师合作,一起研发业内领先的大模型推理优化方案,优化目标包括但不限于视频生成大模型、多模态大模型
调研大模型推理优化方向最新论文,方向包括但不限于低bit量化、通算融合、高性能sparse attention算子等
优先资格
有Nvidia GPU ( Hopper、Blackwell )算子开发经验者优先
具备Cute、TileLang、Triton等DSL开发经验
具备低bit量化 kernel 开发经验
在 ICLR、NeurIPS、ICML 等顶会发表过相关论文
AI 洞察
优缺点分析
优点
- 大模型推理是当前AI最热方向,技术壁垒高,积累的经验极具市场价值
- 团队顶尖,能与优秀同事合作,快速成长,且有机会发表高水平论文
- 技术难度高,需要深入理解GPU架构、分布式通信和多种优化手段,学习曲线陡峭
- 工作强度可能较大,涉及性能调优和实验迭代,需要较强的抗压能力
- 技术迭代快,需持续跟踪最新论文和开源项目,保持学习状态
缺点 / 挑战
- 快手作为头部互联网公司,资源丰富,业务场景真实,技术挑战大
- 适合对GPU编程和大模型推理有强烈兴趣、乐于钻研底层技术、能接受高挑战的工程师
角色解读
- 技术深耕:成为大模型推理优化领域的专家,掌握GPU底层编程与前沿加速技术
- 横向扩展:向多模态、视频生成等更广的AI应用方向拓展,或转向AI系统架构设计
- 管理路径:未来可带领团队负责推理引擎研发,晋升为技术Leader或架构师
- 与顶尖算法工程师协作,设计并实现大模型推理的优化方案,涵盖视频生成与多模态模型
- 调研最新论文,落地低bit量化、计算通信融合、稀疏注意力等高性能算子
- 使用vLLM、TensorRT-LLM等框架优化推理性能,并针对分布式场景设计高效通信方案
- 精通Python及Linux开发,熟悉常见算法与数据结构
- 熟练使用NSYS、NCU等GPU性能分析工具,有vLLM、TensorRT-LLM等框架实战经验
- 深入理解分布式推理通信机制(如DeepEP、Triton-distributed),能设计最优方案
- 加分项:Hopper/Blackwell算子开发、Cute/Triton DSL、低bit量化Kernel、顶会论文
申请策略
- 关注快手技术博客和开源项目,了解其推理优化方向,面试中可展示相关思考
- 突出GPU算子开发经历,尤其是Hopper/Blackwell架构或Cute/Triton使用案例
- 详细描述使用vLLM、TensorRT-LLM等框架进行推理优化的项目,量化性能提升数据
- 展示分布式通信优化经验(如DeepEP、NCCL)或相关论文/开源贡献
- 若缺乏算子开发经验,可学习Triton或CUDA编写简单Kernel,并熟练使用NSYS分析性能
- 阅读近期大模型推理优化论文(如FlashAttention、Sparse Attention变体),并尝试复现
面试指南
- 对于原理类问题:先清晰阐述核心概念,再联系实际应用场景,举例说明
- 对于优化类问题:从瓶颈分析(Profiling)入手,提出方案,并考虑权衡(如精度 vs 速度)
- 对于经验类问题:采用STAR法则,说明背景、任务、行动和量化结果
- 请解释FlashAttention的原理及其在推理中的优势
- 如何优化一个Transformer模型在推理时的内存占用和延迟?
- 谈谈你使用vLLM或TensorRT-LLM的经验,遇到性能瓶颈如何定位?
- 在分布式推理场景中,通信延迟如何影响效果?请设计一个优化方案
- 如何实现一个低bit量化Kernel?需要注意哪些数值问题?
匹配度报告
69
综合匹配度
快手大模型推理优化岗,技术前沿成长快,薪资竞争力强,但工作强度高。
适合人群
该职位最适合重视技术成长与前沿挑战的求职者,愿意在高压下获取顶尖技能。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展90
工作生活50
使命价值60
薪资福利匹配
75中等
薪资在行业中处于较高水平,快手上市股票期权具吸引力,但未明确福利细节。
薪资信号未披露(AI估算:25K-45K/月)
成长发展匹配
90较高
该职位直接参与最前沿的大模型推理优化,技术成长空间极大,且团队和资源一流。
技术前沿前沿/新兴技术
技术栈大模型推理、GPU算子、量化、分布式通信、vLLM、TensorRT-LLM
业务类型profit_center
工作生活匹配
50较低
北京现场办公,互联网大厂通常工作强度较大,未提及灵活工作安排。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
60中等
大模型推理技术推动AI发展,具有一定社会价值,但岗位偏工程实现,使命感中等。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs