Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】视频大模型高性能与低精度算子工程师
立即应聘

【快Star】视频大模型高性能与低精度算子工程师

发布于 大约 2 小时前

普通员工/个人贡献者

上海市 / 北京市
高级经验
全职员工
仅现场办公
硕士
高性能计算
GPU优化
CUDA
PTX
diffusion模型
算子融合
MoE
稀疏化
Cute
低精度计算

AI 估算 · 35k–60k

快手上市大厂,高性能计算岗位稀缺,需博士或硕士+丰富经验,薪资对标P7-P8,月薪含年终约15薪。

职位详情

关于这个职位

这是一个面向视频大模型的高性能计算与低精度算子优化岗位,工作内容包括设计通算融合算子、优化混合专家网络(MoE)架构、开发低精度/稀疏化算子,并确保扩散模型训练推理一致性

你将深入GPU硬件微架构,使用CuTe和PTX进行极致调优,适合对底层计算和系统优化有浓厚兴趣的技术专家

最低要求

计算机、应用数学、微电子、人工智能等相关专业硕士或博士学位,具备极强的数理逻辑基础与计算机体系结构底蕴

深入理解 GPU 硬件架构和内存系统,熟练掌握底层并行计算框架,擅长使用 CuTe DSL设计高性能计算流水线,对 PTX 汇编/指令级调优及寄存器分配有实战能力
深入掌握 DeepEP、DeepGEMM 或 MegaMoE 等前沿加速库的架构设计,具备实际拆解其并根据生产环境做深度二次开发和优化的经历
熟练掌握低精度/稀疏化算法和算子实现,精通算子融合与计算敏感度分析

工作职责

高性能通算融合算子设计与 PTX 底层优化:深度挖掘下一代计算硬件微架构的物理极限,针对大规模通信设计高性能通算融合算子,利用 CuTe DSL 描述复杂的多维 Layout 转换与共享内存流水线,在寄存器与指令级(PTX )对算子进行极致调优,将网络通信与矩阵乘法计算在硬件执行流层面进行极致overlap

混合专家网络 (MoE) 高性能架构重构:对业界Moe的高性能执行引擎(如 DeepEP、DeepGEMM、MegaMoE 等开源框架)进行深度重构,攻克Moe中的算子调度、计算强度、负载均衡和overlap问题,在大型集群规模下压榨 MoE 通信与计算的极限吞吐
低精度/稀疏化数值技术与算子加速:针对超大规模视频长序列 MoE 训练显存极限和计算瓶颈,设计极致低精度/稀疏化计算路径,在保证模型效果的前提下放大训练吞吐
Diffusion-Specific 训推一致性对齐:针对视频生成模型特有的多步去噪非对称精度控制,攻克分布式累加浮点非交换性、路由判定和计算块调度等算子随机性源头,在底层算子和并行层面消除不确定性,实现大规模混合专家网络在训推、强化学习阶段完全数学一致性的严格对齐

优先资格

著名开源底层库的核心贡献者、Committer 或核心维护者

在 MLSys、ASPLOS、ISCA、NeurIPS、 ICLR、PPoPP 等系统与机器学习顶级学术会议上发表过高性能算子、量化算法、高性能通信或 MoE 调度相关一作论文
在各类顶级高性能计算、GPU 硬件算子加速等相关竞赛(如 ASC/PAC/IPCC等)中拿过顶尖名次者优先

AI 洞察

优缺点分析

优点

  • 团队技术氛围浓厚,有机会接触业界最新加速库和硬件
  • 薪酬丰厚,福利完善,股权激励
  • 工作强度大,需要持续跟进技术前沿和开源社区
  • 上手门槛高,需深入理解硬件和底层优化,适合技术极客
  • 适合对GPU底层优化有极致追求、享受挖潜硬件性能、具备系统编程和数学功底的资深工程师或博士

缺点 / 挑战

  • 快手大厂平台,视频大模型业务前沿,技术挑战大,成长快
  • 岗位方向狭窄,跳槽选择面相对较窄,但含金量高

角色解读

  • 成为GPU计算专家/架构师,领导核心算子库团队
  • 向系统研究方向发展,在MLSys/ASPLOS等顶会发表论文
  • 向AI芯片设计领域横向扩展,加入硬件公司或创业
  • 基于GPU硬件特性设计高性能通算融合算子,使用CuTe和PTX做指令级调优,最大化计算与通信重叠
  • 对混合专家网络(MoE)的加速库如DeepEP进行深度重构,解决调度、负载均衡和通信瓶颈
  • 开发低精度和稀疏化算子,优化视频大模型训练显存和吞吐
  • 确保扩散模型在训练和推理阶段数学一致性,消除分布式浮点运算的不确定性
  • 深厚计算机体系结构知识,精通GPU微架构(如NVIDIA Hopper/Ampere)
  • 熟练使用CuTe DSL和PTX汇编,能进行寄存器级调优
  • 熟悉MoE加速库源码(DeepEP、DeepGEMM等),具备二次开发能力
  • 掌握低精度量化算法和稀疏化技术,了解数值稳定性

申请策略

  • 在简历中展示对底层原理的深刻理解,而非仅罗列工具
  • 可以附上个人GitHub仓库,展示相关代码或开源贡献
  • 突出GPU相关项目经验,特别是使用CuTe、PTX进行优化的案例
  • 详细描述在MoE加速库(如DeepEP)上的二次开发或贡献经历
  • 强调任何低精度量化、稀疏化相关成果,附上性能对比数据
  • 列出顶会论文、开源贡献或竞赛获奖,证明技术深度
  • 若缺乏CuTe经验,可快速学习NVIDIA的CuTe教程并复现简单算子
  • 熟悉主流MoE加速库(DeepEP、MegaMoE)的源码结构

面试指南

  • 从硬件微架构-并行模型-实现细节三层递进回答
  • 结合具体项目实例,用数据说明优化效果
  • 展现对开源库源码的分析和理解,而非泛泛而谈
  • 请详细讲解GPU共享内存bank conflict的避免方法
  • 如何设计一个基于CuTe的高效通算融合算子?
  • DeepEP中是如何处理MoE的all-to-all通信和负载均衡的?
  • 在混合精度训练中,如何保证低精度数值稳定性?
  • 视频生成模型的Diffusion过程在算子层面有哪些优化机会?

匹配度报告

72
综合匹配度

顶尖大厂核心研发岗,前沿技术栈,高薪高压,成长迅猛。

适合人群
最适合追求技术成长、热衷底层优化、能接受高强度的技术专家。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活40
使命价值70

薪资福利匹配

85较高

快手上市大厂,薪资待遇行业内顶尖,福利完善,但岗位门槛高,竞争激烈。薪资信号偏向偏高。

薪资信号偏高 (35K-60K/月)

成长发展匹配

95较高

岗位技术前沿(GPU优化、MoE、低精度),成长空间极大,有机会接触业界最新硬件和框架,并有发表论文和参与开源的机会。

技术前沿前沿/新兴技术
技术栈GPU、CuTe、PTX、MoE、DeepEP、低精度、稀疏化、Diffusion
业务类型profit_center

工作生活匹配

40较低

现场办公,且岗位强度大,需要投入大量时间钻研技术,工作生活平衡可能较差。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

从事视频大模型底层优化,推动AI技术进步,有一定社会价值,但主要面向商业应用,使命感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k