Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】视频大模型高性能与分布式计算工程师
立即应聘

【快Star】视频大模型高性能与分布式计算工程师

发布于 大约 2 小时前

普通员工/个人贡献者

上海市 / 北京市
高级经验
全职员工
仅现场办公
硕士
分布式计算
高性能计算
RDMA
NCCL
MPI
NVLINK
Megatron-LM
DeepSpeed
MLSys

AI 估算 · 35k–65k

头部互联网公司AI大模型核心岗位,对分布式系统能力要求极高,薪资具备强竞争力,对标顶尖人才。

职位详情

关于这个职位

该职位专注于视频大模型的高性能计算与分布式系统优化,主要工作是优化万卡集群上的训练效率和通信架构,解决多模态数据负载不均衡问题

加入后可参与前沿AI视频生成技术底层框架的研发,对系统性能和算法落地有直接影响力

最低要求

计算机、分布式系统、高性能计算及相关专业硕士或博士学位,具备深厚的并行计算理论与系统实战底蕴

具有卓越的分布式系统实现能力,精通 C/C++、Python,深入理解 MPI/NCCL 内部机制、RDMA、NVLink 高速互联网络协议
深入理解主流大模型训练框架(如 Megatron-LM、TorchTitan、DeepSpeed)的并行切分机制,有实际将万卡/千卡集群训练 MFU 显著提升的框架层性能调优经验
具有优秀的系统分析能力,能够对复杂的通信-计算图进行深度分析,并在 MLSys/OSDI/SOSP/SC 等顶级计算机系统会议上发表过前沿成果

工作职责

分布式并行架构与 MFU 极限调优:针对可灵超大规模视频结构,深度优化分布式并行策略,攻克超大规模并行在万卡集群上的极致通信重构与拓扑编排

多模态不均衡优化:针对视频与图像带来的极端多模态不均衡数据负载以及下一代生成理解统一模型带来的模型不均衡问题,设计定制化均衡算法,设计并行策略
极致通信计算 overlap 架构设计:设计极致的 AllGather/AllToAll 通信掩盖方案与算子级 Overlap 调度,实现计算与通信的完美重叠

优先资格

在 OSDI、SOSP、ASPLOS、EuroSys、SC、MLSys 等计算机系统顶级会议上发表过一作论文

拥有在超大规模集群(千卡以上)上落地 MoE 或大规模并行框架,且对 MFU 指标做出过直接贡献的实战案例
曾在 ACM-ICPC / NOI / IOI 编程竞赛中获得过金牌及以上奖项者优先

AI 洞察

优缺点分析

优点

  • 背靠快手海量数据和计算资源,有机会在万卡集群上实践顶尖系统优化
  • 团队技术氛围浓厚,可接触最先进的分布式并行技术栈
  • 技术门槛极高,要求具备深厚的系统底子和论文级成果
  • 领域更新快,需要持续学习最新分布式训练技术
  • 适合对分布式系统和性能优化有浓厚兴趣,具备扎实系统功底和顶会论文背景的资深工程师或博士

缺点 / 挑战

  • 参与前沿视频大模型研发,技术挑战大,个人成长空间极高
  • 工作强度较高,需要应对大规模集群调试和性能问题,压力较大

角色解读

  • 成为分布式系统与高性能计算领域的顶尖专家,主导公司 AI 基础设施架构
  • 向技术管理方向发展,带队攻克下一代大模型训练系统难题
  • 在 AI 系统领域持续深耕,有机会成为学术界与工业界公认的权威
  • 负责视频大模型在万卡集群上的分布式并行策略设计与调优,提升训练效率(MFU)
  • 解决多模态数据(视频+图像)和模型不均衡问题,设计定制化负载均衡算法
  • 优化通信与计算重叠架构,设计 AllGather/AllToAll 掩盖方案及算子调度
  • 精通 C/C++ 和 Python,深入理解 MPI/NCCL、RDMA、NVLink 等高速互联协议
  • 熟悉主流大模型训练框架(Megatron-LM、DeepSpeed)的并行切分机制
  • 具备系统性能分析能力,有在 MLSys/OSDI/SOSP 等顶会发表论文的经验

申请策略

  • 关注快手「快Star」项目文化,体现对视频大模型业务的热情
  • 在面试中准备一个自己主导的分布式系统优化案例,展示系统性思维
  • 突出分布式系统实战经验,特别是千卡/万卡集群训练 MFU 提升案例
  • 强调顶会论文(MLSys/OSDI/SOSP 等)以及一作论文的贡献
  • 展示竞赛(ACM-ICPC/NOI/IOI)金牌等硬核荣誉
  • 深入掌握 NCCL/MPI 底层通信机制,尝试编写简单的通信 benchmark
  • 熟悉 Megatron-LM 和 DeepSpeed 源码,理解张量并行/流水线并行等策略

面试指南

  • 使用 STAR 法则:情境-任务-行动-结果,重点突出系统分析和量化结果
  • 从理论到实践:先解释原理,再结合自己项目中的具体参数和代价
  • 展示技术深度:谈及方案时说明 trade-off 和替代方案
  • 请解释在大规模分布式训练中,通信瓶颈通常出现在哪里?如何优化?
  • 描述一次你成功提升 MFU 的经历,具体用了哪些并行策略和优化手段?
  • NCCL 中 AllReduce 和 AllGather 的实现差异是什么?如何选择?
  • 如何处理多模态数据不均衡导致的训练效率问题?
  • 谈谈你对 Megatron-LM 中张量并行与流水线并行混合使用的理解

匹配度报告

69
综合匹配度

快手视频大模型核心系统岗,技术顶尖、成长爆炸,但 WLB 偏弱。

适合人群
最适合极度追求技术成长和学术前沿的求职者,不太适合看重工作生活平衡的人群。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值70

薪资福利匹配

70中等

该职位薪资可能较高(大厂核心岗位),但 JD 未明确薪资和福利,补偿性动机满足度中等偏上。

薪资信号未披露(AI估算:35K-65K/月)

成长发展匹配

95较高

职位涉及前沿技术(视频大模型、万卡分布式优化),技术挑战大,且要求顶会论文,成长空间极高。

技术前沿前沿/新兴技术
技术栈分布式系统、高性能计算、MPI、NCCL、RDMA、NVLink、Megatron-LM、DeepSpeed、MLSys
业务类型profit_center

工作生活匹配

40较低

工作地点为北上核心城市,但 JD 未提弹性工作或远程,且高强度技术岗位通常加班较多,WLB 一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

视频大模型属于 AI 前沿领域,有技术推动意义,但社交影响不明显,意义感中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k