Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】AI Infra工程师
立即应聘

【快Star】AI Infra工程师

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
初级经验
全职员工
仅现场办公
本科
GPU
PyTorch
TensorFlow
MLOps
LLM
RDMA
vLLM

AI 估算 · 20k–30k

快手作为一线大厂,AI Infra岗位技术含量高,校招薪资有竞争力,参考同级别公司估算。

职位详情

关于这个职位

作为快手AI Infra核心团队的一员,你将参与万卡级GPU调度、大模型数据引擎和MLOps平台的建设,负责LLM推理系统优化、训练效率提升和成本控制

这是一个接触业界前沿技术(如vLLM、Kubernetes)并解决真实大规模问题的机会

最低要求

本科及以上学历,计算机相关专业

掌握常用数据结构与算法,具备扎实的编程基础和良好的编码习惯
熟悉至少一种编程语言(如 Golang、Java、Python 等)
有 Docker、Kubernetes、vLLM、SGLang、RouteLLM 等技术的学习或实践经验者优先,参与过开源项目更佳
积极主动,自驱力强,具备良好的团队合作精神和解决问题的能力
对如下一个或多个领域有浓厚的兴趣,并愿意付出自己的时间进行深入研究和探索:
a. 机器学习框架:PyTorch、TensorFlow等机器学习框架、GPU等异构计算芯片及优化、MLOps、CV/NLP/搜广推等领域模型算法等
b. 云原生:Kubernetes及容器系统、大规模训练任务和推理服务编排和调度、镜像加速等

工作职责

负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率

负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本
基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作
持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向

优先资格

有 Docker、Kubernetes、vLLM、SGLang、RouteLLM 等技术的学习或实践经验者优先,参与过开源项目更佳

AI 洞察

优缺点分析

优点

  • 技术前沿:参与业界领先的万卡级GPU调度和大模型基础设施项目,技术含量高
  • 平台优势:快手作为互联网大厂,拥有丰富的计算资源和真实业务场景
  • 成长快速:团队对标头部公司实践,能快速积累AI Infra全栈经验
  • 技术深度:需要持续学习新技术,对自驱力要求高
  • 适合对AI基础设施有强烈兴趣,具备扎实编程基础和分布式系统常识,愿意投入时间深入GPU和容器技术的应届生

缺点 / 挑战

  • 薪资竞争力:校招薪资在大厂中处于较高水平,福利完善
  • 工作强度:核心基础设施团队可能面临较大压力和紧急问题处理
  • 竞争激烈:大厂校招名额有限,面试难度较高

角色解读

  • 技术纵深:深入GPU调度、RDMA、LLM推理等底层技术,成为AI基础设施专家
  • 横向拓展:积累大规模分布式系统设计经验,未来可转向云原生架构或AI平台架构
  • 管理路线:在团队中担任技术负责人,带领子方向小组,逐步走向技术管理
  • 优化GPU集群的推理与训练效率,提升模型计算稳定性和资源利用率
  • 建设大规模模型训练的异常发现与故障自愈机制,降低训练成本
  • 基于Kubernetes和容器技术,优化资源调度、模型推理和数据管理的成本效率
  • 跟踪业界前沿技术,如超长上下文、多模态等,并探索在快手业务中的应用
  • 扎实的编程基础,熟悉Golang、Java或Python中的至少一种
  • 掌握常用数据结构和算法,具备良好的工程编码习惯
  • 熟悉容器和Kubernetes技术,有分布式系统或机器学习平台经验者优先
  • 对GPU计算、MLOps或云原生领域有浓厚兴趣

申请策略

  • 关注快手校招官网的『快Star』项目,准备针对性的面试
  • 投递前了解可灵AI和搜推广业务,在面试中展示对业务场景的理解
  • 突出相关实习或项目经历,如大规模分布式系统、GPU性能优化、Kubernetes部署等
  • 展示开源贡献或技术博客,体现对AI Infra领域的热情
  • 强调编程能力,列出熟练掌握的语言和框架
  • 量化成果,如优化后训练性能提升百分比、资源节省等
  • 如果缺少GPU或分布式经验,可自学CUDA编程、Kubernetes实战、vLLM等工具的用法
  • 参与或贡献开源项目(如Kubernetes、PyTorch、MLflow),提升实践经验

面试指南

  • 对于架构设计类问题,使用『场景-约束-方案』框架,先明确需求,再提解决方案和取舍
  • 对于性能优化类问题,按『问题定位-优化措施-效果评估』结构回答,突出迭代和量化
  • 对于技术原理类问题,先讲核心概念,再举例说明实际应用
  • 如何设计一个大规模GPU集群的任务调度系统?
  • 描述一次你优化分布式训练性能的经历,用了哪些方法?
  • Kubernetes中如何实现资源隔离和限制?如何处理任务抢占?
  • 解释vLLM的工作原理,与普通推理框架有何不同?
  • 如何监控和排查GPU训练中的异常(如OOM、通信瓶颈)?

匹配度报告

70
综合匹配度

顶级AI Infra团队,前沿技术栈,高成长性,但WLB一般。

适合人群
追求技术深度和职业发展的应届生,对AI基础设施有热情,能接受高强度工作。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值70

薪资福利匹配

80较高

快手作为上市大厂,薪资福利有竞争力,但校招具体薪酬因岗位而异,JD未明确说明,整体满足度较高。

薪资信号未披露(AI估算:20K-30K/月)

成长发展匹配

90较高

团队技术前沿,涉及AI Infra全栈,有大量学习和实践机会,成长空间大。

技术前沿前沿/新兴技术
技术栈GPU、Kubernetes、vLLM、PyTorch、RDMA、MLOps、LLM、Ray
业务类型profit_center

工作生活匹配

40较低

仅现场办公,未提及弹性工作或远程,大厂核心团队可能面临高强度工作,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

AI基础设施支持视频生成、推荐等创新业务,技术有社会影响力,但偏底层,直接社会贡献不明显。

行业发展高速增长赛道
社会影响中性/一般
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k