Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】GenAI异构计算架构与优化工程师
立即应聘

【快Star】GenAI异构计算架构与优化工程师

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
GPU
PyTorch
TensorFlow
高性能计算
CUDA
AI推理
MLIR
TVM

AI 估算 · 30k–50k

高级AI基础设施岗位,快手上市大厂,薪资竞争力强,中位数4万/月。

职位详情

关于这个职位

作为快手GenAI异构计算架构与优化工程师,你将负责评估和深度优化GPU/NPU/ASIC等异构芯片,主导AI推理引擎的毫秒级低延迟实现,并优化大规模模型训练框架

这是一个专注于前沿AI基础设施和硬件协同设计的核心技术岗位

最低要求

技术能力:精通Linux环境下C/C++和Python开发,扎实的计算机体系结构、操作系统、编译原理基础

深入理解深度学习框架底层实现(如TensorFlow/PyTorch的计算图优化、运行时调度等)
熟悉至少一种主流异构计算架构(如NVIDIA CUDA、AMD ROCm、Google TPU等)及其编程模型
具备高性能算子开发、模型训练/推理优化经验者优先
经验背景:在AI芯片评估、模型优化、高性能计算等领域有实际项目经验
有顶级会议(ASPLOS、ISCA、MLSys等)论文发表或AI编译器技术(MLIR、TVM等)研究经验者优先
综合素质:具备优秀的算法思维、系统架构设计能力与工程实现能力
对AI技术前沿有强烈兴趣,能快速学习并解决复杂技术问题

工作职责

负责异构计算芯片(GPU/NPU/ASIC等)的评估、选型与深度优化,构建面向业务场景的算力评估体系

主导AI推理引擎在目标芯片上的设计与实现,实现毫秒级低延迟与高吞吐推理能力
优化大规模模型训练框架的设计与实现,提升分布式训练效率,缩短模型迭代周期
开发高性能算子库,突破芯片算力瓶颈,最大化硬件利用率
推动异构编程范式革新,降低模型迁移成本,提升开发效率

优先资格

有顶级会议(ASPLOS、ISCA、MLSys等)论文发表或AI编译器技术(MLIR、TVM等)研究经验者优先

AI 洞察

优缺点分析

优点

  • 技术前沿:直接参与GenAI和异构计算的核心研发,技术含量高
  • 平台优势:快手作为上市大厂,资源丰富,项目落地场景真实
  • 成长空间:岗位涉及芯片、算子、框架等多个层次,知识广度与深度兼得
  • 技术难度高:需要同时掌握硬件架构、底层编程和深度学习,入门门槛高
  • 工作强度大:项目周期紧,可能涉及高强度加班和快速迭代

缺点 / 挑战

  • 竞争压力大:顶级人才聚集,需持续学习保持竞争力
  • 适合对AI基础设施有浓厚兴趣、技术基础扎实、愿意接受高挑战的技术型人才

角色解读

  • 技术深耕:成为异构计算或AI芯片领域的专家,主导前沿技术研发
  • 架构师方向:转向系统架构设计,负责大规模AI基础设施的规划与落地
  • 管理路线:带领团队攻克技术难题,晋升为技术负责人或团队经理
  • 评估和优化GPU/NPU/ASIC等异构芯片,构建算力评估体系
  • 设计并实现低延迟、高吞吐的AI推理引擎
  • 优化大规模模型训练框架,提升分布式训练效率
  • 开发高性能算子库,最大化硬件利用率
  • 精通C/C++和Python,扎实的计算机体系结构、OS和编译原理基础
  • 深入理解深度学习框架底层(如PyTorch/TensorFlow)的优化机制
  • 熟悉至少一种异构计算架构(CUDA/ROCm/TPU)及其编程模型
  • 具备算子开发、模型训练/推理优化经验,了解AI编译器(MLIR/TVM)

申请策略

  • 在面试中展示对GenAI模型(如LLaMA、GPT)推理/训练瓶颈的思考
  • 关注快手在短视频/直播场景下的AI应用,思考算力优化如何影响业务
  • 突出GPU/芯片优化项目经验,量化性能提升指标(如延迟降低、吞吐提升)
  • 强调深度学习框架(PyTorch/TensorFlow)的底层修改或计算图优化经历
  • 展示CUDA/ROCm/OpenCL等编程经验,以及算子库开发成果
  • 如有顶级会议论文(MLSys、ASPLOS等)或开源贡献,务必突出
  • 深入复习计算机体系结构、操作系统和编译原理核心知识点
  • 动手实现一个简单的AI推理引擎或算子(如矩阵乘法优化),熟悉CUDA编程

面试指南

  • 利用STAR原则(情境-任务-行动-结果)回答项目经验问题
  • 对于技术原理问题,先给出定义,再结合实际工程经验展开
  • 对于优化类问题,遵循“分析瓶颈-提出方案-验证效果”的步骤
  • 请解释GPU架构中SM、warp和shared memory的工作原理,并如何优化算子?
  • 如何优化一个Transformer模型的推理延迟?从算子、图优化、硬件三个层面回答
  • PyTorch的Autograd和计算图是如何实现的?如何对其做分布式加速?
  • 描述一个你曾经优化的高性能计算项目,遇到的主要挑战和解决方案
  • TVM与传统编译器(如LLVM)有何异同?MLIR如何简化异构编程?

匹配度报告

70
综合匹配度

快手核心AI基础设施岗,前沿技术、高薪资,但工作强度大、WLB一般。

适合人群
适合追求技术成长、愿意接受高强度工作的求职者,对WLB要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值70

薪资福利匹配

80较高

快手作为上市大厂,薪资具有较强竞争力,且该岗位为核心技术岗,薪酬在行业中属上等水平。但JD未明确提及福利,评分略有保留。

薪资信号偏高 (30K-50K/月)

成长发展匹配

90较高

该岗位涉及GenAI、异构计算等前沿技术,且要求精通多种底层技术,成长空间极大。JD虽未明确提及培训或晋升,但快手内部技术生态丰富。

技术前沿前沿/新兴技术
技术栈GPU、CUDA、PyTorch、TensorFlow、MLIR、TVM、NPU、ASIC
业务类型ambiguous

工作生活匹配

40较低

工作地点在北京,仅现场办公,且JD无WLB相关信息,互联网大厂通常工作强度较大,生活化动机满足度偏低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

70中等

AI基础设施岗位具有较高的技术影响力,但JD未直接提及社会价值或使命,行业属高速增长赛道。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k