Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Deepseek logo
深度求索
超算集群研发工程师
立即应聘

超算集群研发工程师

发布于 大约 11 小时前

普通员工/个人贡献者

杭州市 / 北京市
其它
全职员工
仅现场办公
学历未注明
信息技术与基础设施
分布式系统
GPU
性能优化
HPC
Linux内核
RDMA
NPU
调度系统
超算集群

AI 估算 · 35k–65k

超算集群研发门槛高、技术栈深入,B轮AI公司薪资竞争力强,杭州北京一线城市提供较高薪酬。

职位详情

关于这个职位

作为超算集群研发工程师,你将参与设计和实现大规模异构计算资源调度系统、集群管理系统,并进行端到端性能调优

工作涉及CPU/GPU/NPU调度、RDMA网络优化、内核及I/O调优,旨在建设下一代AI超算基础设施,直接支撑大模型训练与推理的效率提升
适合对计算机体系结构有深刻理解、热爱性能优化、渴望从底层推动AGI发展的技术人才

最低要求

扎实的计算机体系结构基础:深刻理解计算机组成、操作系统、计算机网络等核心原理

熟悉 C / C++ / Rust / Python 之一,具备优秀的设计能力、极强的动手和工程能力以及代码质量意识
对分布式系统有深刻理解与实践经验,如熟悉分布式任务调度与资源编排,或能设计高性能、高可用的系统架构
对性能优化有较高热情,发自内心地想要跑满所有计算资源,榨干每一份算力
良好的中文沟通能力和团队协作能力

工作职责

设计并实现大规模异构计算资源的调度系统,解决 CPU/GPU/NPU 等计算资源的抽象、池化与拓扑感知调度

持续优化调度算法,在任务吞吐、排队延迟和资源利用率之间取得均衡
开发集群管理系统,覆盖任务和节点生命周期管理、日志采集和召回、关键性能数据收集与可视化、故障发现与自动容灾,以及新硬件、新软件栈的导入与适配
从集群视角进行端到端系统性能调优,覆盖 CPU/GPU/NPU 计算任务优化、Linux 内核、I/O 和网络协议栈等,构建集群可观测性体系,主导大规模训练下的故障诊断、性能回归和全链路排障
分析大规模并行系统中的性能抖动、长尾延迟以及性能不均等系统性瓶颈,支撑所有同事更高效地使用集群
AI 超算集群网络的拓扑设计、路由策略、多路径负载均衡和拥塞控制,深入研究 RDMA(RoCEv2 / InfiniBand)协议栈,与通信算子、存储团队配合,提供来自高性能网络的最优底层支撑
参与新一代超算集群的架构规划与建设,探索和评估 GPU、国产 AI 加速器、网卡、以及新兴硬件,与 IDC 数据中心团队配合,以集群架构需求驱动数据中心的规划、建设与交付

优先资格

熟悉容器运行时(cgroup、namespace 等)与容器编排系统(Kubernetes 等)的底层实现原理,理解资源隔离、调度(sched_ext)与 QoS 等机制

精通 RDMA 编程及 RoCEv2 / InfiniBand 网络架构,深入理解拥塞控制、多路径、自适应路由等机制,具备大规模 RDMA 网络排障与调优经验
有HPC和超算全机规模应用经验,熟悉并行编程范式,或有超大规模集群组网设计、部署建设、调优经验
有智能网卡 DPU、可编程交换机 P4 开发经验,或熟悉 GPU、国产 AI 加速器或国产 CPU 的体系结构和性能特性
在大型开源软件中有深度贡献,或有优秀个人开源项目,或有HomeLab经历
在 HPC 赛事(SC / ASC / ISC / PAC)、数学或算法竞赛(CMO / NOI / IOI / ICPC)中取得优异成绩

AI 洞察

优缺点分析

优点

  • 直接参与AGI基础设施核心建设,工作成果影响大模型训练效率和成本
  • 接触前沿硬件和系统技术(RDMA、DPU、国产加速器),技术积累深厚
  • B轮明星公司,团队技术氛围浓厚,与顶尖算子、框架研发协作
  • 职业天花板高,超算集群领域人才稀缺,长期前景广阔
  • 技术复杂度极高,需要同时掌握硬件、网络、操作系统、分布式等多领域知识
  • 工作强度可能较大,大规模集群运维和调优需要应对突发故障和紧迫项目
  • 对自学能力和问题解决能力要求高,新硬件和新技术迭代快

缺点 / 挑战

  • 适合热爱底层系统、对性能优化有极致追求、享受从硬件到软件全栈挑战的技术极客

角色解读

  • 技术深潜:从集群调度、网络优化到底层硬件驱动,成为全栈系统性能专家
  • 架构进阶:主导下一代超算集群架构设计,参与数十万卡规模基础设施建设
  • 交叉发展:与算法、框架团队协作,深入AI训练推理全链路,拓展到AI系统架构师方向
  • 设计和实现大规模异构计算资源调度系统,优化CPU/GPU/NPU资源利用率与任务吞吐
  • 开发集群管理系统,涵盖任务生命周期、日志、监控、故障容灾等,保障集群稳定运行
  • 进行端到端系统性能调优,涉及Linux内核、I/O、网络协议栈,构建可观测性体系,诊断大规模训练性能瓶颈
  • 参与AI超算网络架构设计,优化RDMA协议栈与路由策略,探索下一代硬件加速方案
  • 扎实的计算机体系结构基础,深刻理解计算机组成、操作系统、计算机网络
  • 精通C/C++/Rust/Python之一,代码质量和工程能力强
  • 对分布式系统有深入实践,熟悉资源调度、高可用架构
  • 强烈的性能优化热情,能够从硬件微架构到系统软件层面系统性思考

申请策略

  • 在简历或求职信中表达对AGI和系统性能的热情,体现独立思考和好奇心
  • 准备一个系统调优或分布式调度的项目深度介绍,展示系统性解决问题能力
  • 突出计算机体系结构、操作系统、网络相关项目或课程成果
  • 展示分布式系统设计经验,如调度器、资源管理、高可用系统
  • 强调性能优化案例,包括具体量化成果(如延迟降低、吞吐提升)
  • 如有开源贡献、赛事获奖或HomeLab,务必详细描述
  • 深入学习Linux内核调度器、内存管理、I/O栈,阅读内核源码
  • 实践RDMA编程(如使用InfiniBand或RoCEv2),搭建小型实验集群

面试指南

  • 采用STAR法则:情境、任务、行动、结果,量化调优效果
  • 从第一性原理出发,拆分问题层次(硬件、OS、网络、应用),逐步定位
  • 展示系统性思考:权衡吞吐、延迟、利用率,考虑可扩展性和容错
  • 请描述一次你对系统进行性能调优的经历,你如何发现瓶颈并解决?
  • 如何设计一个大规模异构资源调度器?需要考虑哪些关键因素?
  • 解释RDMA的工作原理,以及在超算网络中如何优化拥塞控制?
  • 当你在训练作业中遇到性能抖动,你会如何排查?
  • 你对容器运行时(如cgroup/namespace)的理解,Kubernetes调度底层如何工作?

职位点评

75
综合评分

前沿AI超算研发,技术成长极高,薪资不错但WLB差。

更适合这类人
最适合以技术成长和挑战前沿为驱动、对AGI充满热情、能够接受高强度工作的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利75
成长发展95
工作生活40
使命价值90

薪资福利

75中等

薪资处于行业高水平,但未在JD中明确薪资范围,面议可能性大;公司为B轮,福利可能未完全披露。

薪资信号面议 (35K-65K/月)

成长发展

95较高

职位直接参与定义下一代超算基础设施,技术栈前沿,涉猎多种硬件和系统软件,成长空间极大。

技术前沿前沿/新兴技术
技术栈C、C++、Rust、Python、分布式系统、Kubernetes、RDMA、InfiniBand、GPU、NPU、HPC、DPU、P4、RoCEv2
成长机会直接参与定义并建设下一代超算基础设施、深入多种硬件体系结构,系统性地积累跨架构实践经验
业务类型profit_center

工作生活

40较低

未明确提及WLB,工作地点为现场办公(杭州或北京),预计需要较高投入,加班可能较频繁。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

90较高

职位直接服务于AGI基础设施,社会意义重大,属于高速增长赛道,技术创新性强。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号在 AI 时代,超算集群就是把电力转换为智能的引擎。、让每一瓦电力都尽可能多地转换为有效算力、挑战更大规模数十万卡集群的极限性能。
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • IaaS运维高级工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 应用运维专家工程师

    中国平安 · 深圳市
    AI 估算 · 25k-45k

深度求索 的其他在招职位

  • IT 基础设施团队

    深度求索 · 杭州市
    AI 估算 · 20k-45k
  • Frontier(持续学习/自进化/新范式)研究员

    深度求索 · 北京市
    AI 估算 · 30k-60k
  • HR团队

    深度求索 · 杭州市
    AI 估算 · 15k-30k
  • 法务团队

    深度求索 · 杭州市
    AI 估算 · 12k-25k
  • 后训练(数据/算法)研究员

    深度求索 · 杭州市
    AI 估算 · 30k-60k

相似职位推荐

  • IaaS运维高级工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师岗

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • IaaS运维工程师

    中国平安 · 深圳市
    AI 估算 · 15k-25k
  • 海外交付架构师

    中国平安 · 香港
    AI 估算 · 60k-90k
  • 应用运维专家工程师

    中国平安 · 深圳市
    AI 估算 · 25k-45k