Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Deepseek logo
深度求索
超算网络研发工程师
立即应聘

超算网络研发工程师

发布于 大约 16 小时前

普通员工/个人贡献者

杭州市
高级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
RDMA
可观测性
计算机体系结构
GPU集群
NCCL
网络拓扑
拥塞控制
Rocev2

AI 估算 · 35k–65k

大模型算力方向高级研发岗位薪资竞争力强,技术栈高端,杭州中大型企业B轮,月薪中位数5万合理

职位详情

关于这个职位

该职位负责下一代超算网络架构的设计与落地,覆盖集群互联、路由、通信协议到通信库、设备固件、可观测性的全栈优化,直接决定万卡集群的训练效率

要求精通RDMA、NCCL等高性能网络技术和计算机体系结构,拥有大规模网络故障诊断与性能优化实战经验

最低要求

基本背景:

计算机等相关专业,本科及以上学历
扎实的 C/C++/Python 系统编程能力,熟悉 Linux 内核网络栈与高性能互连技术(RDMA、RoCEv2、IB 等)
岗位要求:
精通大规模网络拓扑、路由与多路径负载均衡设计,理解乱序收包及重排序机制,掌握 RDMA 拥塞控制及相关机制
深入了解 NCCL 或 xCCL 原理,有源码级开发或深度性能调优经验
深入了解计算机体系结构,能够清晰描述一个数据包从内存出发到对端的全过程及其潜在瓶颈
具备大规模网络故障诊断与性能优化实战经验,能跨端侧、交换机、网卡定位问题

工作职责

下一代网络架构与协议设计:设计超大规模集群互联架构与路由策略,实现逐包多路径负载均衡、乱序收包处理机制

结合业务落地拥塞控制算法,解决 PFC 风暴、拥塞扩散等问题
网络可观测性:构建端到端监控与 tracing 体系(应用层metrics、延迟、队列、丢包、重传等),主导大规模训练的网络故障诊断和性能回归分析
端到端性能调优:熟悉计算机体系结构(CPU/GPU微架构、设备互联NVLink/UB/PCIe、内存模型等),结合网络负载进行端到端的 Profiling 与全链路排障
跨团队协作:与训练框架、调度、存储、硬件等团队配合,推动网络性能持续演进

优先资格

加分项:

有万卡以上 GPU 集群网络设计或长期运行经验
有高性能计算HPC应用开发经验,跑过全机级别的超大规模的并行任务
在 SIGCOMM/NSDI/SC/ISCA/OSDI等系统顶会发表过高性能网络或分布式训练方向论文
有智能网卡、可编程交换机的 固件/OS 开发经验(P4、SDN、SONiC 等),熟悉硬件卸载与加速流水线设计
熟悉 DPU/IPU/FPGA 等异构加速设备的开发

AI 洞察

优缺点分析

优点

  • 身处大模型算力最核心的底层基础设施岗位,直接参与定义万卡级超算网络架构,技术影响力极大
  • 与顶尖的系统/算子/框架工程师合作,技术成长飞速,项目成果直接体现为大模型训练效率的提升
  • 技术栈前沿,涵盖RDMA、NCCL、拥塞控制、可编程交换机等,积累的经验在AI基础设施领域高度稀缺
  • 技术门槛极高,需要同时精通网络、体系结构、分布式系统等多个领域,学习曲线陡峭
  • 工作强度可能较大,涉及大规模集群的故障排查和性能优化,需要应对复杂系统的突发问题
  • 作为B轮公司,业务不确定性相对大,但对有冒险精神的工程师而言也是机遇

缺点 / 挑战

  • 适合对系统底层技术有浓厚兴趣、具备扎实系统编程和网络背景、愿意挑战万卡级超算网络难题的资深工程师

角色解读

  • 技术专家路线:深耕超算网络领域,成为RDMA、拥塞控制、网络体系结构方向的顶尖专家
  • 架构师路线:从网络组件到全系统架构,主导下一代超算网络整体设计,影响大模型训练效率
  • 横向扩展:向训练框架、调度、存储、硬件等领域延伸,成为系统全栈工程师
  • 设计超大规模GPU集群的网络互联架构和路由策略,实现逐包多路径负载均衡和乱序收包处理
  • 构建端到端的网络可观测性系统,监控延迟、丢包、重传等指标,主导大规模训练的网络故障诊断
  • 进行端到端的性能调优,结合计算机体系结构分析数据包传输路径中的瓶颈,并与多个团队协作推动网络性能持续演进
  • 精通C/C++/Python系统编程,深入理解Linux内核网络栈和RDMA/RoCEv2/IB等高性能互联技术
  • 精通大规模网络拓扑、路由与负载均衡设计,掌握RDMA拥塞控制机制,有NCCL或xCCL源码级开发或深度调优经验
  • 深入理解计算机体系结构,能清晰描述数据包从内存到对端的全过程及其潜在瓶颈,具备大规模网络故障诊断实战经验

申请策略

  • 在简历中详细描述参与过的超大规模集群网络架构设计或调优经历,越具体越好
  • 面试前准备一个关于数据包从GPU到对端全链路的性能分析案例,展示体系结构深度
  • 突出在大规模GPU集群网络设计、RDMA/NCCL调优方面的具体项目经验,量化性能提升指标(如带宽利用率、延迟降低等)
  • 强调计算机体系结构的理解,如描述过数据包全链路瓶颈分析的实际案例
  • 展示故障诊断和性能优化的实战成果,例如解决了PFC风暴或拥塞扩散等问题
  • 深入学习NCCL源码和RDMA拥塞控制机制,准备一个相关的技术分享或实验
  • 熟悉可编程交换机(P4、SONiC)或DPU/IPU开发,提升对硬件卸载流水线的理解
  • 阅读系统顶会(SIGCOMM、NSDI等)相关论文,了解领域最新进展

面试指南

  • 技术问题采用STAR法则:Situation(场景)、Task(任务)、Action(行动)、Result(结果),强调量化结果
  • 体系结构类问题要画出数据流图,逐环节分析延迟、带宽、队列等指标,展示系统思维
  • 对于开放性问题,先澄清问题边界,再给出多方案对比,最后推荐一种并说明理由
  • 请描述RDMA拥塞控制机制的工作原理,以及如何应对PFC风暴
  • 如何设计一个万卡集群的胖树网络拓扑?路由策略如何选择?
  • 你如何调优NCCL AllReduce操作的性能?描述一个你遇到的瓶颈及解决方案
  • 请从头开始描述一个数据包从GPU显存发送到对端GPU显存的全过程,包括涉及的关键组件和潜在瓶颈
  • 如果训练集群出现慢节点,你如何定位原因?需要哪些可观测性数据?

匹配度报告

74
综合匹配度

前沿超算网络研发,技术栈高端,成长空间大,现场办公,薪资未披露。

适合人群
适合追求技术前沿和快速成长的求职者,对工作生活平衡要求不高,愿意在杭州现场投入。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活50
使命价值85

薪资福利匹配

70中等

薪资未在JD中披露,但大模型基础设施岗位通常薪资较高,公司B轮融资,福利未明确提及,综合判断补偿性满足程度中等偏上。

薪资信号未披露(AI估算:35K-65K/月)

成长发展匹配

90较高

该职位直接定义下一代超算网络架构,技术栈前沿(RDMA、NCCL、拥塞控制等),与顶尖工程师合作,成长空间极大。但JD未明确提及晋升通道和培训机会。

技术前沿前沿/新兴技术
技术栈RDMA、NCCL、拥塞控制、GPU集群、可编程交换机、计算机体系结构
业务类型profit_center

工作生活匹配

50较低

职位要求现场办公(杭州),未提及远程或弹性工作制,工作强度可能较大(涉及集群故障排查),生活化动机满足程度一般。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

85较高

大模型赛道高速增长,该职位直接提升训练效率、降低成本,社会价值较高,技术开拓性强。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

深度求索 的其他在招职位

  • 预训练数据研究员/研发工程师

    深度求索 · 杭州市
    AI 估算 · 30k-60k
  • 数据中心网络运维工程师(超算 / RDMA / 数通)

    深度求索 · 杭州市
    AI 估算 · 20k-35k
  • 采购经理(云服务方向)

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • 大模型平台运营

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • IDC采购经理

    深度求索 · 杭州市
    AI 估算 · 25k-40k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k

深度求索 的其他在招职位

  • 预训练数据研究员/研发工程师

    深度求索 · 杭州市
    AI 估算 · 30k-60k
  • 数据中心网络运维工程师(超算 / RDMA / 数通)

    深度求索 · 杭州市
    AI 估算 · 20k-35k
  • 采购经理(云服务方向)

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • 大模型平台运营

    深度求索 · 杭州市
    AI 估算 · 15k-25k
  • IDC采购经理

    深度求索 · 杭州市
    AI 估算 · 25k-40k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k