Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/英伟达/Networking Solution Test Engineer - AI IB and Ethernet Cluster Debugging
Nvidia logo
N
英伟达 (Nvidia)

职位信息

上海市 / 北京市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

NetworkingNCCLEthernetRoce/RdmaAi ClustersSystem Debugging
💡

核心评价

顶尖AI公司核心基础设施岗,技术前沿、成长性极佳,薪资竞争力强,但工作地点固定且可能面临较高工作强度。

Networking Solution Test Engineer - AI IB and Ethernet Cluster Debugging

🤖 AI 估测:¥35K-60K

发布时间:19 天前

立即应聘

ℹ️关于这个职位

这是一个专注于AI集群网络解决方案的测试工程师职位
你将负责设计和执行针对大规模AI集群(涉及InfiniBand、以太网、NIC、DPU、交换机等)的端到端验证,包括构建测试环境、进行系统级调试、分析性能瓶颈,并确保网络在AI训练和推理工作负载下的稳定与高效

✓工作职责

设计和评审跨InfiniBand / 以太网 / NIC / DPU / 交换机产品组合的测试和产品需求,重点关注大规模AI集群行为
构建和维护逼真的、类似客户的测试环境,包括异构硬件、操作系统/驱动程序组合和复杂的网络结构
负责端到端集群故障排除:复现客户场景,跨技术栈进行问题分类,并推动问题找到根本原因和修复
阅读和理解相关源代码,以识别缺陷、验证修复并改进日志记录和检测手段
与开发团队紧密合作,使用日志、代码审查和针对性实验来调试NCCL、RoCE/RDMA及相关网络组件
定义测试并指导自动化团队实施健壮的测试套件,以生成可操作的日志、指标和跟踪信息
运行回归测试、性能测试、功能测试和规模测试,分析结果并向利益相关者提供清晰、数据驱动的报告
对深度学习训练和推理工作负载进行性能剖析和基准测试,将模型级指标与系统和网络遥测数据关联,以发现瓶颈

⭐最低要求

计算机科学、电气工程或相关领域的学士学位,或同等的IT/网络/系统经验
2年以上在Linux系统上进行网络或系统级测试和调试的实践经验
扎实的Linux网络和调试技能(例如perf, tcpdump, ethtool, iproute2)
经过验证的生产级调试经验:能够提出假设、进行实验,并在压力下将问题追查到根本原因
主机端NIC验证和调优的专业知识(卸载、队列、中断、固件/驱动程序交互)
对AI网络库(如NCCL)和协议(如RoCE和RDMA)有深入了解,包括性能和正确性调试
能够阅读和理解源代码(C/C++/Python或类似语言),并与开发人员紧密合作进行修复
扎实的脚本和自动化技能(Bash / Python / Ansible),用于环境搭建、日志收集和实验编排
快速学习者,熟悉现代AI工具和工作流程,能够快速适应
出色的分析、解决问题和沟通能力,具有强烈的责任心和协作精神

👍优先资格

对集体通信库(例如NCCL)或大规模LLM训练/推理集群进行动手调试的经验
拥有大型集群环境(数十到数千个GPU或节点)的经验,包括事件响应和事后分析
在为AI工作负载调优和调试拥塞控制及无损以太网方面的深厚专业知识(例如DCQCN, ECN, PFC)
熟悉NVIDIA网络技术(例如BlueField / BF3, ConnectX NICs)及其软件栈和诊断工具
调试跨越多层(L2/L3、传输层、AI框架)问题的经验,或对开源网络/AI系统有贡献
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

英伟达 的其他在招职位

  • Machine Learning Engineer - Humanoid Robotics

    英伟达

    上海市 · 仅现场办公

  • System Software Engineer, GPU Development Tools

    英伟达

    上海市 · 仅现场办公

  • ASIC Physical Design Methodology Engineer

    英伟达

    上海市 · 仅现场办公

  • Developer Technology Engineer – AI

    英伟达

    上海市 · 仅现场办公

  • LLM Reinforcement Learning Framework Engineer

    英伟达

    上海市 · 仅现场办公

相似职位推荐

  • 数据安全工程师

    中国平安

    上海市 · 仅现场办公

  • 应用安全工程师

    中国平安

    深圳市 · 仅现场办公

  • 应用运维工程师

    中国平安

    深圳市 · 仅现场办公

  • DBA岗

    中国平安

    上海市 · 仅现场办公

  • 高性能系统工程师 - 校招

    小马智行

    北京市 · 仅现场办公