Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小马智行/分布式训练平台工程师 - 广州南沙
Pony AI logo
P
小马智行 (Pony AI)

职位信息

广东省-广州市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

PyTorch性能优化GPU优化CUDANCCL分布式训练DDPFSDP
💡

核心评价

自动驾驶头部公司,前沿分布式训练技术,高成长性,但WLB一般。

分布式训练平台工程师 - 广州南沙

🤖 AI 估测:¥30K-50K

发布时间:大约 18 小时前

立即应聘

ℹ️关于这个职位

该职位负责分布式训练平台的性能优化与稳定性提升,包括优化多机多卡训练吞吐、解决通信瓶颈和显存压力等问题
你将与团队一起维护训练调度系统,建设性能监控体系,确保大规模训练集群高效运行
适合有PyTorch分布式训练和GPU优化经验的工程师

✓工作职责

负责分布式训练平台的性能优化与稳定性提升
优化多机多卡训练吞吐与资源利用率(GPU/CPU/网络/存储)
定位并解决通信瓶颈、显存压力、长尾卡顿等问题
维护与演进训练调度/资源管理系统及相关基础设施
建设性能基线、监控与告警体系,提升可观测性与问题响应效率

⭐最低要求

计算机相关专业本科及以上
熟悉 PyTorch 分布式训练(DDP/FSDP 至少其一)
熟悉 GPU 训练栈(CUDA、NCCL)
有实际性能优化经验(profiling、通信/IO/算子优化)
具备良好的工程实践与故障排查能力

👍优先资格

有 FSDP 深度使用经验(sharding 策略、混合精度、activation checkpointing 等)
熟悉调度系统(K8s/Slurm/自研)
有大规模训练集群运维或优化经验
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小马智行 的其他在招职位

  • C++开发实习生(感知方向)

    小马智行

    上海市 · 仅现场办公

  • 高性能系统工程师 - 校招

    小马智行

    北京市 · 仅现场办公

  • 广州算法实习生 - 三维重建 - 3DGS/仿真生成

    小马智行

    广州市 · 仅现场办公

  • PonyStar顶尖人才计划(26届)

    小马智行

    北京市 · 仅现场办公

  • 软件测试工程师

    小马智行

    广州市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公