Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Pony AI logo
小马智行
分布式训练平台工程师 - 广州南沙
立即应聘

分布式训练平台工程师 - 广州南沙

发布于 大约 2 个月前

普通员工/个人贡献者

广州市
中级经验
全职员工
仅现场办公
本科
软件工程
PyTorch
性能优化
GPU优化
CUDA
NCCL
分布式训练
DDP
FSDP

AI 估算 · 30k–50k

分布式训练平台工程师属于高技能岗位,自动驾驶行业薪资较高,广州南沙生活成本适中,综合市场水平估算。

职位详情

关于这个职位

该职位负责分布式训练平台的性能优化与稳定性提升,包括优化多机多卡训练吞吐、解决通信瓶颈和显存压力等问题

你将与团队一起维护训练调度系统,建设性能监控体系,确保大规模训练集群高效运行
适合有PyTorch分布式训练和GPU优化经验的工程师

最低要求

计算机相关专业本科及以上

熟悉 PyTorch 分布式训练(DDP/FSDP 至少其一)
熟悉 GPU 训练栈(CUDA、NCCL)
有实际性能优化经验(profiling、通信/IO/算子优化)
具备良好的工程实践与故障排查能力

工作职责

负责分布式训练平台的性能优化与稳定性提升

优化多机多卡训练吞吐与资源利用率(GPU/CPU/网络/存储)
定位并解决通信瓶颈、显存压力、长尾卡顿等问题
维护与演进训练调度/资源管理系统及相关基础设施
建设性能基线、监控与告警体系,提升可观测性与问题响应效率

优先资格

有 FSDP 深度使用经验(sharding 策略、混合精度、activation checkpointing 等)

熟悉调度系统(K8s/Slurm/自研)
有大规模训练集群运维或优化经验

AI 洞察

优缺点分析

优点

  • 接触前沿的分布式训练技术和大规模GPU集群,技术积累价值高
  • 自动驾驶行业高速发展,公司小马智行是行业头部,平台优势明显
  • 技术难度高,需要深入理解底层硬件和分布式系统
  • 可能面临高强度工作,尤其是在训练任务紧急时
  • 对故障排查能力要求高,需要快速定位复杂问题

缺点 / 挑战

  • 工作内容聚焦性能优化,有挑战性且成就感强
  • 适合对分布式训练和GPU优化有浓厚兴趣、喜欢解决性能瓶颈的工程师

角色解读

  • 可向分布式系统架构师或AI基础设施负责人方向发展
  • 积累大规模集群优化经验后,可转向更通用的高性能计算或云原生领域
  • 在自动驾驶公司深耕,有机会成为训练平台技术专家或团队负责人
  • 负责分布式训练平台的性能优化,提升多机多卡训练吞吐和资源利用率
  • 定位并解决通信瓶颈、显存压力、长尾卡顿等训练过程中的性能问题
  • 维护和演进训练调度/资源管理系统,建设性能监控与告警体系
  • 精通PyTorch分布式训练框架,熟悉DDP或FSDP
  • 深入理解GPU训练栈,包括CUDA和NCCL
  • 具备实际性能优化经验,如profiling、通信/IO/算子优化

申请策略

  • 了解小马智行的技术栈和自动驾驶业务,面试中展示对行业痛点的理解
  • 准备一个完整的性能优化案例,从问题定位到解决方案的详细过程
  • 突出PyTorch分布式训练项目经验,特别是DDP或FSDP的实际应用
  • 展示性能优化案例,如通过profiling发现并解决通信瓶颈
  • 强调对CUDA和NCCL的理解,以及在大规模集群上的运维经验
  • 深入学习FSDP的sharding策略和混合精度训练
  • 熟悉Kubernetes或Slurm调度系统,了解资源管理原理

面试指南

  • 对于技术问题,采用STAR法则:描述场景、任务、行动和结果
  • 对于设计问题,先明确需求,再提出方案并权衡利弊
  • 请解释PyTorch DDP和FSDP的区别及适用场景
  • 如何诊断多机多卡训练中的通信瓶颈?你会用什么工具?
  • 描述一次你优化GPU显存使用的经历
  • 如何设计一个训练集群的监控和告警系统?
  • 你对NCCL的理解?如何调整NCCL参数提升性能?
  • 复习PyTorch分布式训练文档,特别是FSDP的官方指南

匹配度报告

69
综合匹配度

自动驾驶头部公司,前沿分布式训练技术,高成长性,但WLB一般。

适合人群
最适合追求技术成长和行业前沿的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活40
使命价值75

薪资福利匹配

70中等

薪资水平较高,但JD未明确福利,补偿性动机满足程度中等偏上。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

职位涉及前沿分布式训练技术,技能成长空间大,发展性动机满足程度高。

技术前沿前沿/新兴技术
技术栈PyTorch、DDP、FSDP、CUDA、NCCL、Kubernetes、Slurm
业务类型ambiguous

工作生活匹配

40较低

仅现场办公,未提及WLB,生活化动机满足程度较低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

75中等

自动驾驶行业属于高速增长赛道,技术有社会价值,意义感动机满足程度较高。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小马智行 的其他在招职位

  • 大模型算法工程师-广州/北京

    小马智行 · 北京市
    AI 估算 · 30k-60k
  • C++实习生 - 仿真分析与问题复现 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 4k-8k
  • C++实习生 - 性能优化 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 5k-8k
  • C++实习生 - 仿真优化 - 深圳

    小马智行 · 深圳市
    AI 估算 · 4k-8k
  • 高级测试工程师 - 需海外高频出差

    小马智行 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • AI全栈工程师(AI Coding 方向)

    小红书 · 北京市
    AI 估算 · 45k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 高级/资深iOS开发工程师(MJ035494)

    携程 · 上海市
    AI 估算 · 25k-45k
  • Staff Machine Learning Engineer, ML Infrastructure - Offline

    Unity Technologies · 上海市
    AI 估算 · 40k-70k

小马智行 的其他在招职位

  • 大模型算法工程师-广州/北京

    小马智行 · 北京市
    AI 估算 · 30k-60k
  • C++实习生 - 仿真分析与问题复现 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 4k-8k
  • C++实习生 - 性能优化 - 北京海淀

    小马智行 · 北京市
    AI 估算 · 5k-8k
  • C++实习生 - 仿真优化 - 深圳

    小马智行 · 深圳市
    AI 估算 · 4k-8k
  • 高级测试工程师 - 需海外高频出差

    小马智行 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • AI全栈工程师(AI Coding 方向)

    小红书 · 北京市
    AI 估算 · 45k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 高级/资深iOS开发工程师(MJ035494)

    携程 · 上海市
    AI 估算 · 25k-45k
  • Staff Machine Learning Engineer, ML Infrastructure - Offline

    Unity Technologies · 上海市
    AI 估算 · 40k-70k