Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/搜广推-ps方向训练框架研发工程师
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

上海市 / 北京市
高级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

分布式系统PyTorch高性能计算GPU优化RDMA机器学习系统参数服务器
💡

核心评价

技术顶尖、成长性极强的大厂核心AI基础设施岗,薪资竞争力高,但WLB信号不明。

搜广推-ps方向训练框架研发工程师

🤖 AI 估测:¥45K-80K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大规模分布式训练框架研发的高级技术岗位
你将负责优化千卡乃至万卡级别集群的性能、容错与扩展性,并深入系统底层,利用高性能网络和存储技术,为前沿模型(如大语言模型、推荐系统)提供极致的训练基础设施支持

✓工作职责

参与大规模分布式训练框架(基于PyTorch等)的研发与优化,重点解决千卡乃至万卡级别集群的扩展性、容错与性能瓶颈问题
负责训练系统中关键组件的设计与开发,包括但不限于大规模分布式参数服务器、高性能嵌入向量(Embedding)训练与推理、高效的优化器实现等
深入系统底层,利用高性能网络(如RoCE v2, InfiniBand)、RDMA技术以及NVMe SSD存储,优化数据读取、通信和Checkpoint存储等关键路径,实现极致的端到端训练性能
与算法团队紧密合作,理解前沿模型(如大语言模型、推荐系统、多模态模型)对训练基础设施的需求,并将其转化为系统级的创新与优化
负责GPU/XPU计算资源的精细调度与性能优化,深入挖掘硬件潜力,降低训练成本

⭐最低要求

优秀的代码能力、数据结构和基础算法功底,熟悉C++开发,理解大规模分布式应用系统和平台
熟悉至少一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现
深入理解并拥有大规模参数服务和分布式系统的实践经验,熟悉其架构、一致性协议与性能调优

👍优先资格

参与推理/训练参数服务器的迭代优化,优化GPU PS embedding 相关功能,包括不限于参数更新 / 存储 / 索引构建等模块升级与运维,有大规模参数服务、分布式系统经验的优先考虑
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公