小红书的搜广推-ps方向训练框架研发工程师薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

搜广推-ps方向训练框架研发工程师的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：29 天前

这是一个专注于大规模分布式训练框架研发的高级技术岗位

你将负责优化千卡乃至万卡级别集群的性能、容错与扩展性，并深入系统底层，利用高性能网络和存储技术，为前沿模型（如大语言模型、推荐系统）提供极致的训练基础设施支持

参与大规模分布式训练框架（基于PyTorch等）的研发与优化，重点解决千卡乃至万卡级别集群的扩展性、容错与性能瓶颈问题

负责训练系统中关键组件的设计与开发，包括但不限于大规模分布式参数服务器、高性能嵌入向量（Embedding）训练与推理、高效的优化器实现等

深入系统底层，利用高性能网络（如RoCE v2, InfiniBand）、RDMA技术以及NVMe SSD存储，优化数据读取、通信和Checkpoint存储等关键路径，实现极致的端到端训练性能

与算法团队紧密合作，理解前沿模型（如大语言模型、推荐系统、多模态模型）对训练基础设施的需求，并将其转化为系统级的创新与优化

负责GPU/XPU计算资源的精细调度与性能优化，深入挖掘硬件潜力，降低训练成本

优秀的代码能力、数据结构和基础算法功底，熟悉C++开发，理解大规模分布式应用系统和平台

熟悉至少一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现

深入理解并拥有大规模参数服务和分布式系统的实践经验，熟悉其架构、一致性协议与性能调优

参与推理/训练参数服务器的迭代优化，优化GPU PS embedding 相关功能，包括不限于参数更新 / 存储 / 索引构建等模块升级与运维，有大规模参数服务、分布式系统经验的优先考虑

搜广推-ps方向训练框架研发工程师

🤖 AI 估测：¥45K-80K

发布时间：29 天前