小红书的大模型训练框架研发工程师/专家薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

大模型训练框架研发工程师/专家的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及专家级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：28 天前

这是一个专注于大模型训练框架研发的高级技术岗位

你将负责设计并实现支持强化学习对齐技术（如RLHF/DPO）的高效训练框架，研发支持多机多卡的分布式训练系统，并构建端到端的后训练工具链

核心目标是打造领先的AI大模型基础设施，赋能公司核心业务，实现AI技术的高效落地

参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline

研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭

构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力

与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代

参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性

精通PyTorch 框架、veRL/OpenRLHF/Llama-Factory等后训练引擎，具有修改框架源码的实战经验

深入理解Megatron/DeepSpeed等框架的并行策略，能自主设计混合并行方案解决显存墙问题

掌握强化学习训练全流程优化，有基于PPO/DPO等算法的大模型训练调优经验

具备模型训练调优分析经验，能够借助Nsight、nvprof等工具分析发现模型训练性能瓶颈，并进行针对性优化

有良好的沟通表达及团队协作能力，有强烈的责任心和使命感

熟悉TRL、DeepSpeed-RL等强化学习框架的底层实现机制

掌握LLM训练全链路技术栈，包括分布式数据预处理、序列并行、梯度累积策略

有千卡规模大模型训练实战经验，成功解决过跨机房通信、容错训练等生产问题

发表过SOSP/MLSys等系统顶会论文，或主导过开源训练框架核心模块开发

熟悉NCCL/RDMA/IB/ROCE相关知识，有高性能CUDAKernel相关研发经验

大模型训练框架研发工程师/专家

🤖 AI 估测：¥45K-80K

发布时间：28 天前