小红书的模型开发工程师薪资是多少？

该职位薪资范围为 35k–55k（人民币/月）。

模型开发工程师的工作地点在哪里？

该职位工作地点位于杭州市、上海市。工作形式为仅现场办公。

小红书的模型开发工程师有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

小红书

模型开发工程师

立即应聘

模型开发工程师

发布于大约 2 个月前

普通员工/个人贡献者

杭州市 / 上海市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

Grpo

大模型训练

强化学习

推理优化

深度学习框架

PPO

SGLang

vLLM

AI 估算 · 35k–55k

该职位要求高级AI系统经验，属前沿技术岗，市场稀缺，薪资竞争力强，参考上海/杭州一线互联网大厂水平。

职位详情

关于这个职位

该职位负责小红书内容安全场景下Agentic RL训推一体基础设施的建设，涉及训练框架、推理系统、Agent执行框架等核心子系统

你将主导多轮轨迹建模、长上下文训练优化、强化学习稳定性等复杂问题的技术拆解与落地，推动模型在真实审核场景中的效果与效率提升

这是一个结合模型、系统和Agent的交叉岗位，需要深入框架内核并做出系统级的架构判断

最低要求

工程能力扎实，具备复杂 AI 系统（训练或推理）从设计到落地的完整经验，能够独立负责一个子系统并对其长期演进负责，具备深入主流框架进行定制化改造能力

理解强化学习核心算法（如 PPO / GRPO 等）及其在大模型或 Agent 场景中的应用，有端到端 Agent 训练或多轮交互系统的实践经验

具备推理优化实战经验，熟悉 vLLM、SGLang 等推理框架，理解 KV Cache、Batching、并行调度等关键机制

工作职责

负责 Agentic RL 训推一体基础设施中一个或多个核心子系统（如训练框架、推理系统、Agent 执行框架等）的设计与落地，并对其长期演进负责

主导复杂问题的技术拆解与方案设计，例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等，并推动工程实现

构建并优化大模型训练与推理链路，提升系统在真实审核场景下的效果与效率，系统性降低推理成本

推动 Agent 工程体系建设（Tool Use、Multi-Agent 协同、任务编排等），将复杂审核任务抽象为可复用的系统能力

建立训练-评测-推理的闭环反馈机制，推进 Agent 与模型的协同优化（co-optimization）

AI 洞察

优缺点分析

优点

小红书作为大型互联网平台，提供丰富的数据和业务场景，技术落地价值高
团队协作紧密，与算法、产品、工程协同，能快速积累跨领域经验
技术复杂度高，需要同时掌握模型训练、推理优化和系统工程，学习曲线陡峭
岗位处于快速发展阶段，方向可能随业务调整，需要较强的适应能力

缺点 / 挑战

参与前沿的Agentic RL与内容安全结合的项目，技术挑战高，成长空间大
业务场景要求高，需在效果与成本之间平衡，可能面临较大的工程压力
适合具备扎实AI系统背景、热爱挑战、希望在Agent与RL基础设施方向深耕的技术工程师

角色解读

深耕AI基础设施领域，成为训练或推理系统的技术专家
向技术负责人发展，带领团队规划并落地更复杂的系统架构
横向拓展至模型算法、Agent产品等方向，成为AI全栈人才
设计并实现Agentic RL训推一体基础设施的核心子系统，如训练框架与推理系统
主导多轮轨迹建模、长上下文训练优化等复杂技术问题的方案设计与工程落地
优化大模型训练与推理链路，提升系统效果并降低推理成本
推进Agent工程体系建设，包括Tool Use、多Agent协同及任务编排
扎实的工程能力，具备复杂AI系统（训练或推理）从0到1的完整落地经验
深入理解强化学习算法（如PPO/GRPO）及其在大模型或Agent场景的应用
熟悉推理优化，掌握vLLM、SGLang等框架及KV Cache、Batching等机制
具备系统级架构判断力，能深入框架内核进行定制化改造

申请策略

简历中量化过往项目的效果提升（如训练加速比、推理成本降低百分比等）
提前了解小红书面向内容安全的业务需求，思考Agentic RL的潜在应用场景
突出你在训练或推理框架上的定制改造经验，如修改过PyTorch、vLLM的源码
强调强化学习项目实践，特别是PPO/GRPO在Agent或游戏中的应用
展示系统级设计能力，如你独立负责过的子系统架构与优化成果
如有推理优化相关量化、剪枝、KV Cache等经验，务必重点描述
如果缺乏端到端Agent训练经验，可以自己实现一个简单的RL训练脚本并理解流程
补充对vLLM、SGLang等推理框架的源码理解，特别是调度和显存管理

面试指南

针对系统设计题，采用「问题定义->方案对比->关键设计->trade-off」的结构
对于算法/优化题，先解释原理，再结合具体场景的瓶颈，最后给出可选方案和取舍
请描述你如何设计一个Agentic RL的训练-推理闭环系统？
在PPO算法中，如何处理长上下文带来的计算和内存挑战？
vLLM的KV Cache管理是如何工作的？如果优化推理系统，你会从哪些方面入手？
你是如何将一个子系统从方案设计到工程落地的？举个具体例子
如果Agent在多轮交互中表现不稳定，你会如何分析并改进？
复习强化学习基础（PPO、GRPO）和大模型训练/推理的核心技术栈

职位点评

综合评分

前沿Agentic RL技术岗，高成长高挑战，薪资优厚但工作强度可能较大。

更适合这类人

适合追求技术成长、愿意迎接高难度挑战、对AI基础设施和创新有热情的工程师。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值70

薪资福利

75中等

该职位薪资处于互联网大厂高端水平，但未提及具体福利，补偿动机满足较好。

薪资信号未披露（AI估算：35K-55K/月）

成长发展

90较高

职位涉及前沿技术（Agentic RL、训推一体），挑战性高，成长空间大，发展动机得到强烈满足。

技术前沿前沿/新兴技术

技术栈强化学习、PPO、GRPO、vLLM、SGLang、Agent、大模型训练、推理优化

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作或WLB，且互联网公司AI岗位通常强度较大，生活动机满足有限。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

内容安全场景具有社会价值，但职位描述更侧重技术攻坚，使命动机中等。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

Watch Jobs

小红书

模型开发工程师

立即应聘

模型开发工程师

发布于大约 2 个月前

普通员工/个人贡献者

杭州市 / 上海市

高级经验

全职员工

仅现场办公

学历未注明

软件工程

Grpo

大模型训练

强化学习

推理优化

深度学习框架

PPO

SGLang

vLLM

AI 估算 · 35k–55k

该职位要求高级AI系统经验，属前沿技术岗，市场稀缺，薪资竞争力强，参考上海/杭州一线互联网大厂水平。

职位详情

关于这个职位

该职位负责小红书内容安全场景下Agentic RL训推一体基础设施的建设，涉及训练框架、推理系统、Agent执行框架等核心子系统

你将主导多轮轨迹建模、长上下文训练优化、强化学习稳定性等复杂问题的技术拆解与落地，推动模型在真实审核场景中的效果与效率提升

这是一个结合模型、系统和Agent的交叉岗位，需要深入框架内核并做出系统级的架构判断

最低要求

理解强化学习核心算法（如 PPO / GRPO 等）及其在大模型或 Agent 场景中的应用，有端到端 Agent 训练或多轮交互系统的实践经验

具备推理优化实战经验，熟悉 vLLM、SGLang 等推理框架，理解 KV Cache、Batching、并行调度等关键机制

工作职责

负责 Agentic RL 训推一体基础设施中一个或多个核心子系统（如训练框架、推理系统、Agent 执行框架等）的设计与落地，并对其长期演进负责

主导复杂问题的技术拆解与方案设计，例如多轮轨迹建模、长上下文训练效率优化、强化学习稳定性提升等，并推动工程实现

构建并优化大模型训练与推理链路，提升系统在真实审核场景下的效果与效率，系统性降低推理成本

推动 Agent 工程体系建设（Tool Use、Multi-Agent 协同、任务编排等），将复杂审核任务抽象为可复用的系统能力

建立训练-评测-推理的闭环反馈机制，推进 Agent 与模型的协同优化（co-optimization）

AI 洞察

优缺点分析

优点

小红书作为大型互联网平台，提供丰富的数据和业务场景，技术落地价值高
团队协作紧密，与算法、产品、工程协同，能快速积累跨领域经验
技术复杂度高，需要同时掌握模型训练、推理优化和系统工程，学习曲线陡峭
岗位处于快速发展阶段，方向可能随业务调整，需要较强的适应能力

缺点 / 挑战

参与前沿的Agentic RL与内容安全结合的项目，技术挑战高，成长空间大
业务场景要求高，需在效果与成本之间平衡，可能面临较大的工程压力
适合具备扎实AI系统背景、热爱挑战、希望在Agent与RL基础设施方向深耕的技术工程师

角色解读

深耕AI基础设施领域，成为训练或推理系统的技术专家
向技术负责人发展，带领团队规划并落地更复杂的系统架构
横向拓展至模型算法、Agent产品等方向，成为AI全栈人才
设计并实现Agentic RL训推一体基础设施的核心子系统，如训练框架与推理系统
主导多轮轨迹建模、长上下文训练优化等复杂技术问题的方案设计与工程落地
优化大模型训练与推理链路，提升系统效果并降低推理成本
推进Agent工程体系建设，包括Tool Use、多Agent协同及任务编排
扎实的工程能力，具备复杂AI系统（训练或推理）从0到1的完整落地经验
深入理解强化学习算法（如PPO/GRPO）及其在大模型或Agent场景的应用
熟悉推理优化，掌握vLLM、SGLang等框架及KV Cache、Batching等机制
具备系统级架构判断力，能深入框架内核进行定制化改造

申请策略

简历中量化过往项目的效果提升（如训练加速比、推理成本降低百分比等）
提前了解小红书面向内容安全的业务需求，思考Agentic RL的潜在应用场景
突出你在训练或推理框架上的定制改造经验，如修改过PyTorch、vLLM的源码
强调强化学习项目实践，特别是PPO/GRPO在Agent或游戏中的应用
展示系统级设计能力，如你独立负责过的子系统架构与优化成果
如有推理优化相关量化、剪枝、KV Cache等经验，务必重点描述
如果缺乏端到端Agent训练经验，可以自己实现一个简单的RL训练脚本并理解流程
补充对vLLM、SGLang等推理框架的源码理解，特别是调度和显存管理

面试指南

针对系统设计题，采用「问题定义->方案对比->关键设计->trade-off」的结构
对于算法/优化题，先解释原理，再结合具体场景的瓶颈，最后给出可选方案和取舍
请描述你如何设计一个Agentic RL的训练-推理闭环系统？
在PPO算法中，如何处理长上下文带来的计算和内存挑战？
vLLM的KV Cache管理是如何工作的？如果优化推理系统，你会从哪些方面入手？
你是如何将一个子系统从方案设计到工程落地的？举个具体例子
如果Agent在多轮交互中表现不稳定，你会如何分析并改进？
复习强化学习基础（PPO、GRPO）和大模型训练/推理的核心技术栈

职位点评

综合评分

前沿Agentic RL技术岗，高成长高挑战，薪资优厚但工作强度可能较大。

更适合这类人

适合追求技术成长、愿意迎接高难度挑战、对AI基础设施和创新有热情的工程师。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活40

使命价值70

薪资福利

75中等

该职位薪资处于互联网大厂高端水平，但未提及具体福利，补偿动机满足较好。

薪资信号未披露（AI估算：35K-55K/月）

成长发展

90较高

职位涉及前沿技术（Agentic RL、训推一体），挑战性高，成长空间大，发展动机得到强烈满足。

技术前沿前沿/新兴技术

技术栈强化学习、PPO、GRPO、vLLM、SGLang、Agent、大模型训练、推理优化

业务类型profit_center

工作生活

40较低

仅现场办公，未提及弹性工作或WLB，且互联网公司AI岗位通常强度较大，生活动机满足有限。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

内容安全场景具有社会价值，但职位描述更侧重技术攻坚，使命动机中等。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

Watch Jobs

模型开发工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

模型开发工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

小红书 的其他在招职位

搜索业务/体验设计实习生

衍生品采购实习生

点点AI策略产品经理

【有转正机会】AI客户端开发实习生（前端/Android/iOS/鸿蒙/全栈）

生活记录实习生

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

小红书 的其他在招职位

搜索业务/体验设计实习生

衍生品采购实习生

点点AI策略产品经理

【有转正机会】AI客户端开发实习生（前端/Android/iOS/鸿蒙/全栈）

生活记录实习生

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

小红书的其他在招职位

小红书的其他在招职位