小红书的多模态基础模型算法工程师/研究员薪资是多少？

该职位薪资范围为 50k–80k（人民币/月）。

多模态基础模型算法工程师/研究员的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

小红书的多模态基础模型算法工程师/研究员有什么任职要求？

该职位要求博士学历及高级经验工作经验。

小红书

多模态基础模型算法工程师/研究员

立即应聘

多模态基础模型算法工程师/研究员

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 上海市

高级经验

全职员工

仅现场办公

博士

研究与开发 (研发)

PyTorch

强化学习

多模态

SFT

视频理解

VLM

Megatron-LM

DeepSpeed

AI 估算 · 50k–80k

高级算法岗，多模态领域稀缺人才，小红书大厂平台，薪资对标一线互联网

职位详情

关于这个职位

加入小红书，你将负责构建多模态基础模型，专注VLM的后训练（SFT/RL）与架构演进，让模型具备深度洞察与推理能力

你将利用小红书独特的图文与短视频数据，赋能搜索、广告、推荐、电商等核心业务场景，推动多模态智能基座的创新

最低要求

深厚的学术背景：计算机、人工智能、视觉、机器人等相关专业硕士/博士

对主流 VLM 架构（如 LLaVA, Qwen-VL, InternVL）有底层深入理解

卓越的实战经验：在 MLLM 推理优化、视觉对齐、视频语义理解或大规模预训练领域有深入研究或成功落地经验

硬核的工程能力：精通 PyTorch，熟悉 Megatron-LM、DeepSpeed 等分布式训练框架，能够处理百亿/千亿级参数模型在大规模集群上的高效训练

数据洞察力：对高质量多模态数据的构建、清洗及 Automated Data Mixing 策略有独特见解，能从海量无序数据中提炼知识

卓越的评测与诊断能力：熟悉主流多模态评测集，能够针对业务痛点构建垂直领域的 Benchmark

具备深度的模型表现诊断能力，能通过评测结果反向驱动数据混合（Data Mixing）与算法优化

工作职责

多模态推理与强化学习 (VLM Reasoning & RL)：探索视觉场景下的 Long-thought 推理范式，利用强化学习等技术提升模型在复杂视觉空间、数学、逻辑及长视频序列下的深度推理能力，实现“边看边思考”

极致指令遵循与对齐：负责 VLM 的 SFT 与 RL 流程，针对小红书复杂图文/视频语义，优化多模态对齐质量，解决模型幻觉问题，提升指令遵循的鲁棒性

超长视频与复杂序列理解：针对海量视频场景，研发高效的长视频编码与时空注意力机制，优化多帧推理效率，挖掘短视频及直播流中的深层交互语义

多模态Agent：研发具备视觉反馈与自我修正能力的智能体技术，利用 VLM 驱动复杂工具链调用，探索 VLM 在自动化创作与交互式电商中的应用

优先资格

在 CVPR, ICCV, NeurIPS, ICML, ICLR 等顶会发表过高影响力论文，或在知名开源多模态项目中有核心贡献

AI 洞察

优缺点分析

优点

身处多模态最前沿赛道，技术积累极具竞争力，未来职业选择面广
小红书拥有独特且高质量的多模态数据生态，为模型研发提供天然优势
公司处于C轮后超大型企业阶段，业务稳健且持续增长，平台资源丰富
技术门槛高，需同时掌握VLM、强化学习、分布式训练等多领域知识，学习曲线陡峭
互联网大厂工作强度较大，可能需要应对高负荷的研发迭代节奏
适合追求技术前沿、具备扎实机器学习与工程能力、对多模态和推理有浓厚兴趣的算法工程师或研究员

缺点 / 挑战

工作内容覆盖模型训练、推理优化到业务落地，技术挑战与成就感兼备
模型落地面临工程化与业务结合的双重压力，对算法效果和效率要求严苛

角色解读

技术方向：深耕多模态基础模型，成为VLM领域的顶级专家，主导下一代模型架构设计
业务方向：深入电商、搜索、广告等核心业务，转型为技术+业务复合型人才，影响产品方向
管理方向：带领团队负责多模态模型的全链路研发，晋升为技术总监或首席科学家
负责多模态大模型（VLM）的后训练与对齐，包括SFT和强化学习，提升模型推理与指令遵循能力
研发长视频理解与多模态Agent技术，探索模型在搜索、广告、电商等业务场景的落地
优化分布式训练框架，处理百亿/千亿参数模型的高效训练
构建垂直领域评测基准，通过数据混合与算法迭代驱动模型性能提升
精通主流VLM架构（如LLaVA、Qwen-VL、InternVL），具备底层理解
熟练使用PyTorch及分布式训练框架（Megatron-LM、DeepSpeed），能处理大规模模型训练
擅长多模态数据构建、清洗与自动混合策略
具备较强的问题分析与诊断能力，能够从评测结果反向优化算法

申请策略

在简历中体现对小红书业务的理解，展示技术如何与具体场景结合
提前了解小红书的技术文化，可在面试中探讨多模态模型的落地难点与创新方向
突出参与过的主流VLM项目或论文，尤其是SFT/RL、视频理解、多模态对齐相关经历
展示大规模模型训练经验，如使用Megatron-LM或DeepSpeed训练百亿级模型的成果
强调数据构建与评测方面的贡献，如自建数据集、设计Benchmark等
附上开源项目贡献链接或GitHub主页，体现工程与协作能力
短期可强化RL在VLM中的应用（如GRPO、DPO），并熟悉最新推理范式（如Long-thought）
补充视频理解与时空注意力机制的相关知识，可阅读InternVideo等开源工作

面试指南

STAR法则：描述项目背景、任务目标、具体行动与成果，突出技术难点与个人贡献
问题拆解法：对开放性问题先分解为多个子问题，逐一分析并提出方案，同时考虑权衡
对比分析法：在回答技术选择时，比较不同方案的优劣，并给出选择理由
请详细介绍一下你参与过的VLM项目，包括模型架构、训练策略以及最终效果
如何设计一个强化学习流程来提升VLM在复杂视觉推理任务上的表现？
在处理长视频理解时，你会如何平衡计算效率与模型性能？
如果模型在某个垂直业务场景中出现幻觉问题，你会如何定位并解决？
你如何看待当前多模态模型的发展瓶颈？未来有哪些可能的突破方向？

职位点评

综合评分

前沿技术大平台，高成长高挑战，薪资有竞争力但WLB不明

更适合这类人

适合强烈追求技术成长、愿意投入高强度工作的求职者，不太适合追求工作生活平衡的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利60

成长发展95

工作生活30

使命价值70

薪资福利

60中等

JD未披露薪资与福利，但考虑到小红书为大型互联网公司，薪资水平应有竞争力，但具体额度不明确。

薪资信号未披露（AI估算：50K-80K/月）

成长发展

95较高

该职位处于多模态前沿领域，技术栈新、挑战大，能快速积累行业顶尖技能，且公司业务场景丰富，成长空间巨大。

技术前沿前沿/新兴技术

技术栈VLM、强化学习、PyTorch、Megatron-LM、DeepSpeed、SFT、RL、视频理解、Agent

业务类型profit_center

工作生活

30较低

JD未提及工作模式、远程或弹性办公，互联网企业通常强度较高，办公地点为北京上海核心城市，通勤压力大。

工作模式未明确

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

多模态技术是AI发展方向，小红书平台赋能内容创作与电商，具有一定社会价值，但未明确提及使命。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

小红书

多模态基础模型算法工程师/研究员

立即应聘

多模态基础模型算法工程师/研究员

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 上海市

高级经验

全职员工

仅现场办公

博士

研究与开发 (研发)

PyTorch

强化学习

多模态

SFT

视频理解

VLM

Megatron-LM

DeepSpeed

AI 估算 · 50k–80k

高级算法岗，多模态领域稀缺人才，小红书大厂平台，薪资对标一线互联网

职位详情

关于这个职位

加入小红书，你将负责构建多模态基础模型，专注VLM的后训练（SFT/RL）与架构演进，让模型具备深度洞察与推理能力

你将利用小红书独特的图文与短视频数据，赋能搜索、广告、推荐、电商等核心业务场景，推动多模态智能基座的创新

最低要求

深厚的学术背景：计算机、人工智能、视觉、机器人等相关专业硕士/博士

对主流 VLM 架构（如 LLaVA, Qwen-VL, InternVL）有底层深入理解

卓越的实战经验：在 MLLM 推理优化、视觉对齐、视频语义理解或大规模预训练领域有深入研究或成功落地经验

硬核的工程能力：精通 PyTorch，熟悉 Megatron-LM、DeepSpeed 等分布式训练框架，能够处理百亿/千亿级参数模型在大规模集群上的高效训练

数据洞察力：对高质量多模态数据的构建、清洗及 Automated Data Mixing 策略有独特见解，能从海量无序数据中提炼知识

卓越的评测与诊断能力：熟悉主流多模态评测集，能够针对业务痛点构建垂直领域的 Benchmark

具备深度的模型表现诊断能力，能通过评测结果反向驱动数据混合（Data Mixing）与算法优化

工作职责

极致指令遵循与对齐：负责 VLM 的 SFT 与 RL 流程，针对小红书复杂图文/视频语义，优化多模态对齐质量，解决模型幻觉问题，提升指令遵循的鲁棒性

超长视频与复杂序列理解：针对海量视频场景，研发高效的长视频编码与时空注意力机制，优化多帧推理效率，挖掘短视频及直播流中的深层交互语义

多模态Agent：研发具备视觉反馈与自我修正能力的智能体技术，利用 VLM 驱动复杂工具链调用，探索 VLM 在自动化创作与交互式电商中的应用

优先资格

在 CVPR, ICCV, NeurIPS, ICML, ICLR 等顶会发表过高影响力论文，或在知名开源多模态项目中有核心贡献

AI 洞察

优缺点分析

优点

身处多模态最前沿赛道，技术积累极具竞争力，未来职业选择面广
小红书拥有独特且高质量的多模态数据生态，为模型研发提供天然优势
公司处于C轮后超大型企业阶段，业务稳健且持续增长，平台资源丰富
技术门槛高，需同时掌握VLM、强化学习、分布式训练等多领域知识，学习曲线陡峭
互联网大厂工作强度较大，可能需要应对高负荷的研发迭代节奏
适合追求技术前沿、具备扎实机器学习与工程能力、对多模态和推理有浓厚兴趣的算法工程师或研究员

缺点 / 挑战

工作内容覆盖模型训练、推理优化到业务落地，技术挑战与成就感兼备
模型落地面临工程化与业务结合的双重压力，对算法效果和效率要求严苛

角色解读

技术方向：深耕多模态基础模型，成为VLM领域的顶级专家，主导下一代模型架构设计
业务方向：深入电商、搜索、广告等核心业务，转型为技术+业务复合型人才，影响产品方向
管理方向：带领团队负责多模态模型的全链路研发，晋升为技术总监或首席科学家
负责多模态大模型（VLM）的后训练与对齐，包括SFT和强化学习，提升模型推理与指令遵循能力
研发长视频理解与多模态Agent技术，探索模型在搜索、广告、电商等业务场景的落地
优化分布式训练框架，处理百亿/千亿参数模型的高效训练
构建垂直领域评测基准，通过数据混合与算法迭代驱动模型性能提升
精通主流VLM架构（如LLaVA、Qwen-VL、InternVL），具备底层理解
熟练使用PyTorch及分布式训练框架（Megatron-LM、DeepSpeed），能处理大规模模型训练
擅长多模态数据构建、清洗与自动混合策略
具备较强的问题分析与诊断能力，能够从评测结果反向优化算法

申请策略

在简历中体现对小红书业务的理解，展示技术如何与具体场景结合
提前了解小红书的技术文化，可在面试中探讨多模态模型的落地难点与创新方向
突出参与过的主流VLM项目或论文，尤其是SFT/RL、视频理解、多模态对齐相关经历
展示大规模模型训练经验，如使用Megatron-LM或DeepSpeed训练百亿级模型的成果
强调数据构建与评测方面的贡献，如自建数据集、设计Benchmark等
附上开源项目贡献链接或GitHub主页，体现工程与协作能力
短期可强化RL在VLM中的应用（如GRPO、DPO），并熟悉最新推理范式（如Long-thought）
补充视频理解与时空注意力机制的相关知识，可阅读InternVideo等开源工作

面试指南

STAR法则：描述项目背景、任务目标、具体行动与成果，突出技术难点与个人贡献
问题拆解法：对开放性问题先分解为多个子问题，逐一分析并提出方案，同时考虑权衡
对比分析法：在回答技术选择时，比较不同方案的优劣，并给出选择理由
请详细介绍一下你参与过的VLM项目，包括模型架构、训练策略以及最终效果
如何设计一个强化学习流程来提升VLM在复杂视觉推理任务上的表现？
在处理长视频理解时，你会如何平衡计算效率与模型性能？
如果模型在某个垂直业务场景中出现幻觉问题，你会如何定位并解决？
你如何看待当前多模态模型的发展瓶颈？未来有哪些可能的突破方向？

职位点评

综合评分

前沿技术大平台，高成长高挑战，薪资有竞争力但WLB不明

更适合这类人

适合强烈追求技术成长、愿意投入高强度工作的求职者，不太适合追求工作生活平衡的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利60

成长发展95

工作生活30

使命价值70

薪资福利

60中等

JD未披露薪资与福利，但考虑到小红书为大型互联网公司，薪资水平应有竞争力，但具体额度不明确。

薪资信号未披露（AI估算：50K-80K/月）

成长发展

95较高

该职位处于多模态前沿领域，技术栈新、挑战大，能快速积累行业顶尖技能，且公司业务场景丰富，成长空间巨大。

技术前沿前沿/新兴技术

技术栈VLM、强化学习、PyTorch、Megatron-LM、DeepSpeed、SFT、RL、视频理解、Agent

业务类型profit_center

工作生活

30较低

JD未提及工作模式、远程或弹性办公，互联网企业通常强度较高，办公地点为北京上海核心城市，通勤压力大。

工作模式未明确

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

多模态技术是AI发展方向，小红书平台赋能内容创作与电商，具有一定社会价值，但未明确提及使命。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多模态基础模型算法工程师/研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

多模态基础模型算法工程师/研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

小红书 的其他在招职位

情报系统产品经理

体验设计实习生

情报数据分析师

互动直播运营-音乐方向

商业化欧莱雅组平台专家实习生

相似职位推荐

小米汽车-整车海外适应性验证工程师

Diagnostics Test Engineering (AI)

算法工程师-SA1

R&D Intern

人形机器人全身运动控制算法工程师（强化学习方向）

小红书 的其他在招职位

情报系统产品经理

体验设计实习生

情报数据分析师

互动直播运营-音乐方向

商业化欧莱雅组平台专家实习生

相似职位推荐

小米汽车-整车海外适应性验证工程师

Diagnostics Test Engineering (AI)

算法工程师-SA1

R&D Intern

人形机器人全身运动控制算法工程师（强化学习方向）

小红书的其他在招职位

小红书的其他在招职位