小红书的多模态基础模型实习生薪资是多少？

该职位薪资范围为 4k–9k（人民币/月）。

多模态基础模型实习生的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

小红书的多模态基础模型实习生有什么任职要求？

该职位要求本科学历及无经验要求工作经验。

小红书

多模态基础模型实习生

立即应聘

多模态基础模型实习生

发布于大约 2 个月前

实习/见习

北京市 / 上海市

无经验要求

实习生

仅现场办公

本科

实习与临时职位

PyTorch

VLM

Megatron-LM

DeepSpeed

Qwen-VL

MLLM

Llava

Internvl

AI 估算 · 4k–9k

技术难度高，公司平台大，实习薪资有竞争力，参考北京/上海大厂实习生标准。

职位详情

关于这个职位

该职位是小红的书多模态基础模型实习生，负责视觉语言模型（VLM）的后训练（SFT/RL）与架构演进，将模型能力赋能搜索、广告、推荐等业务

你将参与大规模VLM的预训练、微调和强化学习，探索多模态理解与推理前沿

适合对多模态AI有浓厚兴趣、技术扎实的在校生

最低要求

专业背景：计算机、自动化、数学等相关专业在读，对多模态方向有浓厚兴趣

技术功底：编程基础扎实，精通 Python，熟练掌握 PyTorch 框架，有分布式训练（DeepSpeed/Megatron-LM）经验者大加分

算法理解：熟悉主流 VLM 架构（如 LLaVA, Qwen-VL, InternVL 等）及训练策略，对 Transformer 机制有深度理解

实习要求：能长期实习，至少 4个月以上，每周出勤 4天及以上，Base 北京

工作职责

核心模型研发：参与大规模视觉语言模型（VLM/MLLM）的预训练、微调和强化学习，优化模型在多模态理解、推理等任务上的表现

数据闭环构建：探索高质量多模态数据的自动化清洗、标注与构造方案，从源头提升模型性能

前沿技术探索：研究 Scaling Law、长文本/长视频理解、多模态 Agent 等前沿方向，保持团队技术领先性

业务落地支撑：将 VLM 基础能力转化并赋能于小红书复杂的社区场景，解决实际的图文/视频理解难题

优先资格

在 CVPR、ICCV、NeurIPS、ICLR 等顶会发表过论文者优先

有大规模数据清洗或基础模型训练经验者优先

AI 洞察

优缺点分析

优点

深度参与VLM核心研发，积累SFT/RL、分布式训练等稀缺技能，职业含金量高
公司为超大型互联网企业，平台成熟，导师资源丰富，适合快速成长
实习薪资在行业中有竞争力，且北京/上海技术氛围浓厚
实习期间工作强度可能较大，需长期投入（至少4个月，每周4天以上）
对动手能力和快速学习能力要求高，需要跟上前沿研究节奏
适合对多模态AI有浓厚兴趣、技术基础扎实、愿意深入研究和实践的计算机相关专业在校生，特别是希望积累大模型领域经验的同学

缺点 / 挑战

小红书拥有独特的图文和短视频数据生态，多模态模型落地场景丰富，技术挑战大
技术门槛较高，需要同时理解计算机视觉和自然语言处理，入门曲线陡峭

角色解读

实习期间可接触前沿多模态技术，积累大模型训练实战经验，为未来攻读博士或进入顶尖AI团队打下基础
表现优秀有机会转正为全职研究员/工程师，参与核心模型研发
未来可向多模态算法专家、AI科学家或技术负责人方向发展，行业需求旺盛
参与大规模视觉语言模型（VLM）的后训练（SFT/RL）和架构改进，提升模型在图文理解、推理等任务上的性能
构建高质量多模态数据的自动化清洗、标注与构造流程，从数据源头优化模型
探索Scaling Law、长视频理解、多模态Agent等前沿方向，推动技术领先
将VLM基础能力落地到小红书搜索、广告、推荐等业务场景，解决实际图文理解难题
扎实的Python编程能力和PyTorch框架使用经验，熟悉分布式训练框架如DeepSpeed或Megatron-LM
深入理解主流VLM架构（LLaVA, Qwen-VL等）和Transformer机制，掌握训练策略
对多模态学习有浓厚兴趣，具备独立研究和问题解决能力
有良好的工程实践能力，能处理大规模数据和高性能计算

申请策略

提前了解小红书的产品和技术特色，在面试中展示你对多模态在社区场景应用的思考
准备好能体现技术深度的项目代码和实验记录，面试时能清晰讲解设计思路
突出多模态相关项目或研究经历，如参与过VLM、多模态理解、图文检索等课题
强调深度学习框架（PyTorch）和分布式训练工具（DeepSpeed/Megatron）的实际使用经验
列出在CVPR、ICCV、NeurIPS等顶会的论文发表情况（如有），或高质量开源项目贡献
详细说明数据清洗、模型训练调优方面的具体成果和量化指标
系统学习主流VLM架构原理，读透LLaVA、Qwen-VL等论文并复现关键模块
动手实践分布式训练，熟悉DeepSpeed的ZeRO优化和Megatron-LM的模型并行

面试指南

结构化叙述：先概述核心思想，再分点阐述方法细节，最后总结效果和挑战
用STAR法则描述项目经历：情境-任务-行动-结果，突出你的贡献和技术难点克服
对于开放性问题，先明确问题定义，从数据、模型、训练三个维度展开分析，展示系统性思维
请介绍一下你最熟悉的一个VLM架构（如LLaVA），包括其设计思路和训练技巧
在训练大模型时，你如何处理分布式训练中的显存和通信瓶颈？请举例说明
如果让你优化一个多模态模型的图文匹配能力，你会从哪些方面入手？
Transformer中的自注意力机制在多模态中如何应用？请解释cross-attention和self-attention的区别
你有过数据清洗或合成的经验吗？如何保证多模态数据质量？

职位点评

综合评分

前沿多模态实习，技术成长极高，但现场办公且时间投入大。

更适合这类人

最适合高度追求技术成长和职业发展的求职者，对WLB要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值85

薪资福利

75中等

实习薪资在行业内处于中上水平，但无明确福利信息，稳定性和长期回报取决于转正机会。

薪资信号偏高 (4K-9K/月)

成长发展

95较高

该职位提供前沿多模态技术实践机会，深度学习与分布式训练技能积累突出，成长空间极大。

技术前沿前沿/新兴技术

技术栈Python、PyTorch、VLM、MLLM、DeepSpeed、Megatron-LM、Transformer、LLaVA、Qwen-VL、InternVL

业务类型profit_center

工作生活

40较低

仅现场办公，要求每周4天以上且至少4个月，通勤和时间投入较大，WLB无明确保障。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

多模态AI是高速增长赛道，技术前景广阔，但社会直接贡献不明显。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

小红书

多模态基础模型实习生

立即应聘

多模态基础模型实习生

发布于大约 2 个月前

实习/见习

北京市 / 上海市

无经验要求

实习生

仅现场办公

本科

实习与临时职位

PyTorch

VLM

Megatron-LM

DeepSpeed

Qwen-VL

MLLM

Llava

Internvl

AI 估算 · 4k–9k

技术难度高，公司平台大，实习薪资有竞争力，参考北京/上海大厂实习生标准。

职位详情

关于这个职位

该职位是小红的书多模态基础模型实习生，负责视觉语言模型（VLM）的后训练（SFT/RL）与架构演进，将模型能力赋能搜索、广告、推荐等业务

你将参与大规模VLM的预训练、微调和强化学习，探索多模态理解与推理前沿

适合对多模态AI有浓厚兴趣、技术扎实的在校生

最低要求

专业背景：计算机、自动化、数学等相关专业在读，对多模态方向有浓厚兴趣

技术功底：编程基础扎实，精通 Python，熟练掌握 PyTorch 框架，有分布式训练（DeepSpeed/Megatron-LM）经验者大加分

算法理解：熟悉主流 VLM 架构（如 LLaVA, Qwen-VL, InternVL 等）及训练策略，对 Transformer 机制有深度理解

实习要求：能长期实习，至少 4个月以上，每周出勤 4天及以上，Base 北京

工作职责

核心模型研发：参与大规模视觉语言模型（VLM/MLLM）的预训练、微调和强化学习，优化模型在多模态理解、推理等任务上的表现

数据闭环构建：探索高质量多模态数据的自动化清洗、标注与构造方案，从源头提升模型性能

前沿技术探索：研究 Scaling Law、长文本/长视频理解、多模态 Agent 等前沿方向，保持团队技术领先性

业务落地支撑：将 VLM 基础能力转化并赋能于小红书复杂的社区场景，解决实际的图文/视频理解难题

优先资格

在 CVPR、ICCV、NeurIPS、ICLR 等顶会发表过论文者优先

有大规模数据清洗或基础模型训练经验者优先

AI 洞察

优缺点分析

优点

深度参与VLM核心研发，积累SFT/RL、分布式训练等稀缺技能，职业含金量高
公司为超大型互联网企业，平台成熟，导师资源丰富，适合快速成长
实习薪资在行业中有竞争力，且北京/上海技术氛围浓厚
实习期间工作强度可能较大，需长期投入（至少4个月，每周4天以上）
对动手能力和快速学习能力要求高，需要跟上前沿研究节奏
适合对多模态AI有浓厚兴趣、技术基础扎实、愿意深入研究和实践的计算机相关专业在校生，特别是希望积累大模型领域经验的同学

缺点 / 挑战

小红书拥有独特的图文和短视频数据生态，多模态模型落地场景丰富，技术挑战大
技术门槛较高，需要同时理解计算机视觉和自然语言处理，入门曲线陡峭

角色解读

实习期间可接触前沿多模态技术，积累大模型训练实战经验，为未来攻读博士或进入顶尖AI团队打下基础
表现优秀有机会转正为全职研究员/工程师，参与核心模型研发
未来可向多模态算法专家、AI科学家或技术负责人方向发展，行业需求旺盛
参与大规模视觉语言模型（VLM）的后训练（SFT/RL）和架构改进，提升模型在图文理解、推理等任务上的性能
构建高质量多模态数据的自动化清洗、标注与构造流程，从数据源头优化模型
探索Scaling Law、长视频理解、多模态Agent等前沿方向，推动技术领先
将VLM基础能力落地到小红书搜索、广告、推荐等业务场景，解决实际图文理解难题
扎实的Python编程能力和PyTorch框架使用经验，熟悉分布式训练框架如DeepSpeed或Megatron-LM
深入理解主流VLM架构（LLaVA, Qwen-VL等）和Transformer机制，掌握训练策略
对多模态学习有浓厚兴趣，具备独立研究和问题解决能力
有良好的工程实践能力，能处理大规模数据和高性能计算

申请策略

提前了解小红书的产品和技术特色，在面试中展示你对多模态在社区场景应用的思考
准备好能体现技术深度的项目代码和实验记录，面试时能清晰讲解设计思路
突出多模态相关项目或研究经历，如参与过VLM、多模态理解、图文检索等课题
强调深度学习框架（PyTorch）和分布式训练工具（DeepSpeed/Megatron）的实际使用经验
列出在CVPR、ICCV、NeurIPS等顶会的论文发表情况（如有），或高质量开源项目贡献
详细说明数据清洗、模型训练调优方面的具体成果和量化指标
系统学习主流VLM架构原理，读透LLaVA、Qwen-VL等论文并复现关键模块
动手实践分布式训练，熟悉DeepSpeed的ZeRO优化和Megatron-LM的模型并行

面试指南

结构化叙述：先概述核心思想，再分点阐述方法细节，最后总结效果和挑战
用STAR法则描述项目经历：情境-任务-行动-结果，突出你的贡献和技术难点克服
对于开放性问题，先明确问题定义，从数据、模型、训练三个维度展开分析，展示系统性思维
请介绍一下你最熟悉的一个VLM架构（如LLaVA），包括其设计思路和训练技巧
在训练大模型时，你如何处理分布式训练中的显存和通信瓶颈？请举例说明
如果让你优化一个多模态模型的图文匹配能力，你会从哪些方面入手？
Transformer中的自注意力机制在多模态中如何应用？请解释cross-attention和self-attention的区别
你有过数据清洗或合成的经验吗？如何保证多模态数据质量？

职位点评

综合评分

前沿多模态实习，技术成长极高，但现场办公且时间投入大。

更适合这类人

最适合高度追求技术成长和职业发展的求职者，对WLB要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值85

薪资福利

75中等

实习薪资在行业内处于中上水平，但无明确福利信息，稳定性和长期回报取决于转正机会。

薪资信号偏高 (4K-9K/月)

成长发展

95较高

该职位提供前沿多模态技术实践机会，深度学习与分布式训练技能积累突出，成长空间极大。

技术前沿前沿/新兴技术

技术栈Python、PyTorch、VLM、MLLM、DeepSpeed、Megatron-LM、Transformer、LLaVA、Qwen-VL、InternVL

业务类型profit_center

工作生活

40较低

仅现场办公，要求每周4天以上且至少4个月，通勤和时间投入较大，WLB无明确保障。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

多模态AI是高速增长赛道，技术前景广阔，但社会直接贡献不明显。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多模态基础模型实习生

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

多模态基础模型实习生

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

小红书 的其他在招职位

大模型 Infra 产品运营

【27届实习】Ray研发工程师

AI Native产品实习生（旅行方向）

社区流量策略数据分析师

高级行政工程经理（职场装修与建设方向）

相似职位推荐

ASR G2 Intern/Trainee

Intern Digital Dashboard Support

ABE - Intern 2

TAX-企业所得税实习生

C++游戏开发培训生

小红书 的其他在招职位

大模型 Infra 产品运营

【27届实习】Ray研发工程师

AI Native产品实习生（旅行方向）

社区流量策略数据分析师

高级行政工程经理（职场装修与建设方向）

相似职位推荐

ASR G2 Intern/Trainee

Intern Digital Dashboard Support

ABE - Intern 2

TAX-企业所得税实习生

C++游戏开发培训生

小红书的其他在招职位

小红书的其他在招职位