Xiaohongshu logo
小红书
多模态基础模型算法工程师/研究员

多模态基础模型算法工程师/研究员

发布于 1 天前

普通员工/个人贡献者

北京市 / 上海市
高级经验
全职员工
仅现场办公
博士
PyTorch
强化学习
多模态
SFT
视频理解
VLM
RL
Megatron-LM
DeepSpeed

AI 估算 · 50k–80k

高级算法岗,多模态领域稀缺人才,小红书大厂平台,薪资对标一线互联网

职位详情

关于这个职位

加入小红书,你将负责构建多模态基础模型,专注VLM的后训练(SFT/RL)与架构演进,让模型具备深度洞察与推理能力

你将利用小红书独特的图文与短视频数据,赋能搜索、广告、推荐、电商等核心业务场景,推动多模态智能基座的创新

最低要求

深厚的学术背景: 计算机、人工智能、视觉、机器人等相关专业硕士/博士

对主流 VLM 架构(如 LLaVA, Qwen-VL, InternVL)有底层深入理解
卓越的实战经验: 在 MLLM 推理优化、视觉对齐、视频语义理解 或 大规模预训练 领域有深入研究或成功落地经验
硬核的工程能力: 精通 PyTorch,熟悉 Megatron-LM、DeepSpeed 等分布式训练框架,能够处理百亿/千亿级参数模型在大规模集群上的高效训练
数据洞察力: 对高质量多模态数据的构建、清洗及 Automated Data Mixing 策略有独特见解,能从海量无序数据中提炼知识
卓越的评测与诊断能力: 熟悉主流多模态评测集,能够针对业务痛点构建垂直领域的 Benchmark
具备深度的模型表现诊断能力,能通过评测结果反向驱动数据混合(Data Mixing)与算法优化

工作职责

多模态推理与强化学习 (VLM Reasoning & RL): 探索视觉场景下的 Long-thought 推理范式,利用强化学习等技术提升模型在复杂视觉空间、数学、逻辑及长视频序列下的深度推理能力,实现“边看边思考”

极致指令遵循与对齐: 负责 VLM 的 SFT 与 RL 流程,针对小红书复杂图文/视频语义,优化多模态对齐质量,解决模型幻觉问题,提升指令遵循的鲁棒性
超长视频与复杂序列理解: 针对海量视频场景,研发高效的长视频编码与时空注意力机制,优化多帧推理效率,挖掘短视频及直播流中的深层交互语义
多模态Agent: 研发具备视觉反馈与自我修正能力的智能体技术,利用 VLM 驱动复杂工具链调用,探索 VLM 在自动化创作与交互式电商中的应用

优先资格

在 CVPR, ICCV, NeurIPS, ICML, ICLR 等顶会发表过高影响力论文,或在知名开源多模态项目中有核心贡献

AI 洞察

优缺点分析

优点

  • 身处多模态最前沿赛道,技术积累极具竞争力,未来职业选择面广
  • 小红书拥有独特且高质量的多模态数据生态,为模型研发提供天然优势
  • 公司处于C轮后超大型企业阶段,业务稳健且持续增长,平台资源丰富
  • 技术门槛高,需同时掌握VLM、强化学习、分布式训练等多领域知识,学习曲线陡峭
  • 互联网大厂工作强度较大,可能需要应对高负荷的研发迭代节奏
  • 适合追求技术前沿、具备扎实机器学习与工程能力、对多模态和推理有浓厚兴趣的算法工程师或研究员

缺点 / 挑战

  • 工作内容覆盖模型训练、推理优化到业务落地,技术挑战与成就感兼备
  • 模型落地面临工程化与业务结合的双重压力,对算法效果和效率要求严苛

角色解读

  • 技术方向:深耕多模态基础模型,成为VLM领域的顶级专家,主导下一代模型架构设计
  • 业务方向:深入电商、搜索、广告等核心业务,转型为技术+业务复合型人才,影响产品方向
  • 管理方向:带领团队负责多模态模型的全链路研发,晋升为技术总监或首席科学家
  • 负责多模态大模型(VLM)的后训练与对齐,包括SFT和强化学习,提升模型推理与指令遵循能力
  • 研发长视频理解与多模态Agent技术,探索模型在搜索、广告、电商等业务场景的落地
  • 优化分布式训练框架,处理百亿/千亿参数模型的高效训练
  • 构建垂直领域评测基准,通过数据混合与算法迭代驱动模型性能提升
  • 精通主流VLM架构(如LLaVA、Qwen-VL、InternVL),具备底层理解
  • 熟练使用PyTorch及分布式训练框架(Megatron-LM、DeepSpeed),能处理大规模模型训练
  • 擅长多模态数据构建、清洗与自动混合策略
  • 具备较强的问题分析与诊断能力,能够从评测结果反向优化算法

申请策略

  • 在简历中体现对小红书业务的理解,展示技术如何与具体场景结合
  • 提前了解小红书的技术文化,可在面试中探讨多模态模型的落地难点与创新方向
  • 突出参与过的主流VLM项目或论文,尤其是SFT/RL、视频理解、多模态对齐相关经历
  • 展示大规模模型训练经验,如使用Megatron-LM或DeepSpeed训练百亿级模型的成果
  • 强调数据构建与评测方面的贡献,如自建数据集、设计Benchmark等
  • 附上开源项目贡献链接或GitHub主页,体现工程与协作能力
  • 短期可强化RL在VLM中的应用(如GRPO、DPO),并熟悉最新推理范式(如Long-thought)
  • 补充视频理解与时空注意力机制的相关知识,可阅读InternVideo等开源工作

面试指南

  • STAR法则:描述项目背景、任务目标、具体行动与成果,突出技术难点与个人贡献
  • 问题拆解法:对开放性问题先分解为多个子问题,逐一分析并提出方案,同时考虑权衡
  • 对比分析法:在回答技术选择时,比较不同方案的优劣,并给出选择理由
  • 请详细介绍一下你参与过的VLM项目,包括模型架构、训练策略以及最终效果
  • 如何设计一个强化学习流程来提升VLM在复杂视觉推理任务上的表现?
  • 在处理长视频理解时,你会如何平衡计算效率与模型性能?
  • 如果模型在某个垂直业务场景中出现幻觉问题,你会如何定位并解决?
  • 你如何看待当前多模态模型的发展瓶颈?未来有哪些可能的突破方向?

匹配度报告

64
综合匹配度

前沿技术大平台,高成长高挑战,薪资有竞争力但WLB不明

适合人群
适合强烈追求技术成长、愿意投入高强度工作的求职者,不太适合追求工作生活平衡的人。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展95
工作生活30
使命价值70

薪资福利匹配

60中等

JD未披露薪资与福利,但考虑到小红书为大型互联网公司,薪资水平应有竞争力,但具体额度不明确。

薪资信号未披露(AI估算:50K-80K/月)

成长发展匹配

95较高

该职位处于多模态前沿领域,技术栈新、挑战大,能快速积累行业顶尖技能,且公司业务场景丰富,成长空间巨大。

技术前沿前沿/新兴技术
技术栈VLM、强化学习、PyTorch、Megatron-LM、DeepSpeed、SFT、RL、视频理解、Agent
业务类型profit_center

工作生活匹配

30较低

JD未提及工作模式、远程或弹性办公,互联网企业通常强度较高,办公地点为北京上海核心城市,通勤压力大。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

多模态技术是AI发展方向,小红书平台赋能内容创作与电商,具有一定社会价值,但未明确提及使命。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs