Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Xiaomi logo
小米
顶尖应届-视觉理解大模型算法工程师-大模型
立即应聘

顶尖应届-视觉理解大模型算法工程师-大模型

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
博士
研究与开发 (研发)
PyTorch
多模态大模型
世界模型
Agent系统
Gui Agent
视觉理解
图像推理
长视频理解

AI 估算 · 22k–30k

顶尖博士算法岗位,大模型方向人才稀缺,小米薪资有竞争力,综合市场行情估算。

职位详情

关于这个职位

该职位面向顶尖应届博士,专注于视觉理解和推理的大模型算法研究,包括图像与视频理解、美学空间理解、世界模型及基于视觉的Agent系统

你将与行业顶尖团队合作,参与前沿技术探索,在小米的平台上推动多模态大模型的落地与创新
适合对视觉AI有深厚兴趣、渴望在学术与工业界持续成长的候选人

最低要求

博士学历,计算机、人工智能、机器学习、电子信息、自动化、数学等相关专业,多模态大模型等相关方向

具备丰富的多模态大模型、对多模态大模型有深入理解
具备优秀的编程能力,熟练掌握PyTorch等至少一门深度学习框架,熟练掌握Python或C++等至少一门编程语言
具备良好的团队合作精神

工作职责

参与研究视觉理解和推理的核心技术,包括图像理解与推理、长视频理解与推理、美学理解、空间理解、世界模型等

参与基于视觉理解的Agent系统研发探索,包括GUI Agent等

优先资格

在Interspeech/ICASSP/AAAI/NeurIPS / ICLR / ICML等顶会发表过多模态大模型或深度强化学习方向高水平论文,或以主力身份参加相关领域主流算法竞赛且取得优秀成绩者,优先

在ACM/ICPC、CodeForces、IOI/NOI/NOIP/CSP等编程算法竞赛中获得优秀成绩者,优先

AI 洞察

优缺点分析

优点

  • 加入小米大模型团队,接触亿级用户场景,研究成果可快速落地
  • 与领域内顶尖博士同事共事,技术氛围浓厚,学习成长极快
  • 大模型方向为行业热点,人才稀缺,职业发展空间广阔,薪资优厚
  • 对数学、编程和论文写作能力要求极高,需要不断自我驱动学习
  • 适合热爱探索视觉AI前沿、有扎实算法功底和强自驱力的应届博士,希望在工业界实现技术突破

缺点 / 挑战

  • 研究压力大,需要持续跟踪前沿论文并快速实验迭代,保持竞争力
  • 工作强度较高,项目周期紧张,可能需要应对快速变化的技术方向

角色解读

  • 从算法研究员成长为多模态领域的专家,主导核心方向的技术突破
  • 向技术Leader发展,带领团队攻关视觉理解前沿课题
  • 横向扩展至其他AI领域(如强化学习、自然语言处理),成为全能型AI科学家
  • 研究并改进视觉理解和推理的核心算法,涵盖图像、视频、美学、空间及世界模型等多模态方向
  • 探索基于视觉理解的Agent系统,如GUI Agent,实现复杂交互任务的智能化
  • 与团队成员协作,将研究成果落地到小米实际产品中,提升用户体验
  • 扎实的计算机视觉和多模态大模型理论知识,熟悉主流模型架构(如ViT、CLIP、LLaVA等)
  • 熟练使用PyTorch等深度学习框架,具备Python/C++编程能力,能高效实现和调试算法
  • 有顶会论文发表或顶级算法竞赛经历,证明独立研究和技术攻坚能力

申请策略

  • 提前了解小米AI团队的技术方向(如Xiaomi AI Lab),在面试中展现与之匹配的兴趣
  • 准备一个5分钟左右的博士研究亮点展示,突出创新性和影响力
  • 重点突出多模态大模型相关的研究经历,列出具体论文、项目及创新点
  • 展示编程能力和框架熟练度,可附GitHub链接或竞赛成绩
  • 如果有Agent系统或视觉推理的实践经历,务必详细描述
  • 补充强化学习或世界模型相关知识,了解Sora类模型原理
  • 刷题准备编程算法面试(LeetCode Hard级别),熟悉PyTorch分布式训练

面试指南

  • 针对研究类问题:先阐述问题背景和现有不足,再说明你的方法创新点与实验验证,最后总结贡献和改进方向
  • 针对设计类问题:明确任务目标,分析难点,给出技术选型理由,考虑效率与效果平衡,并设想评估方案
  • 请详细介绍一下你参与的多模态大模型项目,你负责的部分和关键技术决策
  • 如何理解视觉推理中的空间关系?请设计一个模型来解决该问题
  • 面对一个长视频理解任务,你会如何设计模型架构和训练策略?
  • 请手写一道代码题:实现Transformer中的Multi-head Attention
  • 复习多模态经典论文(如CLIP、BLIP、LLaVA、Flamingo等),理解核心机制和局限性
  • 准备2-3个高质量项目案例,包括背景、挑战、方案、结果,突出你的思考深度

匹配度报告

71
综合匹配度

前沿大模型算法岗,顶尖技术团队,薪资优厚,但工作强度大,WLB一般。

适合人群
最适合追求技术成长、看重职业发展且能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值80

薪资福利匹配

70中等

薪资属于顶级水平,福利保障完善,但具体金额未披露,且工作强度较大。

薪资信号未披露(AI估算:22K-30K/月)

成长发展匹配

95较高

大模型为前沿技术,研究空间大,公司重视人才培养,晋升通道明确。

技术前沿前沿/新兴技术
技术栈多模态大模型、视觉理解、Agent、PyTorch、世界模型
业务类型profit_center

工作生活匹配

40较低

北京现场办公,通勤时间较长,互联网企业普遍有加班文化,JD未提及弹性工作。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

视觉理解是AI关键领域,研究成果可赋能智能设备、医疗、自动驾驶等多行业,社会价值较高。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 顶尖应届-Linux内核优化研究员(存储优化)-软件

    小米 · 北京市
    AI 估算 · 30k-50k
  • 顶尖应届-多模态大模型算法研究员-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-动力大数据AI算法工程师-整车

    小米 · 南京市
    AI 估算 · 20k-30k
  • 顶尖应届-感知大模型算法工程师-自动驾驶

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-垂域Agentic大模型算法工程师-AI实验室

    小米 · 北京市
    AI 估算 · 25k-45k

小米 的其他在招职位

  • 顶尖应届-Linux内核优化研究员(存储优化)-软件

    小米 · 北京市
    AI 估算 · 30k-50k
  • 顶尖应届-多模态大模型算法研究员-MiMo

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-动力大数据AI算法工程师-整车

    小米 · 南京市
    AI 估算 · 20k-30k
  • 顶尖应届-感知大模型算法工程师-自动驾驶

    小米 · 北京市
    AI 估算 · 20k-30k
  • 顶尖应届-垂域Agentic大模型算法工程师-AI实验室

    小米 · 北京市
    AI 估算 · 25k-45k