小米的顶尖应届-全模态理解和推理大模型算法工程师-大模型薪资是多少？

该职位薪资范围为 35k–55k（人民币/月）。

顶尖应届-全模态理解和推理大模型算法工程师-大模型的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求博士学历及无经验要求工作经验。

🤖 AI 估测：¥35K-55K

发布时间：29 天前

这是一个面向顶尖应届博士生的算法工程师职位，专注于研发端到端的全模态（文本、图像、视频、语音）理解和推理大模型

你将负责在模型结构、对齐策略、多模态融合等前沿方向进行创新，并将研究成果应用于小米的手机、汽车、生态链等核心业务场景，旨在提升产品的智能体验和竞争力

研发端到端全模态理解和推理大模型核心技术，在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强（关系推理、因果推理、常识推理）等方面做出创新突破，达到业内一流

研发视觉理解和推理大模型核心技术，在图像理解，视频理解，视觉推理能力增强（关系推理、因果推理、常识推理），GUI屏幕感知和推理、端到端图像翻译等方向创新突破，达到业内一流

优化语音识别大模型的上下文感知能力，通过送入交互历史信息提升语音识别准确率

优化语音识别大模型的热词感知能力，通过送入相关热词提升语音识别准确率

优化语音多模态理解大模型的SpeechEncoder，提升语音理解大模型的语音理解能力和声音理解能力，包括语音内容、情感、性别、声音事件、音乐风格等

在用户跟智能体对话的过程中，检测用户的表达完整性，从而加快系统响应速度且不带来更多的误截断

在语音对话模型中，检测用户交互的对象，从而提升打断的有效性和系统交互的响应速度

端到端全模态理解和推理、视觉理解、语音理解等，建立比较广泛的业界影响力，论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等

端到端全模态理解和推理、视觉理解、语音理解等，落地在小米核心业务场景，提升核心产品竞争力和用户智能体验，包括手机（OS/小爱）、汽车、生态链等

博士学历，计算机、人工智能、机器学习、电子信息、自动化、数学等相关专业，多模态大模型、计算机视觉、语音理解等相关方向

具备丰富的多模态大模型、或视觉理解、或语音理解经验，对多模态大模型、视觉理解、语音理解、全模态理解等有深入理解

具备优秀的编程能力，熟练掌握PyTorch等至少一门深度学习框架，熟练掌握Python或C++等至少一门编程语言

具备良好的团队合作精神

在CVPR / ICCV / ECCV / NeurIPS / ICLR / ICML等顶会发表过多模态大模型或深度强化学习方向高水平论文，或以主力身份参加相关领域主流算法竞赛且取得优秀成绩者，优先

在ACM/ICPC、CodeForces、IOI/NOI/NOIP/CSP等编程算法竞赛中获得优秀成绩者，优先

顶尖应届-全模态理解和推理大模型算法工程师-大模型

🤖 AI 估测：¥35K-55K

发布时间：29 天前