Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

miHoYo logo
米哈游
多模态Pretrain研究实习生-audio方向
立即应聘

多模态Pretrain研究实习生-audio方向

发布于 大约 15 小时前

实习/见习

上海市
无经验要求
实习生
仅现场办公
博士
实习与临时职位
语音识别
PyTorch
分布式训练
大模型训练
多模态融合
Audiollm
自监督表征
跨模态注意力
通用音频理解

AI 估算 · 6k–12k

该岗位为研究实习,要求博士在读,具备大模型训练经验,薪资在实习岗位中属中上水平

职位详情

关于这个职位

作为多模态Pretrain研究实习生(音频方向),你将参与构建下一代音频基础模型和Omni多模态框架,专注于通用音频理解模型的研究与开发,探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法,推动audio AI在理解、生成和交互场景中的技术突破

最低要求

计算机科学、人工智能、电子工程等相关博士学历

具备大模型(LLM 或多模态)训练经验,熟悉 Transformer 架构与大规模分布式训练
深入掌握以下至少一方向:通用音频自监督表征(如 Best-RQ, CLAP, wav2vec bert2.0 等)
Omni模型架构和多模态RL
语音识别/情感识别/音乐信息检索算法
精通 Pytorch,具备海量数据处理经验
具备跨时区协作与良好沟通能力,结果导向,责任心强

工作职责

模型架构与训练:负责通用音频理解模型设计与分布式训练优化,实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模

数据管线:设计并落地大规模多模态音频数据 pipeline,完成数据对齐、质量控制与自动标注
跨模态融合:研究音频编码器与大语言模型融合技术,优化跨模态注意力与统一特征表示

优先资格

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文

负责过百万小时级多类型音频数据管理
拥有音频文本跨模态对齐、指令微调或多任务学习实践
在音频 AI 或音乐 AI 领域有开源贡献或技术影响力

AI 洞察

优缺点分析

优点

  • 参与前沿AudioLLM研究,技术含金量高
  • 米哈游平台资源丰富,数据量大,实践机会多
  • 团队氛围学术导向,有利于发表论文和积累成果
  • 涉及多任务统一建模,技术复杂度高
  • 需要跨时区协作,对沟通能力和责任心要求高
  • 适合有志于音频AI研究方向的博士生,具备大模型训练经验,渴望在顶级会议发表论文并推动技术落地的候选人

缺点 / 挑战

  • 要求博士在读,门槛较高,竞争激烈

角色解读

  • 从研究实习生起步,积累音频AI前沿经验,可转为全职研究员
  • 深入多模态大模型领域,未来可成为音频或多模态算法专家
  • 有机会参与顶级会议论文发表,提升学术影响力
  • 设计和训练通用音频理解模型,涵盖语音识别、情感分析、音频问答等任务
  • 构建大规模多模态音频数据pipeline,进行数据对齐、质量控制和自动标注
  • 研究音频编码器与大语言模型的融合技术,优化跨模态注意力机制
  • 扎实的深度学习基础,熟悉Transformer架构和大规模分布式训练
  • 精通PyTorch,具备海量数据处理经验
  • 至少掌握一个音频方向(如自监督表征、多模态RL、语音识别等)

申请策略

  • 提前了解米哈游在音频AI领域的技术布局,准备相关项目案例
  • 展示跨时区协作和独立解决问题的能力
  • 突出大模型或多模态训练经验,尤其是与音频相关的项目
  • 强调PyTorch使用熟练度和海量数据处理能力
  • 列出发表的论文或开源贡献,展示研究深度
  • 补充音频自监督表征或多模态RL相关知识
  • 熟悉分布式训练框架如DeepSpeed、Megatron等

面试指南

  • STAR法则:描述具体项目背景、任务、行动和结果
  • 对比分析法:指出不同技术的优缺点及适用条件
  • 问题解决思路:说明遇到的困难、分析过程、解决方案及效果
  • 请详细描述你参与过的一个大规模音频模型训练项目
  • 对比CLAP和wav2vec2.0的异同,并说明适用场景
  • 如何设计一个音频-文本跨模态对齐的数据pipeline?
  • 在分布式训练中遇到过哪些挑战?如何解决?
  • 你对Omni多模态模型的理解是什么?有什么改进想法?

职位点评

66
综合评分

前沿音频AI研究实习,技术成长空间大,但现场办公且WLB信息不明确

更适合这类人
该职位最适合追求技术成长和前沿研究的发展型求职者,对生活工作平衡要求不高。
表现最好
成长发展
相对薄弱
工作生活
薪资福利55
成长发展90
工作生活50
使命价值70

薪资福利

55较低

实习薪资相对固定,但米哈游福利较好,但JD未提及具体薪酬福利,薪资处于实习市场中上水平。

薪资信号未披露(AI估算:6K-12K/月)

成长发展

90较高

该岗位技术前沿,涉及AudioLLM和多模态等热点方向,有论文发表和开源贡献机会,成长性极强。

技术前沿前沿/新兴技术
技术栈AudioLLM、Transformer、分布式训练、多模态、自监督表征
业务类型ambiguous

工作生活

50较低

仅现场办公,未提及弹性工作或WLB,实习性质灵活度一般,但无明确加班信号。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

音频AI在游戏、娱乐领域有广泛应用,技术创新有社会价值,但并非直接改善社会福祉。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 招聘HR(第三方编制)

    米哈游 · 上海市
    AI 估算 · 8k-15k
  • 资深美宣插画-星布谷地

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 语音/歌声生成实习生

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 多模态算法工程实习生(audio方向)

    米哈游 · 上海市
    AI 估算 · 6k-12k
  • UGC内容安全专家

    米哈游 · 上海市
    AI 估算 · 20k-35k

相似职位推荐

  • 产品运营实习生-2027届

    小米 · 南京市
    AI 估算 · 3k-6k
  • AIoT研发实习生-2027届

    小米 · 北京市
    AI 估算 · 4k-6k
  • 校园大使(线上宣传)

    希音 · 广州市
    AI 估算 · 0k-1k
  • Continuous Improvement Manager

    赛诺菲 · 成都市
    AI 估算 · 2k-4k
  • 暑期实习生_电子工程师Intern(平湖)

    舍弗勒 · 嘉兴市
    AI 估算 · 3k-5k

米哈游 的其他在招职位

  • 招聘HR(第三方编制)

    米哈游 · 上海市
    AI 估算 · 8k-15k
  • 资深美宣插画-星布谷地

    米哈游 · 上海市
    AI 估算 · 20k-40k
  • 语音/歌声生成实习生

    米哈游 · 上海市
    AI 估算 · 4k-8k
  • 多模态算法工程实习生(audio方向)

    米哈游 · 上海市
    AI 估算 · 6k-12k
  • UGC内容安全专家

    米哈游 · 上海市
    AI 估算 · 20k-35k

相似职位推荐

  • 产品运营实习生-2027届

    小米 · 南京市
    AI 估算 · 3k-6k
  • AIoT研发实习生-2027届

    小米 · 北京市
    AI 估算 · 4k-6k
  • 校园大使(线上宣传)

    希音 · 广州市
    AI 估算 · 0k-1k
  • Continuous Improvement Manager

    赛诺菲 · 成都市
    AI 估算 · 2k-4k
  • 暑期实习生_电子工程师Intern(平湖)

    舍弗勒 · 嘉兴市
    AI 估算 · 3k-5k