米哈游的多模态Pretrain研究实习生-audio方向薪资是多少？

该职位薪资范围为 6k–12k（人民币/月）。

多模态Pretrain研究实习生-audio方向的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

米哈游的多模态Pretrain研究实习生-audio方向有什么任职要求？

该职位要求博士学历及无经验要求工作经验。

米哈游

多模态Pretrain研究实习生-audio方向

立即应聘

多模态Pretrain研究实习生-audio方向

发布于大约 15 小时前

实习/见习

上海市

无经验要求

实习生

仅现场办公

博士

实习与临时职位

语音识别

PyTorch

分布式训练

大模型训练

多模态融合

Audiollm

自监督表征

跨模态注意力

通用音频理解

AI 估算 · 6k–12k

该岗位为研究实习，要求博士在读，具备大模型训练经验，薪资在实习岗位中属中上水平

职位详情

关于这个职位

作为多模态Pretrain研究实习生（音频方向），你将参与构建下一代音频基础模型和Omni多模态框架，专注于通用音频理解模型的研究与开发，探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法，推动audio AI在理解、生成和交互场景中的技术突破

最低要求

计算机科学、人工智能、电子工程等相关博士学历

具备大模型（LLM 或多模态）训练经验，熟悉 Transformer 架构与大规模分布式训练

深入掌握以下至少一方向：通用音频自监督表征（如 Best-RQ, CLAP, wav2vec bert2.0 等）

Omni模型架构和多模态RL

语音识别/情感识别/音乐信息检索算法

精通 Pytorch，具备海量数据处理经验

具备跨时区协作与良好沟通能力，结果导向，责任心强

工作职责

模型架构与训练：负责通用音频理解模型设计与分布式训练优化，实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模

数据管线：设计并落地大规模多模态音频数据 pipeline，完成数据对齐、质量控制与自动标注

跨模态融合：研究音频编码器与大语言模型融合技术，优化跨模态注意力与统一特征表示

优先资格

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文

负责过百万小时级多类型音频数据管理

拥有音频文本跨模态对齐、指令微调或多任务学习实践

在音频 AI 或音乐 AI 领域有开源贡献或技术影响力

AI 洞察

优缺点分析

优点

参与前沿AudioLLM研究，技术含金量高
米哈游平台资源丰富，数据量大，实践机会多
团队氛围学术导向，有利于发表论文和积累成果
涉及多任务统一建模，技术复杂度高
需要跨时区协作，对沟通能力和责任心要求高
适合有志于音频AI研究方向的博士生，具备大模型训练经验，渴望在顶级会议发表论文并推动技术落地的候选人

缺点 / 挑战

要求博士在读，门槛较高，竞争激烈

角色解读

从研究实习生起步，积累音频AI前沿经验，可转为全职研究员
深入多模态大模型领域，未来可成为音频或多模态算法专家
有机会参与顶级会议论文发表，提升学术影响力
设计和训练通用音频理解模型，涵盖语音识别、情感分析、音频问答等任务
构建大规模多模态音频数据pipeline，进行数据对齐、质量控制和自动标注
研究音频编码器与大语言模型的融合技术，优化跨模态注意力机制
扎实的深度学习基础，熟悉Transformer架构和大规模分布式训练
精通PyTorch，具备海量数据处理经验
至少掌握一个音频方向（如自监督表征、多模态RL、语音识别等）

申请策略

提前了解米哈游在音频AI领域的技术布局，准备相关项目案例
展示跨时区协作和独立解决问题的能力
突出大模型或多模态训练经验，尤其是与音频相关的项目
强调PyTorch使用熟练度和海量数据处理能力
列出发表的论文或开源贡献，展示研究深度
补充音频自监督表征或多模态RL相关知识
熟悉分布式训练框架如DeepSpeed、Megatron等

面试指南

STAR法则：描述具体项目背景、任务、行动和结果
对比分析法：指出不同技术的优缺点及适用条件
问题解决思路：说明遇到的困难、分析过程、解决方案及效果
请详细描述你参与过的一个大规模音频模型训练项目
对比CLAP和wav2vec2.0的异同，并说明适用场景
如何设计一个音频-文本跨模态对齐的数据pipeline？
在分布式训练中遇到过哪些挑战？如何解决？
你对Omni多模态模型的理解是什么？有什么改进想法？

职位点评

综合评分

前沿音频AI研究实习，技术成长空间大，但现场办公且WLB信息不明确

更适合这类人

该职位最适合追求技术成长和前沿研究的发展型求职者，对生活工作平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利55

成长发展90

工作生活50

使命价值70

薪资福利

55较低

实习薪资相对固定，但米哈游福利较好，但JD未提及具体薪酬福利，薪资处于实习市场中上水平。

薪资信号未披露（AI估算：6K-12K/月）

成长发展

90较高

该岗位技术前沿，涉及AudioLLM和多模态等热点方向，有论文发表和开源贡献机会，成长性极强。

技术前沿前沿/新兴技术

技术栈AudioLLM、Transformer、分布式训练、多模态、自监督表征

业务类型ambiguous

工作生活

50较低

仅现场办公，未提及弹性工作或WLB，实习性质灵活度一般，但无明确加班信号。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

音频AI在游戏、娱乐领域有广泛应用，技术创新有社会价值，但并非直接改善社会福祉。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

米哈游

多模态Pretrain研究实习生-audio方向

立即应聘

多模态Pretrain研究实习生-audio方向

发布于大约 15 小时前

实习/见习

上海市

无经验要求

实习生

仅现场办公

博士

实习与临时职位

语音识别

PyTorch

分布式训练

大模型训练

多模态融合

Audiollm

自监督表征

跨模态注意力

通用音频理解

AI 估算 · 6k–12k

该岗位为研究实习，要求博士在读，具备大模型训练经验，薪资在实习岗位中属中上水平

职位详情

关于这个职位

最低要求

计算机科学、人工智能、电子工程等相关博士学历

具备大模型（LLM 或多模态）训练经验，熟悉 Transformer 架构与大规模分布式训练

深入掌握以下至少一方向：通用音频自监督表征（如 Best-RQ, CLAP, wav2vec bert2.0 等）

Omni模型架构和多模态RL

语音识别/情感识别/音乐信息检索算法

精通 Pytorch，具备海量数据处理经验

具备跨时区协作与良好沟通能力，结果导向，责任心强

工作职责

模型架构与训练：负责通用音频理解模型设计与分布式训练优化，实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模

数据管线：设计并落地大规模多模态音频数据 pipeline，完成数据对齐、质量控制与自动标注

跨模态融合：研究音频编码器与大语言模型融合技术，优化跨模态注意力与统一特征表示

优先资格

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文

负责过百万小时级多类型音频数据管理

拥有音频文本跨模态对齐、指令微调或多任务学习实践

在音频 AI 或音乐 AI 领域有开源贡献或技术影响力

AI 洞察

优缺点分析

优点

参与前沿AudioLLM研究，技术含金量高
米哈游平台资源丰富，数据量大，实践机会多
团队氛围学术导向，有利于发表论文和积累成果
涉及多任务统一建模，技术复杂度高
需要跨时区协作，对沟通能力和责任心要求高
适合有志于音频AI研究方向的博士生，具备大模型训练经验，渴望在顶级会议发表论文并推动技术落地的候选人

缺点 / 挑战

要求博士在读，门槛较高，竞争激烈

角色解读

从研究实习生起步，积累音频AI前沿经验，可转为全职研究员
深入多模态大模型领域，未来可成为音频或多模态算法专家
有机会参与顶级会议论文发表，提升学术影响力
设计和训练通用音频理解模型，涵盖语音识别、情感分析、音频问答等任务
构建大规模多模态音频数据pipeline，进行数据对齐、质量控制和自动标注
研究音频编码器与大语言模型的融合技术，优化跨模态注意力机制
扎实的深度学习基础，熟悉Transformer架构和大规模分布式训练
精通PyTorch，具备海量数据处理经验
至少掌握一个音频方向（如自监督表征、多模态RL、语音识别等）

申请策略

提前了解米哈游在音频AI领域的技术布局，准备相关项目案例
展示跨时区协作和独立解决问题的能力
突出大模型或多模态训练经验，尤其是与音频相关的项目
强调PyTorch使用熟练度和海量数据处理能力
列出发表的论文或开源贡献，展示研究深度
补充音频自监督表征或多模态RL相关知识
熟悉分布式训练框架如DeepSpeed、Megatron等

面试指南

STAR法则：描述具体项目背景、任务、行动和结果
对比分析法：指出不同技术的优缺点及适用条件
问题解决思路：说明遇到的困难、分析过程、解决方案及效果
请详细描述你参与过的一个大规模音频模型训练项目
对比CLAP和wav2vec2.0的异同，并说明适用场景
如何设计一个音频-文本跨模态对齐的数据pipeline？
在分布式训练中遇到过哪些挑战？如何解决？
你对Omni多模态模型的理解是什么？有什么改进想法？

职位点评

综合评分

前沿音频AI研究实习，技术成长空间大，但现场办公且WLB信息不明确

更适合这类人

该职位最适合追求技术成长和前沿研究的发展型求职者，对生活工作平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利55

成长发展90

工作生活50

使命价值70

薪资福利

55较低

实习薪资相对固定，但米哈游福利较好，但JD未提及具体薪酬福利，薪资处于实习市场中上水平。

薪资信号未披露（AI估算：6K-12K/月）

成长发展

90较高

该岗位技术前沿，涉及AudioLLM和多模态等热点方向，有论文发表和开源贡献机会，成长性极强。

技术前沿前沿/新兴技术

技术栈AudioLLM、Transformer、分布式训练、多模态、自监督表征

业务类型ambiguous

工作生活

50较低

仅现场办公，未提及弹性工作或WLB，实习性质灵活度一般，但无明确加班信号。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

音频AI在游戏、娱乐领域有广泛应用，技术创新有社会价值，但并非直接改善社会福祉。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多模态Pretrain研究实习生-audio方向

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

多模态Pretrain研究实习生-audio方向

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

米哈游 的其他在招职位

招聘HR（第三方编制）

资深美宣插画-星布谷地

语音/歌声生成实习生

多模态算法工程实习生（audio方向）

UGC内容安全专家

相似职位推荐

产品运营实习生-2027届

AIoT研发实习生-2027届

校园大使（线上宣传）

Continuous Improvement Manager

暑期实习生_电子工程师Intern（平湖）

米哈游 的其他在招职位

招聘HR（第三方编制）

资深美宣插画-星布谷地

语音/歌声生成实习生

多模态算法工程实习生（audio方向）

UGC内容安全专家

相似职位推荐

产品运营实习生-2027届

AIoT研发实习生-2027届

校园大使（线上宣传）

Continuous Improvement Manager

暑期实习生_电子工程师Intern（平湖）

米哈游的其他在招职位

米哈游的其他在招职位