米哈游的通用音频理解大模型研究员薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

通用音频理解大模型研究员的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

该职位要求博士学历及专家级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：14 天前

该职位是米哈游的通用音频理解大模型研究员，专注于AudioLLM等下一代音频基础模型的研究与开发

你将负责探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法，推动音频AI在理解、生成和交互场景中的技术突破

这是一个面向顶尖博士、要求具备大模型训练经验的前沿研究岗位

工作职责: 专注于AudioLLM通用音频理解模型的研究与开发，参与构建下一代音频基础模型和Omni多模态框架，探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法，推动 audio AI 在理解、生成和交互场景中的技术突破

核心职责

模型架构与训练：负责通用音频理解模型设计与分布式训练优化，实现语音识别、说话人日志、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模

数据管线：设计并落地大规模多模态音频数据 pipeline，完成数据对齐、质量控制与自动标注

跨模态融合：研究音频编码器与大语言模型融合技术，优化跨模态注意力与统一特征表示

计算机科学、人工智能、电子工程等相关博士学历

具备大模型（LLM 或多模态）训练经验，熟悉 Transformer 架构与大规模分布式训练框架（Megatron-LM, DeepSpeed，TorchTitan 等）

深入掌握以下至少一方向：

通用音频自监督表征，如 Best-RQ, CLAP, wav2vec bert2.0 等

音频多模型架构、预训练、后训练以及RL

语音识别/说话人日志/情感识别/音乐信息/检索算法

精通 Pytorch，具备海量数据处理经验

具备跨时区协作与良好沟通能力，结果导向，责任心强

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文

负责过百万小时级 (或以上) 多类型音频数据管理

拥有音频文本跨模态对齐、指令微调或多任务学习实践

曾核心参与过工业级 Multimodal Foundation Model

通用音频理解大模型研究员

🤖 AI 估测：¥45K-80K

发布时间：14 天前