米哈游的通用音频生成研究员薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

通用音频生成研究员的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

该职位要求博士学历及专家级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：14 天前

这是一个专注于前沿音频AI技术的研究岗位

你将负责下一代统一音频生成模型（涵盖语音、歌声、音乐、音效）的研究与开发，探索大语言模型与音频生成的融合，并参与构建大规模多模态数据集

职位要求具备深厚的AI模型研发背景和工程能力，是推动音频生成技术突破的核心角色

工作职责: 专注于统一音频生成模型的研究与开发，参与构建下一代语音、歌声、音乐、音效等多类型音频生成基础模型，探索大语言模型与音频生成的深度技术融合以及音频-视频联合生成，推动audio AI在语音/歌声合成、音乐创作、音效生成、视频配音等场景的技术突破

核心职责

模型架构与训练：负责统一音频生成模型设计与分布式优化，实现语音/歌声合成+音效生成+音视频联合生成的多任务统一建模

Audio Tokenization：研究连续/离散token的音频表征，优化压缩效率与重建质量的最优平衡

跨模态融合：探索大语言模型与音频生成融合技术

数据管线：参与设计并落地大规模高质量多模态生成数据集，覆盖语音、歌声、音乐、音效及音视频同步数据处理pipeline

学历背景：计算机科学、人工智能、电子工程等相关专业博士学位或同等工程经验

模型经验：具备大模型（LLM/生成模型）训练经验，熟悉分布式训练与大规模模型优化技术

深入掌握以下至少一个方向：

语音/歌声生成技术（TTS / SVS）

音频生成技术（text2audio）

连续和离散的Audio tokenization技术

音视频联合生成与跨模态时序同步技术

工程能力：精通Python与PyTorch，具备百万小时级数据处理与高效训练经验

协作能力：具备跨时区国际团队协作经验，结果导向，自驱力强，沟通表达能力优秀

在NeurIPS/ICML/ICLR等顶级会议发表高质量论文

拥有LLM与音频/视频生成融合的项目经验，理解跨模态同步生成的技术挑战

深入研究Vector Quantization/Residual VQ/Finite Scalar Quantization等tokenization前沿技术

在音频生成/视频生成/多模态AI领域有开源贡献或技术影响力

通用音频生成研究员

🤖 AI 估测：¥45K-80K

发布时间：14 天前