米哈游的多模态Pretrain研究员（audio方向）薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

多模态Pretrain研究员（audio方向）的工作地点在哪里？

该职位工作地点位于上海市、北京市。工作形式为仅现场办公。

该职位要求博士学历及专家级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：14 天前

这是一个专注于多模态预训练模型研发的高级研究岗位，尤其侧重音频（Audio）方向

你将负责设计统一的多模态架构、研发高性能神经音频编解码器，并利用海量数据训练超大规模模型，最终优化模型在语音交互中的情感表达与听感质量

设计并研发输入输出任意模态（Any-to-Any）的统一架构，重点攻克 Audio-in-Audio-out 的原生建模

研发高性能的神经音频编解码器（Neural Audio Codec），探索连续表征与离散 Token 的最优平衡

利用海量多模态数据（语音、音乐、环境音、视频），负责超大规模参数模型的分布式预训练

探索针对音频模态的指令微调与强化学习算法，优化模型在语音交互中的情感表达、打断机制、副语言（笑声、停顿）以及听感质量

计算机科学、人工智能、电子工程等相关博士学历

具备大模型（LLM 或多模态）训练经验，深入理解 Transformer 架构及分布式训练框架（Megatron-LM, DeepSpeed，TorchTitan等）

深入掌握以下至少一方向：

Audio/Text Interleaved Pretraining

Multimodal Alignment & RL

End-to-End Speech Dialogue Modeling

精通 Pytorch，具备海量数据处理经验

具备跨时区协作与良好沟通能力，结果导向，责任心强

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文

负责过百万小时级 (或以上) 多类型音频数据管理

曾核心参与过工业级 Omni / Multimodal Foundation Model