Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/米哈游/多模态Pretrain研究员(audio方向)
miHoYo logo
m
米哈游 (miHoYo)

职位信息

上海市
专家级经验
全职员工
仅现场办公
博士
普通员工/个人贡献者

标签

PyTorch强化学习音频处理分布式训练Megatron-LMDeepSpeed多模态预训练神经音频编解码器
💡

核心评价

顶尖游戏公司的前沿AI研究岗,技术挑战巨大,成长空间广阔,薪资竞争力强,但WLB未知。

多模态Pretrain研究员(audio方向)

🤖 AI 估测:¥45K-80K

发布时间:14 天前

立即应聘

ℹ️关于这个职位

这是一个专注于多模态预训练模型研发的高级研究岗位,尤其侧重音频方向
你将负责设计统一的多模态架构,研发高性能神经音频编解码器,并利用海量数据训练超大规模模型
核心目标是攻克音频原生建模、情感表达优化等前沿技术难题,推动下一代智能语音交互系统的发展

✓工作职责

设计并研发输入输出任意模态(Any-to-Any)的统一架构,重点攻克 Audio-in-Audio-out 的原生建模
研发高性能的神经音频编解码器(Neural Audio Codec),探索连续表征与离散 Token 的最优平衡
利用海量多模态数据(语音、音乐、环境音、视频),负责超大规模参数模型的分布式预训练
探索针对音频模态的指令微调与强化学习算法,优化模型在语音交互中的情感表达、打断机制、副语言(笑声、停顿)以及听感质量

⭐最低要求

计算机科学、人工智能、电子工程等相关博士学历
具备大模型(LLM 或多模态)训练经验,深入理解 Transformer 架构及分布式训练框架(Megatron-LM, DeepSpeed,TorchTitan 等)
深入掌握以下至少一方向:
Audio/Text Interleaved Pretraining
Multimodal Alignment & RL
End-to-End Speech Dialogue Modeling
精通 Pytorch,具备海量数据处理经验
具备跨时区协作与良好沟通能力,结果导向,责任心强

👍优先资格

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文
负责过百万小时级 (或以上) 多类型音频数据管理
曾核心参与过工业级 Omni / Multimodal Foundation Model
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 业务助理

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划(社交)-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 版本运营-星布谷地

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 资深市场公关(媒体关系方向)-原神

    米哈游

    上海市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公