多模态Pretrain研究员(audio方向)

🤖 AI 估测:¥45K-80K

发布时间:14 天前

立即应聘

ℹ️关于这个职位

这是一个专注于多模态预训练模型研发的高级研究岗位,尤其侧重音频(Audio)方向
你将负责设计统一的多模态架构、研发高性能神经音频编解码器,并利用海量数据训练超大规模模型,最终优化模型在语音交互中的情感表达与听感质量

工作职责

设计并研发输入输出任意模态(Any-to-Any)的统一架构,重点攻克 Audio-in-Audio-out 的原生建模
研发高性能的神经音频编解码器(Neural Audio Codec),探索连续表征与离散 Token 的最优平衡
利用海量多模态数据(语音、音乐、环境音、视频),负责超大规模参数模型的分布式预训练
探索针对音频模态的指令微调与强化学习算法,优化模型在语音交互中的情感表达、打断机制、副语言(笑声、停顿)以及听感质量

最低要求

计算机科学、人工智能、电子工程等相关博士学历
具备大模型(LLM 或多模态)训练经验,深入理解 Transformer 架构及分布式训练框架(Megatron-LM, DeepSpeed,TorchTitan等)
深入掌握以下至少一方向:
Audio/Text Interleaved Pretraining
Multimodal Alignment & RL
End-to-End Speech Dialogue Modeling
精通 Pytorch,具备海量数据处理经验
具备跨时区协作与良好沟通能力,结果导向,责任心强

👍优先资格

在 NeurIPS/ICML/ICASSP/ISMIR 等顶级会议发表论文
负责过百万小时级 (或以上) 多类型音频数据管理
曾核心参与过工业级 Omni / Multimodal Foundation Model