智谱的AI 院--多模态音频团队--音频生成算法工程师（社招）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

AI 院--多模态音频团队--音频生成算法工程师（社招）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：19 天前

这是一个专注于多模态音频生成算法的工程师职位

你将负责在Agent场景下，进行音频理解与生成算法的研究、训练和应用落地，具体涉及上下文感知的语音识别、指令控制的语音合成以及全模态理解等前沿方向

同时，你还需要负责模型的大规模分布式训练和高性能推理优化

负责agent场景下的多模态理解、生成算法研究、训练、应用，包括但不限于context-aware ASR、指令控制TTS、omni understanding等

负责模型的多机多卡训练、高性能推理等

硕士及以上学历，计算机、数学、通信等相关专业

具备良好的学习能力、逻辑思维能力、沟通协作能力

有三年及以上语音合成、语音识别算法经验，或三篇及以上顶会论文（各类CCF-A会、ICASSP/INTERSPEECH等）

熟练使用Python和Pytorch/Tensorflow深度学习框架

对以下至少一种熟悉并有相关经验：

1）语音大模型的框架&理论，包括但不限于Diffusion、Vall-E/SpearTTS/AudioLM、MusicLM

2）音频理解大模型/ASR大模型，包括但不限于qwen-audio、sensevoice、whisper等

3）熟悉omni多模态大模型，包括但不限于qwen-omni、mimo-omni、Step‑Audio、Covo‑Audio等

有业务落地工程经验优先

AI 院--多模态音频团队--音频生成算法工程师（社招）

🤖 AI 估测：¥35K-60K

发布时间：19 天前