Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】音频/语音/音乐AIGC算法研究员-可灵AI
立即应聘

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
硕士
PyTorch
多模态
扩散模型
音频生成
语音合成
语言模型
AIGC
DeepSpeed
Megatron
音乐生成

AI 估算 · 30k–50k

快手大厂,音频AIGC前沿方向,人才稀缺,预期年薪40-80万。

职位详情

关于这个职位

该职位是快手可灵AI的音频AIGC算法研究员,主要负责音视频多模态生成大模型的研发,包括语音、音效、音乐生成及音频编辑等

你将参与基于扩散模型和语言模型的音频生成算法研究,并持续跟踪国际前沿技术,发表顶会论文和专利
适合有语音/音频研究背景、精通深度学习、对AGI有热情的算法人才

最低要求

人工智能、计算机、数学等相关专业硕士/博士学位

有语音/音频相关方向研究背景,精通深度学习理论
有较强的Python编程能力,熟练掌握 PyTorch/DeepSpeed/Megatron等框架
对多模态AGI有强烈的热情和远见,在工作中有极强的自驱力和主动性

工作职责

参与音视频多模态生成大模型的研发工作,包括音频基础能力(语音、音效、音乐)和Omni音频参考/编辑能力的研究

研发基于扩散模型(Diffusion Models)、语言模型(Language Models)的音频生成算法和音视频生成算法
参与音视频多模态理解大模型的研发工作
持续关注国际前沿的AI技术动态并做技术创新,将最新技术成果融入业务模型,参与发表领域顶会论文和专利

优先资格

发表过顶级会议文章(NeurIPS、ICML、ICLR、ACL、ICASSP、Interspeech等)、ACM竞赛获奖者优先

有多模态、语音/音频大模型技术研发经验者优先

AI 洞察

优缺点分析

优点

  • 快手大厂平台,可灵AI是前沿方向,资源充足
  • 参与顶级研究,有机会发表顶会论文和申请专利
  • 音视频多模态是AI热点,职业前景广阔,技术壁垒高
  • 技术难度高,需要持续创新和快速学习
  • 工作强度可能较大,竞争激烈,需保持自驱力
  • 适合有语音/音频研究背景、热爱前沿AI技术、愿意投入高强度研发的算法人才

缺点 / 挑战

  • 对理论深度和工程能力都有较高要求

角色解读

  • 成长为音频AIGC领域专家,主导核心技术方向
  • 向多模态大模型全栈发展,晋升为技术Leader或团队负责人
  • 在快手内部推动技术落地,或转向学术界前沿研究
  • 研发音视频多模态生成大模型,包括语音、音效、音乐生成及音频编辑能力
  • 基于扩散模型和语言模型,设计和优化音频生成算法
  • 参与多模态理解大模型的研发,提升模型对音视频的联合理解
  • 跟踪国际前沿AI技术,将最新成果融入业务模型,并发表顶会论文和专利
  • 语音/音频方向研究背景,精通深度学习理论
  • 熟练Python编程,掌握PyTorch/DeepSpeed/Megatron等框架
  • 有顶会论文发表经验或ACM竞赛获奖经历
  • 对多模态AGI有强烈热情,具备自驱力和主动性

申请策略

  • 关注快手可灵AI的技术博客和公开论文,了解团队方向
  • 准备一个与音频AIGC相关的研究计划或开源项目展示
  • 突出语音/音频相关项目经验,如TTS、VC、音乐生成等
  • 强调顶会论文、竞赛获奖或开源贡献
  • 体现深度学习框架(PyTorch等)的熟练度和工程实践
  • 表达对多模态AGI的热情和长期规划
  • 深入学习扩散模型和语言模型在音频生成中的应用
  • 了解多模态大模型(如CLAP、ImageBind)的原理

面试指南

  • 采用STAR法则(情境-任务-行动-结果)描述项目
  • 从原理到实现逐步分析,最后对比不同方案的优劣
  • 展示对前沿技术的了解,提出自己的见解和改进思路
  • 请详细介绍你之前做的一个音频生成项目,包括技术选型和效果评估
  • 扩散模型的基本原理是什么?在音频生成上有哪些改进方案?
  • 你如何评价市面上现有的音频生成模型(如AudioLDM、MusicGen)?
  • 你对多模态AGI的理解是什么?音频在多模态中扮演什么角色?
  • 场景题:设计一个实时语音克隆系统,需要考虑哪些关键模块?

匹配度报告

72
综合匹配度

大厂核心AI团队,前沿AIGC方向,技术成长极快,但工作节奏可能较快。

适合人群
最适合追求技术成长和前沿创新、愿意高强度投入的自驱型求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展95
工作生活40
使命价值80

薪资福利匹配

75中等

JD未明确薪资和福利,但快手作为大厂通常提供有竞争力的薪酬,预计薪资处于行业高位。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

95较高

职位涉及音频AIGC前沿技术,提供顶会论文和专利发表机会,技术成长空间极大。

技术前沿前沿/新兴技术
技术栈Diffusion Models、Language Models、AIGC、多模态、PyTorch、DeepSpeed
成长机会发表领域顶会论文和专利
业务类型ambiguous

工作生活匹配

40较低

仅现场办公(北京),未提及弹性工作或远程选项,算法岗位通常强度较高。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

80较高

AIGC是高速增长赛道,对AI技术有正向社会影响力,职位鼓励创新和学术贡献。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号对多模态AGI有强烈的热情和远见
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k