快手的【快Star】音频/语音/音乐AIGC算法研究员-可灵AI薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

快手的【快Star】音频/语音/音乐AIGC算法研究员-可灵AI有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

快手

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

立即应聘

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

Megatron

多模态

扩散模型

语言模型

语音合成

音乐生成

音频生成

AIGC

DeepSpeed

AI 估算 · 30k–50k

快手大厂，音频AIGC前沿方向，人才稀缺，预期年薪40-80万。

职位详情

关于这个职位

该职位是快手可灵AI的音频AIGC算法研究员，主要负责音视频多模态生成大模型的研发，包括语音、音效、音乐生成及音频编辑等

你将参与基于扩散模型和语言模型的音频生成算法研究，并持续跟踪国际前沿技术，发表顶会论文和专利

适合有语音/音频研究背景、精通深度学习、对AGI有热情的算法人才

最低要求

人工智能、计算机、数学等相关专业硕士/博士学位

有语音/音频相关方向研究背景，精通深度学习理论

有较强的Python编程能力，熟练掌握 PyTorch/DeepSpeed/Megatron等框架

对多模态AGI有强烈的热情和远见，在工作中有极强的自驱力和主动性

工作职责

参与音视频多模态生成大模型的研发工作，包括音频基础能力（语音、音效、音乐）和Omni音频参考/编辑能力的研究

研发基于扩散模型（Diffusion Models）、语言模型（Language Models）的音频生成算法和音视频生成算法

参与音视频多模态理解大模型的研发工作

持续关注国际前沿的AI技术动态并做技术创新，将最新技术成果融入业务模型，参与发表领域顶会论文和专利

优先资格

发表过顶级会议文章（NeurIPS、ICML、ICLR、ACL、ICASSP、Interspeech等）、ACM竞赛获奖者优先

有多模态、语音/音频大模型技术研发经验者优先

AI 洞察

优缺点分析

优点

快手大厂平台，可灵AI是前沿方向，资源充足
参与顶级研究，有机会发表顶会论文和申请专利
音视频多模态是AI热点，职业前景广阔，技术壁垒高
技术难度高，需要持续创新和快速学习
工作强度可能较大，竞争激烈，需保持自驱力
适合有语音/音频研究背景、热爱前沿AI技术、愿意投入高强度研发的算法人才

缺点 / 挑战

对理论深度和工程能力都有较高要求

角色解读

成长为音频AIGC领域专家，主导核心技术方向
向多模态大模型全栈发展，晋升为技术Leader或团队负责人
在快手内部推动技术落地，或转向学术界前沿研究
研发音视频多模态生成大模型，包括语音、音效、音乐生成及音频编辑能力
基于扩散模型和语言模型，设计和优化音频生成算法
参与多模态理解大模型的研发，提升模型对音视频的联合理解
跟踪国际前沿AI技术，将最新成果融入业务模型，并发表顶会论文和专利
语音/音频方向研究背景，精通深度学习理论
熟练Python编程，掌握PyTorch/DeepSpeed/Megatron等框架
有顶会论文发表经验或ACM竞赛获奖经历
对多模态AGI有强烈热情，具备自驱力和主动性

申请策略

关注快手可灵AI的技术博客和公开论文，了解团队方向
准备一个与音频AIGC相关的研究计划或开源项目展示
突出语音/音频相关项目经验，如TTS、VC、音乐生成等
强调顶会论文、竞赛获奖或开源贡献
体现深度学习框架（PyTorch等）的熟练度和工程实践
表达对多模态AGI的热情和长期规划
深入学习扩散模型和语言模型在音频生成中的应用
了解多模态大模型（如CLAP、ImageBind）的原理

面试指南

采用STAR法则（情境-任务-行动-结果）描述项目
从原理到实现逐步分析，最后对比不同方案的优劣
展示对前沿技术的了解，提出自己的见解和改进思路
请详细介绍你之前做的一个音频生成项目，包括技术选型和效果评估
扩散模型的基本原理是什么？在音频生成上有哪些改进方案？
你如何评价市面上现有的音频生成模型（如AudioLDM、MusicGen）？
你对多模态AGI的理解是什么？音频在多模态中扮演什么角色？
场景题：设计一个实时语音克隆系统，需要考虑哪些关键模块？

职位点评

综合评分

大厂核心AI团队，前沿AIGC方向，技术成长极快，但工作节奏可能较快。

更适合这类人

最适合追求技术成长和前沿创新、愿意高强度投入的自驱型求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值80

薪资福利

75中等

JD未明确薪资和福利，但快手作为大厂通常提供有竞争力的薪酬，预计薪资处于行业高位。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

95较高

职位涉及音频AIGC前沿技术，提供顶会论文和专利发表机会，技术成长空间极大。

技术前沿前沿/新兴技术

技术栈Diffusion Models、Language Models、AIGC、多模态、PyTorch、DeepSpeed

成长机会发表领域顶会论文和专利

业务类型ambiguous

工作生活

40较低

仅现场办公（北京），未提及弹性工作或远程选项，算法岗位通常强度较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

80较高

AIGC是高速增长赛道，对AI技术有正向社会影响力，职位鼓励创新和学术贡献。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号对多模态AGI有强烈的热情和远见

创新程度积极采用新技术

Watch Jobs

快手

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

立即应聘

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

Megatron

多模态

扩散模型

语言模型

语音合成

音乐生成

音频生成

AIGC

DeepSpeed

AI 估算 · 30k–50k

快手大厂，音频AIGC前沿方向，人才稀缺，预期年薪40-80万。

职位详情

关于这个职位

该职位是快手可灵AI的音频AIGC算法研究员，主要负责音视频多模态生成大模型的研发，包括语音、音效、音乐生成及音频编辑等

你将参与基于扩散模型和语言模型的音频生成算法研究，并持续跟踪国际前沿技术，发表顶会论文和专利

适合有语音/音频研究背景、精通深度学习、对AGI有热情的算法人才

最低要求

人工智能、计算机、数学等相关专业硕士/博士学位

有语音/音频相关方向研究背景，精通深度学习理论

有较强的Python编程能力，熟练掌握 PyTorch/DeepSpeed/Megatron等框架

对多模态AGI有强烈的热情和远见，在工作中有极强的自驱力和主动性

工作职责

参与音视频多模态生成大模型的研发工作，包括音频基础能力（语音、音效、音乐）和Omni音频参考/编辑能力的研究

研发基于扩散模型（Diffusion Models）、语言模型（Language Models）的音频生成算法和音视频生成算法

参与音视频多模态理解大模型的研发工作

持续关注国际前沿的AI技术动态并做技术创新，将最新技术成果融入业务模型，参与发表领域顶会论文和专利

优先资格

发表过顶级会议文章（NeurIPS、ICML、ICLR、ACL、ICASSP、Interspeech等）、ACM竞赛获奖者优先

有多模态、语音/音频大模型技术研发经验者优先

AI 洞察

优缺点分析

优点

快手大厂平台，可灵AI是前沿方向，资源充足
参与顶级研究，有机会发表顶会论文和申请专利
音视频多模态是AI热点，职业前景广阔，技术壁垒高
技术难度高，需要持续创新和快速学习
工作强度可能较大，竞争激烈，需保持自驱力
适合有语音/音频研究背景、热爱前沿AI技术、愿意投入高强度研发的算法人才

缺点 / 挑战

对理论深度和工程能力都有较高要求

角色解读

成长为音频AIGC领域专家，主导核心技术方向
向多模态大模型全栈发展，晋升为技术Leader或团队负责人
在快手内部推动技术落地，或转向学术界前沿研究
研发音视频多模态生成大模型，包括语音、音效、音乐生成及音频编辑能力
基于扩散模型和语言模型，设计和优化音频生成算法
参与多模态理解大模型的研发，提升模型对音视频的联合理解
跟踪国际前沿AI技术，将最新成果融入业务模型，并发表顶会论文和专利
语音/音频方向研究背景，精通深度学习理论
熟练Python编程，掌握PyTorch/DeepSpeed/Megatron等框架
有顶会论文发表经验或ACM竞赛获奖经历
对多模态AGI有强烈热情，具备自驱力和主动性

申请策略

关注快手可灵AI的技术博客和公开论文，了解团队方向
准备一个与音频AIGC相关的研究计划或开源项目展示
突出语音/音频相关项目经验，如TTS、VC、音乐生成等
强调顶会论文、竞赛获奖或开源贡献
体现深度学习框架（PyTorch等）的熟练度和工程实践
表达对多模态AGI的热情和长期规划
深入学习扩散模型和语言模型在音频生成中的应用
了解多模态大模型（如CLAP、ImageBind）的原理

面试指南

采用STAR法则（情境-任务-行动-结果）描述项目
从原理到实现逐步分析，最后对比不同方案的优劣
展示对前沿技术的了解，提出自己的见解和改进思路
请详细介绍你之前做的一个音频生成项目，包括技术选型和效果评估
扩散模型的基本原理是什么？在音频生成上有哪些改进方案？
你如何评价市面上现有的音频生成模型（如AudioLDM、MusicGen）？
你对多模态AGI的理解是什么？音频在多模态中扮演什么角色？
场景题：设计一个实时语音克隆系统，需要考虑哪些关键模块？

职位点评

综合评分

大厂核心AI团队，前沿AIGC方向，技术成长极快，但工作节奏可能较快。

更适合这类人

最适合追求技术成长和前沿创新、愿意高强度投入的自驱型求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值80

薪资福利

75中等

JD未明确薪资和福利，但快手作为大厂通常提供有竞争力的薪酬，预计薪资处于行业高位。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

95较高

职位涉及音频AIGC前沿技术，提供顶会论文和专利发表机会，技术成长空间极大。

技术前沿前沿/新兴技术

技术栈Diffusion Models、Language Models、AIGC、多模态、PyTorch、DeepSpeed

成长机会发表领域顶会论文和专利

业务类型ambiguous

工作生活

40较低

仅现场办公（北京），未提及弹性工作或远程选项，算法岗位通常强度较高。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

80较高

AIGC是高速增长赛道，对AI技术有正向社会影响力，职位鼓励创新和学术贡献。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号对多模态AGI有强烈的热情和远见

创新程度积极采用新技术

Watch Jobs

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

【快Star】音频/语音/音乐AIGC算法研究员-可灵AI

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手的其他在招职位

快手的其他在招职位