快手的多模态理解算法工程师-【可灵AI】薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

多模态理解算法工程师-【可灵AI】的工作地点在哪里？

该职位工作地点位于北京市、深圳市。工作形式为仅现场办公。

快手的多模态理解算法工程师-【可灵AI】有什么任职要求？

该职位要求学历未注明学历及中级经验工作经验。

快手

多模态理解算法工程师-【可灵AI】

立即应聘

多模态理解算法工程师-【可灵AI】

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 深圳市

中级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

深度学习

模型训练

LLM

视频生成

多模态理解

Reward Model

可灵Ai

Agentic Pe

视频Caption

AI 估算 · 30k–60k

多模态AI算法为核心技术，市场稀缺度高，薪资竞争力强，体现技术价值。

职位详情

关于这个职位

作为快手可灵AI的多模态理解算法工程师，你将负责视频Caption、Agentic Prompt Engineering和Reward Model等核心任务，利用多模态技术弥合文本与视频模态差异，提升视频生成模型效果

该岗位需要扎实的算法功底和业务导向思维，适合对多模态AI有热情、动手能力强的人才

最低要求

有音视频理解、多模态Caption、理解生成一体化、理解/生成Benchmark等方向的经验，有大厂实习、顶会论文优先

有自主开发能力且能用好Agent进行日常工作辅助开发，有多模态理解模型训练经验优先

重视多模态理解能力在实际工业场景的价值，痴迷业务价值而不是绝对榜单分数

有理解、生成模型能力水位的客观判断能力，有实际动手验证的能力，对自身能力保持清晰认知

有良好的协作与沟通能力，能积极与团队进行沟通，能准确、清晰表达自己的需求

工作职责

承担视频Caption和参考生成的Instruction职责，特别是在多分镜、高动态、长视频等场景提供精准、全面的描述，最大化弥合文本模态和视频模态之间的差异

承担Agentic PE的职责，对用户指令进行精准、有效、丰富的改写，从15秒片段效果和分钟级成片两个角度实现最佳的PE，控制视频生成模型产出最符合用户需求的视频内容

承担Reward model的职责，能够客观、稳定地评价模型画面、运动、合理性等方面的表现，辅助视频模型训练监控、模型版本选择

承担理解基模后训练的职责，充分利用可灵数据训练最适合团队的多模态理解基座模型，支撑可灵全链路的数据算法、理解算法任务

AI 洞察

优缺点分析

优点

技术前沿：从事多模态AI核心研发，接触视频生成最新方向
平台优势：快手大厂资源丰富，数据量大，业务场景真实
薪资竞争力：算法岗位薪资优厚，大厂福利完善
技术难度高：需要同时掌握理解与生成模型，要求扎实功底
工作强度大：互联网大厂节奏快，项目周期紧，需持续学习
竞争激烈：同类型人才众多，需要持续产出高价值成果
适合对多模态AI有强烈兴趣、动手能力强、追求技术突破的算法工程师

缺点 / 挑战

成长空间：项目挑战大，快速积累领域经验和工程能力

角色解读

技术专家路线：深耕多模态理解与生成领域，成为行业顶尖算法人才
技术管理路线：成长为团队Tech Lead或Manager，带领项目落地
横向扩展：向视频生成全链路或AI产品方向拓展，积累全局视野
负责视频Caption和参考生成，精准描述视频内容，弥合文本与视频模态差异
承担Agentic Prompt Engineering，通过指令改写优化视频生成效果
构建Reward Model，客观评价生成视频的质量，辅助模型训练与版本选择
训练多模态理解基座模型，支撑可灵AI全链路数据与算法任务
深入理解多模态学习、视频理解与生成技术
熟练使用深度学习框架（如PyTorch）和Python编程
具备自主开发能力，能运用Agent工具提升开发效率
良好的业务导向思维和团队协作沟通能力

申请策略

深入了解可灵AI的产品和技术方向，在简历和面试中体现对业务价值的理解
准备1-2个完整的技术项目案例，能清晰讲述问题、方案、效果
突出多模态理解或生成相关项目经验，尤其是视频方向
展示顶会论文、竞赛获奖或开源贡献，证明研究能力
强调业务落地案例，如模型效果提升或产品应用
展现Agent使用经验或工程化能力
补充多模态预训练、Video Caption、强化学习等相关知识
熟悉主流视频生成模型（如Stable Video Diffusion、Sora等）

面试指南

STAR法则：情境(Situation)、任务(Task)、行动(Action)、结果(Result)
对比分析：在方案设计中，对比不同方法的优劣，展示技术判断力
业务导向：强调技术选型对业务效果的影响，展现价值思维
请介绍一个你参与的多模态理解或生成项目，遇到了哪些挑战？
如何设计一个视频Caption模型？评价指标有哪些？
如何用户指令改写以提升视频生成效果？请举例说明
Reward Model如何训练？如何避免reward hacking？
如何看待多模态理解与生成的一体化？

职位点评

综合评分

大厂AI核心岗位，前沿技术栈，薪资优厚，但工作强度可能较大。

更适合这类人

最适合重视技术成长和薪资回报的求职者，对工作强度有一定容忍度。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值85

薪资福利

85较高

薪资竞争力强，大厂福利完善，但具体薪资未披露，需面议。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

前沿多模态AI技术，项目挑战大，成长空间显著。

技术前沿前沿/新兴技术

技术栈多模态理解、视频生成、深度学习、LLM、Agent

业务类型profit_center

工作生活

50较低

未提及灵活办公，大概率现场办公，互联网大厂工作强度较高。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

85较高

AI视频生成是高速增长赛道，创新性强，社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

多模态理解算法工程师-【可灵AI】

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手的其他在招职位

商家规模化策略运营-【电商】

舆情投诉专员

海外商业产品经理（AIGC）-【KSIB】

直客销售（到综）-【生活服务】

基础体验&社区产品实习生（可灵AI专项）

相似职位推荐

RMU Engineer

Head of Application Engineering

Process Engineering Automation

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

快手的其他在招职位

商家规模化策略运营-【电商】

舆情投诉专员

海外商业产品经理（AIGC）-【KSIB】

直客销售（到综）-【生活服务】

基础体验&社区产品实习生（可灵AI专项）

相似职位推荐

RMU Engineer

Head of Application Engineering

Process Engineering Automation

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

多模态理解算法工程师-【可灵AI】

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手 的其他在招职位

商家规模化策略运营-【电商】

舆情投诉专员

海外商业产品经理（AIGC）-【KSIB】

直客销售（到综）-【生活服务】

基础体验&社区产品实习生（可灵AI专项）

相似职位推荐

RMU Engineer

Head of Application Engineering

Process Engineering Automation

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

快手 的其他在招职位

商家规模化策略运营-【电商】

舆情投诉专员

海外商业产品经理（AIGC）-【KSIB】

直客销售（到综）-【生活服务】

基础体验&社区产品实习生（可灵AI专项）

相似职位推荐

RMU Engineer

Head of Application Engineering

Process Engineering Automation

Lamination & Gluing Engineer - Process

Coordinator Engineering Electric

快手的其他在招职位

快手的其他在招职位