快手的【快Star】理解生成一体化算法研究员薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

【快Star】理解生成一体化算法研究员的工作地点在哪里？

该职位工作地点位于北京市、深圳市。工作形式为仅现场办公。

快手的【快Star】理解生成一体化算法研究员有什么任职要求？

该职位要求博士学历及高级经验工作经验。

快手

【快Star】理解生成一体化算法研究员

立即应聘

【快Star】理解生成一体化算法研究员

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 深圳市

高级经验

全职员工

仅现场办公

博士

研究与开发 (研发)

Chain-Of-Thought

多模态理解

大规模预训练

生成模型

视觉编码器

视频理解

跨模态对齐

diffusion

MLLM

AI 估算 · 35k–60k

一线大厂核心算法岗，博士或顶会背景，市场竞争力强，薪资位于行业高位。

职位详情

关于这个职位

这是一个多模态理解与生成一体化的核心算法研究岗位，你将主导下一代模型架构的设计与优化，包括Chain-of-Thought图像生成、长视觉上下文压缩、大规模多模态预训练等前沿方向

职位要求深厚的算法功底和独立创新思维，研究成果将直接服务快手亿级用户的图视频产品

最低要求

博士 or 顶会一作 or 业界核心项目参与者

有大规模多模态理解/生成模型 hands-on 经验

深入理解 MLLM / Diffusion：视觉 encoder、跨模态对齐、长 context、多图交互

有大规模多模态预训练经验（数据配比、训练稳定性、loss 平衡）

后训练全链路至少亲手做过两个阶段

工作职责

理解生成一体化架构设计

Thinking / Chain-of-Thought for Image Generation

Long Visual Context Compression

大规模多模态预训练

后训练与对齐

图视频统一探索

优先资格

对"理解生成如何深度一体化"有自己的技术判断

深入研究或做过 Transfusion / Janus / BAGEL / MetaQuery 等统一架构

有大规模弱关联数据挖掘和预训练经验

其他参考项如 Visual Tokenizer / Compressor、Chain-of-Thought、视频理解或生成、开源影响力

AI 洞察

优缺点分析

优点

真正的话语权：你的技术判断直接写入技术路线图，而非执行既定方案
产品落地能力强：研究成果直接服务亿级用户，快速验证价值
资源充沛：中心级千卡算力和完整数据基础设施，保障前沿探索
稀缺的图视频协同场景：国内少数同时在图像和视频领域拥有头部产品的平台
对个人能力要求极高，需要横跨理解与生成、图像与视频的全栈经验
技术探索方向前沿且不确定，需适应快速迭代和高强度研发节奏
竞争激烈，需要持续输出高质量成果以保持领先地位

缺点 / 挑战

适合具备博士或顶会背景，在多模态理解与生成领域有深厚积累，渴望在工业界定义技术路线，不怕挑战、追求影响力的算法科学家

角色解读

成长为多模态基础模型领域的架构师，主导公司技术战略
向技术负责人或首席科学家方向发展，引领团队突破前沿
在快手内部推动图视频统一产品落地，积累工业级影响力
设计和优化多模态理解与生成一体化架构，定义下一代模型的技术路线
主导Chain-of-Thought图像生成与长视觉上下文压缩等前沿方向
负责大规模多模态预训练的数据配比、训练稳定性及后训练对齐
探索图像与视频统一的基础模型，推动技术产品化落地
扎实的多模态理解与生成模型经验，深入掌握MLLM和Diffusion原理
具备大规模多模态预训练的实际操作经验，能解决数据配比和训练稳定性问题
后训练全链路能力，至少亲手完成过两个阶段
对架构创新有独立的技术判断力，能够主导而非执行既定方案

申请策略

面试时准备一个你主导的架构设计案例，展示从想法到落地的完整过程
主动了解快手目前在多模态和生成方面的产品（如可灵、快手视频），思考潜在结合点
突出顶会一作论文或业界核心项目的具体贡献，尤其是多模态架构创新
详尽描述大规模预训练和后训练的全链路经验，包括数据配比、训练稳定性等细节
展示对统一架构（如Transfusion、Janus等）的深入理解和个人技术判断
如有开源项目或影响力，务必列出
深入研读最新统一架构论文（Transfusion、BAGEL、MetaQuery等），形成自己的观点
练习大规模训练任务的调试与优化能力，熟悉分布式训练框架

面试指南

结合自己的项目经验，用具体案例说明你的技术判断和实践细节
先阐述方法论，再举例说明遇到的挑战及解决方案，体现深度思考
展示对最新研究的了解，同时强调工业落地的实际考量
你如何看待理解生成一体化的未来趋势？你认为关键挑战是什么？
描述一个你做过的大规模多模态预训练项目，数据配比和loss平衡你是如何处理的？
后训练链包含哪些环节？你亲手做过哪两个阶段？踩过什么坑？
如何解决视觉encoder与文本decoder之间的跨模态对齐问题？
长上下文压缩有哪些主流方法？你会如何设计压缩方案？

职位点评

综合评分

前沿技术、顶级资源、极高话语权，但现场办公且工作强度可能大。

更适合这类人

最适合追求技术前沿、渴望主导架构定义、不太在意工作节奏的算法科学家。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值75

薪资福利

80较高

薪资处于行业顶端，快手上市后福利完善，但JD未明确薪资具体数额，仅从岗位层级判断偏高。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

95较高

技术前沿顶级，架构话语权极大，资源丰富，对个人成长和技能提升极为有利。

技术前沿前沿/新兴技术

技术栈多模态理解、生成模型、MLLM、Diffusion、Chain-of-Thought、大规模预训练、视觉编码器、跨模态对齐、视频理解、Transformer

成长机会架构话语权、技术路线图、核心项目

业务类型profit_center

工作生活

40较低

北京深圳现场办公，未提及弹性工时，互联网大厂核心岗位工作强度较大。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

75中等

处于高速增长的AI赛道，技术影响力大，但社会使命感不突出。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

快手

【快Star】理解生成一体化算法研究员

立即应聘

【快Star】理解生成一体化算法研究员

发布于大约 2 个月前

普通员工/个人贡献者

北京市 / 深圳市

高级经验

全职员工

仅现场办公

博士

研究与开发 (研发)

Chain-Of-Thought

多模态理解

大规模预训练

生成模型

视觉编码器

视频理解

跨模态对齐

diffusion

MLLM

AI 估算 · 35k–60k

一线大厂核心算法岗，博士或顶会背景，市场竞争力强，薪资位于行业高位。

职位详情

关于这个职位

职位要求深厚的算法功底和独立创新思维，研究成果将直接服务快手亿级用户的图视频产品

最低要求

博士 or 顶会一作 or 业界核心项目参与者

有大规模多模态理解/生成模型 hands-on 经验

深入理解 MLLM / Diffusion：视觉 encoder、跨模态对齐、长 context、多图交互

有大规模多模态预训练经验（数据配比、训练稳定性、loss 平衡）

后训练全链路至少亲手做过两个阶段

工作职责

理解生成一体化架构设计

Thinking / Chain-of-Thought for Image Generation

Long Visual Context Compression

大规模多模态预训练

后训练与对齐

图视频统一探索

优先资格

对"理解生成如何深度一体化"有自己的技术判断

深入研究或做过 Transfusion / Janus / BAGEL / MetaQuery 等统一架构

有大规模弱关联数据挖掘和预训练经验

其他参考项如 Visual Tokenizer / Compressor、Chain-of-Thought、视频理解或生成、开源影响力

AI 洞察

优缺点分析

优点

真正的话语权：你的技术判断直接写入技术路线图，而非执行既定方案
产品落地能力强：研究成果直接服务亿级用户，快速验证价值
资源充沛：中心级千卡算力和完整数据基础设施，保障前沿探索
稀缺的图视频协同场景：国内少数同时在图像和视频领域拥有头部产品的平台
对个人能力要求极高，需要横跨理解与生成、图像与视频的全栈经验
技术探索方向前沿且不确定，需适应快速迭代和高强度研发节奏
竞争激烈，需要持续输出高质量成果以保持领先地位

缺点 / 挑战

适合具备博士或顶会背景，在多模态理解与生成领域有深厚积累，渴望在工业界定义技术路线，不怕挑战、追求影响力的算法科学家

角色解读

成长为多模态基础模型领域的架构师，主导公司技术战略
向技术负责人或首席科学家方向发展，引领团队突破前沿
在快手内部推动图视频统一产品落地，积累工业级影响力
设计和优化多模态理解与生成一体化架构，定义下一代模型的技术路线
主导Chain-of-Thought图像生成与长视觉上下文压缩等前沿方向
负责大规模多模态预训练的数据配比、训练稳定性及后训练对齐
探索图像与视频统一的基础模型，推动技术产品化落地
扎实的多模态理解与生成模型经验，深入掌握MLLM和Diffusion原理
具备大规模多模态预训练的实际操作经验，能解决数据配比和训练稳定性问题
后训练全链路能力，至少亲手完成过两个阶段
对架构创新有独立的技术判断力，能够主导而非执行既定方案

申请策略

面试时准备一个你主导的架构设计案例，展示从想法到落地的完整过程
主动了解快手目前在多模态和生成方面的产品（如可灵、快手视频），思考潜在结合点
突出顶会一作论文或业界核心项目的具体贡献，尤其是多模态架构创新
详尽描述大规模预训练和后训练的全链路经验，包括数据配比、训练稳定性等细节
展示对统一架构（如Transfusion、Janus等）的深入理解和个人技术判断
如有开源项目或影响力，务必列出
深入研读最新统一架构论文（Transfusion、BAGEL、MetaQuery等），形成自己的观点
练习大规模训练任务的调试与优化能力，熟悉分布式训练框架

面试指南

结合自己的项目经验，用具体案例说明你的技术判断和实践细节
先阐述方法论，再举例说明遇到的挑战及解决方案，体现深度思考
展示对最新研究的了解，同时强调工业落地的实际考量
你如何看待理解生成一体化的未来趋势？你认为关键挑战是什么？
描述一个你做过的大规模多模态预训练项目，数据配比和loss平衡你是如何处理的？
后训练链包含哪些环节？你亲手做过哪两个阶段？踩过什么坑？
如何解决视觉encoder与文本decoder之间的跨模态对齐问题？
长上下文压缩有哪些主流方法？你会如何设计压缩方案？

职位点评

综合评分

前沿技术、顶级资源、极高话语权，但现场办公且工作强度可能大。

更适合这类人

最适合追求技术前沿、渴望主导架构定义、不太在意工作节奏的算法科学家。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活40

使命价值75

薪资福利

80较高

薪资处于行业顶端，快手上市后福利完善，但JD未明确薪资具体数额，仅从岗位层级判断偏高。

薪资信号未披露（AI估算：35K-60K/月）

成长发展

95较高

技术前沿顶级，架构话语权极大，资源丰富，对个人成长和技能提升极为有利。

技术前沿前沿/新兴技术

技术栈多模态理解、生成模型、MLLM、Diffusion、Chain-of-Thought、大规模预训练、视觉编码器、跨模态对齐、视频理解、Transformer

成长机会架构话语权、技术路线图、核心项目

业务类型profit_center

工作生活

40较低

北京深圳现场办公，未提及弹性工时，互联网大厂核心岗位工作强度较大。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

75中等

处于高速增长的AI赛道，技术影响力大，但社会使命感不突出。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

【快Star】理解生成一体化算法研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

【快Star】理解生成一体化算法研究员

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手的其他在招职位

快手的其他在招职位