快手的【快Star】基础大模型算法工程师—强化学习方向薪资是多少？

该职位薪资范围为 35k–55k（人民币/月）。

【快Star】基础大模型算法工程师—强化学习方向的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

快手的【快Star】基础大模型算法工程师—强化学习方向有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

快手

【快Star】基础大模型算法工程师—强化学习方向

立即应聘

【快Star】基础大模型算法工程师—强化学习方向

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

大模型

强化学习

模型对齐

深度学习

预训练

ICML

NeurIPS

RAG

AI 估算 · 35k–55k

快手属互联网大厂，算法岗位薪资较高，强化学习方向人才稀缺，综合市场行情估算。

职位详情

关于这个职位

作为快手【快Star】项目的基础大模型算法工程师，你将专注于强化学习在语言、多模态及推荐大模型中的创新应用，致力于提升大模型的能力上限

你将参与前沿技术研究，并在顶级会议和开源社区中塑造团队的技术影响力

这是一个技术驱动、挑战与机遇并存的算法研究岗位

最低要求

硕士及以上学历，强化学习相关专业优先

在大规模预训练、模型对齐、强化学习、RAG、Agent等至少一个方向有深厚的项目经验和洞察力

动手能力强，编程能力强

工作职责

深入研究强化学习在快手自研语言大模型、多模态大模型、推荐大模型中的创新应用，提升大模型能力上限

负责大模型的基础技术研究，包括但不限于训练算法、框架及模型架构相关的基础技术探索和创新

在顶级会议与开源社区塑造快手大模型团队的技术影响力

优先资格

在AI领域的国际顶级会议或者期刊上作为核心贡献者有丰富的学术成果

在开源社区发布有一定影响力的项目

AI 洞察

优缺点分析

优点

快手作为互联网巨头，资源丰富，项目规模大，数据量大，能快速积累实战经验
大模型与强化学习是当前AI最前沿领域，技术成长空间大，行业认可度高
团队技术氛围浓厚，有机会与顶级学者合作并在顶会发表论文
工作强度较大，需要持续跟进最新研究进展，实验周期长，试错成本高
技术门槛高，要求同时具备强化学习和NLP/多模态知识，学习曲线陡峭
竞争激烈，团队内部和外部都有优秀人才，需不断突破创新

缺点 / 挑战

适合对强化学习和大模型有浓厚兴趣、具备扎实数理基础和编程能力、渴望在技术前沿不断挑战的求职者

角色解读

技术路线：从算法工程师到技术专家，主导大模型核心算法突破
学术路线：在NeurIPS、ICML等顶会持续发表论文，成为领域权威
管理路线：可转向技术团队管理，负责算法团队规划与项目推进
深入研究强化学习在快手自研大模型中的应用，包括语言、多模态和推荐模型
负责大模型基础技术研究，涉及训练算法、框架及模型架构的探索与创新
产出高水平学术成果，在顶级会议和开源社区提升团队技术影响力
扎实的强化学习理论基础，熟悉PPO、DPO等算法
精通大规模预训练、模型对齐、RAG或Agent等至少一个方向
较强的编程能力，熟练使用Python和深度学习框架（如PyTorch）
有顶会论文或知名开源项目经验者优先

申请策略

了解快手在AI领域的技术布局（如可灵大模型），在面试中展示对业务场景的理解
突出强化学习相关项目经验，尤其是与大规模模型结合的工作
列出发表的顶会论文、开源项目贡献及影响力（如GitHub Star数）
强调编程技能，可附上GitHub或技术博客链接
补全强化学习前沿知识，如RLHF、GRPO、PPO等，并动手复现经典算法
熟悉快手常用技术栈（如PyTorch、Megatron-LM），尝试参与开源大模型项目

面试指南

对于项目类问题，使用STAR法则（情境-任务-行动-结果），突出自己的贡献和量化成果
对于算法原理类问题，先给出核心概念，再对比不同方法优劣，并结合实际案例分析
请详细介绍一下你在大规模预训练或强化学习方向的项目，具体解决了什么问题？
PPO和DPO的主要区别是什么？在实际应用中如何选择？
如何在大模型训练中引入强化学习？有哪些关键挑战？
你如何看待RLHF在大模型对齐中的作用？有没有更好的替代方案？
请手写一段策略梯度算法的伪代码，并解释梯度更新公式
复习强化学习经典算法（PPO、DQN、A2C等）及其在大模型中的应用

职位点评

综合评分

快手大模型算法岗，前沿技术、高薪发展，但需高强度投入。

更适合这类人

最适合追求技术前沿和快速成长的求职者，对工作生活平衡要求较低。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展95

工作生活50

使命价值75

薪资福利

80较高

快手作为上市大厂，薪资待遇优厚，但强度较高，稳定性较好，综合薪酬福利具有竞争力。

薪资信号未披露（AI估算：35K-55K/月）

成长发展

95较高

岗位涉及最前沿的大模型与强化学习技术，科研资源丰富，成长空间极大。

技术前沿前沿/新兴技术

技术栈强化学习、大模型、预训练、模型对齐、RAG、Agent

成长机会在顶级会议与开源社区塑造技术影响力

业务类型profit_center

工作生活

50较低

岗位为现场办公，位于北京，互联网大厂通常工作强度高，但未在JD中明确说明加班情况。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

75中等

大模型与AI技术处于高速增长赛道，对推动技术进步有显著意义，但社会影响偏中性。

行业发展高速增长赛道

社会影响中性/一般

使命信号提升大模型能力上限

创新程度积极采用新技术

Watch Jobs

【快Star】基础大模型算法工程师—强化学习方向

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

【快Star】基础大模型算法工程师—强化学习方向

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手 的其他在招职位

大客户销售经理（3c家电方向）-【电商】

UX设计实习生(场域导购与AI设计）-【电商】

快手达人运营-【电商】

大客户销售（酒旅方向）-【生活服务】

广告投放与达人营销实习生（可灵AI专项）

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

快手的其他在招职位

快手的其他在招职位