Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
【快Star】大模型后训练研发工程师
立即应聘

【快Star】大模型后训练研发工程师

发布于 大约 2 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
PyTorch
多模态
SFT
大语言模型
分布式训练
DeepSpeed
RLHF
DPO
LoRA
评测

AI 估算 · 30k–60k

快手上市大厂,AI核心岗位,大模型人才稀缺,薪资竞争力强,但未明确范围,参考市场行情。

职位详情

关于这个职位

该职位主要负责大语言模型和多模态大模型的后训练与对齐优化,包括SFT、DPO、RLHF等算法研发,以及训练数据体系建设、工程落地和评测

你将参与前沿技术调研,优化模型在对话、逻辑、安全等方面的表现,并针对政企、金融等垂直场景进行领域适配微调
适合有大模型微调经验、追求技术深度的算法工程师

最低要求

本科及以上学历,计算机、人工智能、软件工程、数学、统计学等相关专业,有大模型后训练、微调对齐相关工作/项目经验

扎实的深度学习、自然语言处理基础,熟悉Transformer核心原理,熟练掌握大模型预训练、微调、对齐的核心技术逻辑
熟练使用Python编程语言,精通PyTorch/TensorFlow任意一种主流深度学习框架
专业能力要求:
核心技术能力:熟练掌握大模型SFT、DPO、KTO、RLHF等主流后训练对齐算法,完整参与过7B/14B/32B及以上大模型的后训练迭代项目
工程落地能力:熟悉LLaMA、Qwen、ChatGLM、Llama系列主流开源大模型,掌握LoRA、QLoRA、全量微调等高效微调方案,具备分布式微调训练落地经验
数据与评测能力:具备后训练数据集构建、数据清洗、数据蒸馏经验,熟悉大模型自动化评测、人工评测体系搭建,可通过数据和评测驱动模型迭代
工具框架掌握:熟练使用Hugging Face、Transformers、PEFT、TRL等开源工具库,熟悉DeepSpeed、Megatron-LM分布式训练框架者优先

工作职责

模型微调与对齐研发:负责大语言模型、多模态大模型的SFT监督微调、DPO、KTO、RLHF等后训练对齐算法研发与落地,优化模型对话逻辑、真实性、逻辑性、共情能力,解决模型幻觉、问答偏差、安全风险等问题

领域模型专项优化:针对政企办公、金融、教育、文娱等垂直场景,开展大模型领域适配微调,构建领域专属后训练方案,提升模型在专业问答、推理、生成、决策场景下的专项能力
训练数据体系建设:参与后训练高质量数据集的设计、筛选、清洗、标注与迭代优化,制定数据质量标准,挖掘数据短板,通过数据迭代驱动模型能力持续升级
训练工程落地优化:基于Transformer架构,依托主流训练框架,完成大模型规模化微调、分布式训练落地,优化训练效率、显存占用、收敛效果,保障大模型后训练流程高效、稳定迭代
模型评测与迭代:搭建大模型后训练评测体系,包含通用能力、领域能力、安全对齐、幻觉率、流畅度等多维度评测,根据评测结果迭代优化训练策略、数据方案与算法模型
前沿技术调研落地:跟踪国内外大模型后训练、模型对齐、高效微调、小样本学习、模型轻量化等前沿技术,结合业务场景完成技术创新与落地,持续提升模型综合性能

AI 洞察

优缺点分析

优点

  • 快手作为上市大厂,资源充足,能接触到超大规模模型训练和真实业务场景
  • 团队技术氛围浓厚,有机会与业界顶级专家合作,快速提升影响力
  • 大模型后训练涉及数据、算法、工程全链路,对综合能力要求极高,学习曲线陡峭

缺点 / 挑战

  • 身处大模型最前沿方向,技术栈新、挑战大,个人成长速度极快
  • 行业竞争激烈,技术迭代快,需要持续跟踪前沿论文并快速落地,压力较大
  • 工作强度可能较高,尤其是模型训练和迭代阶段,需要较强的时间管理和抗压能力
  • 适合对NLP和大模型有强烈兴趣、具有扎实的深度学习基础和实践经验、渴望高速成长并愿意接受高强度挑战的算法工程师

角色解读

  • 技术深度方向:从后训练工程师逐步成长为模型对齐专家或大模型算法负责人,带领团队攻克前沿难题
  • 业务广度方向:深入金融、教育等垂直行业,成为AI+行业解决方案的专家,推动技术落地与产品化
  • 管理方向:积累项目与团队管理经验,晋升为技术经理或总监,统筹大模型研发与业务目标对齐
  • 负责大语言模型和视觉多模态模型的SFT、DPO、RLHF等后训练对齐算法研发与落地,提升模型对话质量、逻辑性和安全性
  • 针对政企、金融、教育等垂直场景进行领域适配微调,构建专属后训练方案,增强模型在专业场景下的推理和生成能力
  • 参与高质量训练数据集的设计、筛选、清洗和迭代,通过数据驱动模型性能持续升级
  • 搭建多维度评测体系,自动化评估模型能力,并根据结果优化训练策略和算法
  • 扎实的深度学习/NLP基础,深入理解Transformer架构和大模型原理
  • 熟练使用Python和PyTorch/TensorFlow,精通大模型后训练算法(SFT、DPO、RLHF等)
  • 熟悉主流开源大模型(LLaMA、Qwen等)和高效微调方法(LoRA、QLoRA),具备分布式训练实操经验
  • 具备数据构建、清洗、蒸馏和评测体系建设经验,能通过数据迭代驱动模型改进

申请策略

  • 深入了解快手的大模型战略和业务场景(如快手的AI应用),在面试中展示自己如何利用后训练技术提升业务指标
  • 准备一个完整的技术方案,从数据构建到训练再到评测,展示系统性思考能力
  • 突出参与过大模型后训练(SFT/DPO/RLHF)的项目经历,说明模型规模、具体贡献和效果提升
  • 强调在数据构建、清洗、蒸馏方面的经验,以及如何通过数据迭代提升模型性能
  • 列出熟悉的工具框架(如Hugging Face、PEFT、DeepSpeed等)和分布式训练经验,最好有性能优化细节
  • 如果缺乏完整的后训练项目经验,可以动手复现一篇前沿论文(如DPO或RLHF),并在GitHub上开源代码
  • 熟悉主流开源大模型(如Qwen、Llama)的微调流程,掌握LoRA、QLoRA等高效微调技巧

面试指南

  • 对于项目经验类问题,采用STAR法则:情境(项目背景)、任务(目标)、行动(具体方法和工程细节)、结果(量化指标)展开
  • 对于算法对比类问题,先阐述各算法核心思想,再分析优缺点和适用场景,最后结合自身经验给出选择建议
  • 对于工程问题,从现象出发,分析可能原因(显存、通信、数据等),逐步排查,并给出解决方案和优化效果
  • 请详细介绍你参与的大模型后训练项目,包括模型规模、算法选择、数据来源及最终效果
  • SFT、DPO、RLHF分别解决了什么问题?在实现上有什么困难?如何选择合适的对齐方法?
  • 如何设计高质量的后训练数据集?数据清洗和蒸馏的策略有哪些?
  • 大模型分布式微调中遇到过的显存、速度或收敛问题,如何定位和解决?
  • 如何评估后训练模型的效果?多维度的评测体系包含哪些指标?如何通过评测结果迭代优化?

匹配度报告

69
综合匹配度

大厂核心AI岗位,前沿技术栈,高成长性,但工作强度与不确定性较高。

适合人群
最看重技术成长和前沿探索,对薪资有信心但对WLB要求不高、能接受较高工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展85
工作生活50
使命价值75

薪资福利匹配

65中等

快手为大厂,薪资竞争力强,但JD未明确薪资与福利,补偿性动机满足程度中等。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

85较高

处于大模型前沿技术领域,技术成长空间极大,可深入掌握后训练全链路能力,发展性动机满足程度高。

技术前沿前沿/新兴技术
技术栈大语言模型、多模态、SFT、DPO、RLHF、LoRA、DeepSpeed、分布式训练、Transformer
业务类型ambiguous

工作生活匹配

50较低

仅现场办公,未提及弹性工作或WLB,大厂AI岗位通常工作强度较高,生活化动机满足有限。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

75中等

AI大模型赛道高速增长,技术有较大社会影响潜力,但JD未强调使命价值,意义感动机满足中等偏上。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k

快手 的其他在招职位

  • 【快Star】多模态理解算法研究员

    快手 · 深圳市
    AI 估算 · 25k-45k
  • 【快Star】大模型系统开发工程师

    快手 · 北京市
    AI 估算 · 25k-35k
  • 【快Star】数据科学家

    快手 · 北京市
    AI 估算 · 25k-45k
  • 【快Star】具身智能算法研究员

    快手 · 北京市
    AI 估算 · 30k-50k
  • 【快Star】搜索大模型算法工程师

    快手 · 杭州市
    AI 估算 · 30k-60k