快手的多模态大模型后训练算法专家-【Keye】薪资是多少？

该职位薪资范围为 55k–90k（人民币/月）。

多模态大模型后训练算法专家-【Keye】的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及专家级经验工作经验。

🤖 AI 估测：¥55K-90K

发布时间：15 天前

这是一个专注于多模态大模型后训练算法研发的高级技术岗位

你将主导快手自研大模型Keye的后训练全流程优化，包括指令微调、强化学习对齐、模型蒸馏等，旨在提升模型在短视频、电商等垂直领域的理解与推理能力

同时，你需要参与合成数据生成、质量评估体系构建，并推动前沿技术（如自动化SFT、轻量化RLHF）的研究与落地，最终将技术成果集成到快手短视频社区及电商业务中

主导多模态大模型（Keye）基座模型的后训练全流程优化，包括指令微调（SFT）、强化学习（RLHF/DPO/PPO）、模型蒸馏等技术的研发与工程实现，持续提升模型在通用领域及垂直领域（如短视频理解、电商理解）的泛化能力和安全性

参与多模态合成数据生成（覆盖纯文本、图文及视频等内容理解维度）、建立数据质量评估体系，设计数据蒸馏流程，推动数据-模型-评测迭代优化

面向短视频社区、电商内容理解等场景，解决后训练阶段的核心挑战，如跨模态对齐一致性、长上下文推理、多任务指令冲突优化以及多模态智能推理探索等

推动技术成果转化，主导模型在快手短视频社区的集成落地（例如RAG增强系统、多模态Agent任务规划），并通过API封装与服务化支撑业务创新

跟踪前沿多模态大模型后训练技术的前沿演进，探索SFT自动化迭代、轻量化RLHF以及reward model一体化等创新技术方向，形成专利或顶会论文提升团队技术影响力

硕士及以上学历，计算机科学、人工智能、自动化、数学等相关专业优先

精通多模态任务设计范式（如视觉思维链、跨模态推理链），具备CoT提示工程、Reward Model设计经验，掌握合成数据生成、多模态数据清洗、数据质量评估工具开发

熟练应用PyTorch+DeepSpeed、Megatron-LM等分布式框架，精通QLoRA、DPO、RLHF以及PPO/GRPO/DAPO等后训练技术

主导过千亿级模型的后训练全流程，包括SFT数据构建、RM训练、RLHF/DPO对齐优化、端侧量化部署

具备丰富的多模态数据治理经验，如构建百万级图文对齐数据集，或设计视频-文本跨模态评测基准

热衷于推动多模态大模型、生成式AI、Agent等前沿技术在快手生态中的发展与应用，能系统性拆解业务需求为并制定可量化的任务目标

具备跨团队协同能力，能够有效推动算法、数据、工程团队建立标准化数据交付流程

多模态大模型后训练算法专家-【Keye】

🤖 AI 估测：¥55K-90K

发布时间：15 天前