快手的多模态大模型评测工程师-【可灵AI专项】薪资是多少？

该职位薪资范围为 25k–45k（人民币/月）。

多模态大模型评测工程师-【可灵AI专项】的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

快手的多模态大模型评测工程师-【可灵AI专项】有什么任职要求？

该职位要求本科学历及中级经验工作经验。

快手

多模态大模型评测工程师-【可灵AI专项】

立即应聘

多模态大模型评测工程师-【可灵AI专项】

发布于大约 16 小时前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

自动化

数据分析

LLM

AIGC

工具链

图像生成

多模态大模型

评测

AI 估算 · 25k–45k

北京互联网大厂中级工程师薪资，结合多模态评测方向技术门槛较高，薪资具备竞争力。

职位详情

关于这个职位

该职位负责快手可灵AI的多模态大模型评测工作，覆盖文生图、图像编辑等方向

需要你具备扎实的工程能力，同时从数据分析角度深入理解模型效果，参与自动化评测工具链建设

工作直接推动模型迭代和产品体验优化，适合有测试开发或数据分析背景、希望转向大模型评测的同学

最低要求

本科及以上学历，计算机、人工智能、软件工程、数据科学、自动化等相关专业优先

具备扎实的软件工程能力，能够独立完成评测工具、自动化流程、数据处理 pipeline 或平台系统的设计与实现

具备较好质量意识，且对大模型、多模态模型、图像生成或图像编辑有兴趣，能够主动理解模型能力、模型缺陷与数据分布之间的关系

具备较强的数据分析和问题归因能力，能够从评测结果、线上数据和用户行为中定位问题，并推动后续优化

具备良好的沟通能力，能够与算法、数据、产品、平台团队协作，推动评测标准和工程方案统一

具备以下任一方向经验即可：

○ 测试开发：有自动化测试、测试平台、质量体系、稳定性保障、效果评测相关经验

○ 数据分析：有数据清洗、分布分析、指标建设、A/B test、实验分析相关经验

○ 算法评测 / 模型评测：有 CV、多模态/LLM、AIGC、推荐、搜索、广告等模型评测经验

工作职责

以算法视角，参与快手大模型文生图、图像编辑评测工作、算子评估和相关评测体系建设

参与评测相关自动化评测工具开发及维护，最大化提高评测效率

以算法手段，对基座大模型和AI Native应用进行分阶段、端到端评测

参与构建评测Agent工具链、机评设计、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设

优先资格

有 AIGC、多模态大模型、图像生成、图像编辑、VLM、Agent 等相关项目经验

有评测平台、对战平台、模型竞技场、自动化评测系统、数据飞轮建设经验

熟悉 diffusion、VLM、LLM、prompt engineering、偏好模型、reward model、VLM-as-Judge 等相关概念

熟悉 SuperCLUE、LMArena、GenAI-Bench、HEIM、T2I-CompBench、DPG-Bench、EditBench 等评测基准或方法论

有较好的图像审美能力，能够从构图、风格、真实感、文字准确性、主体一致性、指令遵循等角度判断生成效果

有复杂项目推进经验，能够跨团队推动评测标准、工具链或数据流程落地

AI 洞察

优缺点分析

优点

参与前沿多模态大模型核心评测，直接贡献模型迭代，技术影响力大
涉及自动化工具链和 Agent 建设，工程能力提升空间大
快手已上市，平台稳定，薪资福利有竞争力
团队氛围鼓励创新，适合从传统测试开发转型的同学
多模态评测标准尚不成熟，需要不断探索和迭代，有一定不确定性
工作节奏可能较快，尤其在模型迭代密集期
适合具备工程开发能力、对 AI 模型评测有浓厚兴趣、愿意深入理解模型效果并推动优化的技术人才

缺点 / 挑战

对工程和算法双重能力要求较高，需要持续学习新知识

角色解读

深耕评测领域，成为大模型评测专家，主导评测体系设计
横向扩展至算法或数据科学方向，结合评测经验参与模型调优
转向 AI 工具链或平台开发，构建更智能的评测基础设施
设计和执行多模态大模型的评测方案，覆盖文生图、图像编辑等方向，确保模型效果符合预期
开发自动化评测工具和数据处理 pipeline，提升评测效率和准确性
通过数据分析和问题归因，定位模型缺陷并与算法团队协作优化
参与构建评测 Agent、模型竞技场等前沿工具链，推动评测体系标准化
扎实的软件工程能力，能独立开发评测工具或平台
较强的数据分析能力，能从评测结果和用户行为中发现问题
对多模态大模型、图像生成有一定理解，了解质量评估维度
良好的跨团队沟通协作能力

申请策略

在求职信或面试中表达对多模态生成质量的理解，展现审美和评测思考
关注快手可灵 AI 的产品动态，提前了解其文生图特点
突出自动化测试或数据处理平台的开发经验，展示独立完成项目的能力
强调数据分析项目，尤其是与模型效果或用户行为相关的分析案例
如有大模型或 AIGC 相关项目（哪怕只是探索），务必提及
展示跨团队协作和推动复杂项目落地的经历
提前熟悉主流多模态评测基准（如 LMArena、GenAI-Bench）的评估方法
补充 Python 工程技能，如 pytest、CI/CD、数据处理库（pandas、numpy）

面试指南

对于评测设计类问题，可从准确率、召回率、人类偏好、公平性等维度展开，结合工程实现细节
对项目经验问题，使用 STAR 方法（情境、任务、行动、结果），突出技术细节和量化成果
对技术原理问题，不必过于深入，但需展示基本理解（如 diffusion 的去噪过程、VLM 的视觉编码）
如何设计一个文生图模型的评测方案？需要考虑哪些维度？
描述一个你以前做过的自动化测试或数据处理项目，遇到了什么挑战？
如何看待自动评测与人工评测的优缺点？如何结合？
如果评测发现模型生成图有某种缺陷，如何定位原因？
你对多模态大模型（如 diffusion、VLM）的原理了解多少？

职位点评

综合评分

快手可灵AI核心评测岗，前沿多模态技术栈，强成长性但WLB一般。

更适合这类人

该职位最适合追求技术前沿和快速成长的求职者，愿意投入时间获取大模型评测核心技能。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值75

薪资福利

80较高

快手已上市且为行业头部，薪资福利具有竞争力，但薪资未在JD中明确，需面议。

薪资信号面议 (25K-45K/月)

成长发展

90较高

该职位处于多模态大模型前沿赛道，涉及大量新技术（Agent、VLM-as-Judge等），技能成长空间极大。

技术前沿前沿/新兴技术

技术栈多模态大模型、文生图、图像编辑、Agent、LLM、VLM、diffusion、prompt engineering

成长机会参与评测 Agent、模型竞技场、偏好模型、自动化机评、应用数据飞轮等前沿工具链建设

业务类型profit_center

工作生活

50较低

工作地点在北京快手总部，现场办公，未提及弹性工作制，互联网大厂通常有一定加班文化。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

75中等

多模态大模型是当前AI热点，行业高速发展，工作直接推动模型效果提升，具有一定社会价值。

行业发展高速增长赛道

社会影响中性/一般

使命信号工作结果直接影响模型迭代、产品体验和算法优化方向

创新程度积极采用新技术

Watch Jobs

快手

多模态大模型评测工程师-【可灵AI专项】

立即应聘

多模态大模型评测工程师-【可灵AI专项】

发布于大约 16 小时前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

自动化

数据分析

LLM

AIGC

工具链

图像生成

多模态大模型

评测

AI 估算 · 25k–45k

北京互联网大厂中级工程师薪资，结合多模态评测方向技术门槛较高，薪资具备竞争力。

职位详情

关于这个职位

该职位负责快手可灵AI的多模态大模型评测工作，覆盖文生图、图像编辑等方向

需要你具备扎实的工程能力，同时从数据分析角度深入理解模型效果，参与自动化评测工具链建设

工作直接推动模型迭代和产品体验优化，适合有测试开发或数据分析背景、希望转向大模型评测的同学

最低要求

本科及以上学历，计算机、人工智能、软件工程、数据科学、自动化等相关专业优先

具备扎实的软件工程能力，能够独立完成评测工具、自动化流程、数据处理 pipeline 或平台系统的设计与实现

具备较好质量意识，且对大模型、多模态模型、图像生成或图像编辑有兴趣，能够主动理解模型能力、模型缺陷与数据分布之间的关系

具备较强的数据分析和问题归因能力，能够从评测结果、线上数据和用户行为中定位问题，并推动后续优化

具备良好的沟通能力，能够与算法、数据、产品、平台团队协作，推动评测标准和工程方案统一

具备以下任一方向经验即可：

○ 测试开发：有自动化测试、测试平台、质量体系、稳定性保障、效果评测相关经验

○ 数据分析：有数据清洗、分布分析、指标建设、A/B test、实验分析相关经验

○ 算法评测 / 模型评测：有 CV、多模态/LLM、AIGC、推荐、搜索、广告等模型评测经验

工作职责

以算法视角，参与快手大模型文生图、图像编辑评测工作、算子评估和相关评测体系建设

参与评测相关自动化评测工具开发及维护，最大化提高评测效率

以算法手段，对基座大模型和AI Native应用进行分阶段、端到端评测

参与构建评测Agent工具链、机评设计、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设

优先资格

有 AIGC、多模态大模型、图像生成、图像编辑、VLM、Agent 等相关项目经验

有评测平台、对战平台、模型竞技场、自动化评测系统、数据飞轮建设经验

熟悉 diffusion、VLM、LLM、prompt engineering、偏好模型、reward model、VLM-as-Judge 等相关概念

熟悉 SuperCLUE、LMArena、GenAI-Bench、HEIM、T2I-CompBench、DPG-Bench、EditBench 等评测基准或方法论

有较好的图像审美能力，能够从构图、风格、真实感、文字准确性、主体一致性、指令遵循等角度判断生成效果

有复杂项目推进经验，能够跨团队推动评测标准、工具链或数据流程落地

AI 洞察

优缺点分析

优点

参与前沿多模态大模型核心评测，直接贡献模型迭代，技术影响力大
涉及自动化工具链和 Agent 建设，工程能力提升空间大
快手已上市，平台稳定，薪资福利有竞争力
团队氛围鼓励创新，适合从传统测试开发转型的同学
多模态评测标准尚不成熟，需要不断探索和迭代，有一定不确定性
工作节奏可能较快，尤其在模型迭代密集期
适合具备工程开发能力、对 AI 模型评测有浓厚兴趣、愿意深入理解模型效果并推动优化的技术人才

缺点 / 挑战

对工程和算法双重能力要求较高，需要持续学习新知识

角色解读

深耕评测领域，成为大模型评测专家，主导评测体系设计
横向扩展至算法或数据科学方向，结合评测经验参与模型调优
转向 AI 工具链或平台开发，构建更智能的评测基础设施
设计和执行多模态大模型的评测方案，覆盖文生图、图像编辑等方向，确保模型效果符合预期
开发自动化评测工具和数据处理 pipeline，提升评测效率和准确性
通过数据分析和问题归因，定位模型缺陷并与算法团队协作优化
参与构建评测 Agent、模型竞技场等前沿工具链，推动评测体系标准化
扎实的软件工程能力，能独立开发评测工具或平台
较强的数据分析能力，能从评测结果和用户行为中发现问题
对多模态大模型、图像生成有一定理解，了解质量评估维度
良好的跨团队沟通协作能力

申请策略

在求职信或面试中表达对多模态生成质量的理解，展现审美和评测思考
关注快手可灵 AI 的产品动态，提前了解其文生图特点
突出自动化测试或数据处理平台的开发经验，展示独立完成项目的能力
强调数据分析项目，尤其是与模型效果或用户行为相关的分析案例
如有大模型或 AIGC 相关项目（哪怕只是探索），务必提及
展示跨团队协作和推动复杂项目落地的经历
提前熟悉主流多模态评测基准（如 LMArena、GenAI-Bench）的评估方法
补充 Python 工程技能，如 pytest、CI/CD、数据处理库（pandas、numpy）

面试指南

对于评测设计类问题，可从准确率、召回率、人类偏好、公平性等维度展开，结合工程实现细节
对项目经验问题，使用 STAR 方法（情境、任务、行动、结果），突出技术细节和量化成果
对技术原理问题，不必过于深入，但需展示基本理解（如 diffusion 的去噪过程、VLM 的视觉编码）
如何设计一个文生图模型的评测方案？需要考虑哪些维度？
描述一个你以前做过的自动化测试或数据处理项目，遇到了什么挑战？
如何看待自动评测与人工评测的优缺点？如何结合？
如果评测发现模型生成图有某种缺陷，如何定位原因？
你对多模态大模型（如 diffusion、VLM）的原理了解多少？

职位点评

综合评分

快手可灵AI核心评测岗，前沿多模态技术栈，强成长性但WLB一般。

更适合这类人

该职位最适合追求技术前沿和快速成长的求职者，愿意投入时间获取大模型评测核心技能。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活50

使命价值75

薪资福利

80较高

快手已上市且为行业头部，薪资福利具有竞争力，但薪资未在JD中明确，需面议。

薪资信号面议 (25K-45K/月)

成长发展

90较高

该职位处于多模态大模型前沿赛道，涉及大量新技术（Agent、VLM-as-Judge等），技能成长空间极大。

技术前沿前沿/新兴技术

技术栈多模态大模型、文生图、图像编辑、Agent、LLM、VLM、diffusion、prompt engineering

成长机会参与评测 Agent、模型竞技场、偏好模型、自动化机评、应用数据飞轮等前沿工具链建设

业务类型profit_center

工作生活

50较低

工作地点在北京快手总部，现场办公，未提及弹性工作制，互联网大厂通常有一定加班文化。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

75中等

多模态大模型是当前AI热点，行业高速发展，工作直接推动模型效果提升，具有一定社会价值。

行业发展高速增长赛道

社会影响中性/一般

使命信号工作结果直接影响模型迭代、产品体验和算法优化方向

创新程度积极采用新技术

Watch Jobs

多模态大模型评测工程师-【可灵AI专项】

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

多模态大模型评测工程师-【可灵AI专项】

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

快手 的其他在招职位

行业运营（汽车业务效果广告方向）-【生活服务】

Java研发工程师（AI客户服务）-【商业化】

市场IP内容策划-【快手小卖部】

商业产品实习生（平台方向）

网络实习生 - 【IT中心】

相似职位推荐

车身内外饰试验验证工程师

能耗优化算法工程师（AI实验室）-2027届

感知算法专家

热管理系统测试工程师-实习-2027届

算法工程师

快手 的其他在招职位

行业运营（汽车业务效果广告方向）-【生活服务】

Java研发工程师（AI客户服务）-【商业化】

市场IP内容策划-【快手小卖部】

商业产品实习生（平台方向）

网络实习生 - 【IT中心】

相似职位推荐

车身内外饰试验验证工程师

能耗优化算法工程师（AI实验室）-2027届

感知算法专家

热管理系统测试工程师-实习-2027届

算法工程师

快手的其他在招职位

快手的其他在招职位