Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Kwai logo
快手
多模态大模型评测工程师-【可灵AI专项】
立即应聘

多模态大模型评测工程师-【可灵AI专项】

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
自动化
数据分析
LLM
AIGC
工具链
图像生成
多模态大模型
评测

AI 估算 · 25k–45k

北京互联网大厂中级工程师薪资,结合多模态评测方向技术门槛较高,薪资具备竞争力。

职位详情

关于这个职位

该职位负责快手可灵AI的多模态大模型评测工作,覆盖文生图、图像编辑等方向

需要你具备扎实的工程能力,同时从数据分析角度深入理解模型效果,参与自动化评测工具链建设
工作直接推动模型迭代和产品体验优化,适合有测试开发或数据分析背景、希望转向大模型评测的同学

最低要求

本科及以上学历,计算机、人工智能、软件工程、数据科学、自动化等相关专业优先

具备扎实的软件工程能力,能够独立完成评测工具、自动化流程、数据处理 pipeline 或平台系统的设计与实现
具备较好质量意识,且对大模型、多模态模型、图像生成或图像编辑有兴趣,能够主动理解模型能力、模型缺陷与数据分布之间的关系
具备较强的数据分析和问题归因能力,能够从评测结果、线上数据和用户行为中定位问题,并推动后续优化
具备良好的沟通能力,能够与算法、数据、产品、平台团队协作,推动评测标准和工程方案统一
具备以下任一方向经验即可:
○ 测试开发:有自动化测试、测试平台、质量体系、稳定性保障、效果评测相关经验
○ 数据分析:有数据清洗、分布分析、指标建设、A/B test、实验分析相关经验
○ 算法评测 / 模型评测:有 CV、多模态/LLM、AIGC、推荐、搜索、广告等模型评测经验

工作职责

以算法视角,参与快手大模型文生图、图像编辑评测工作、算子评估和相关评测体系建设

参与评测相关自动化评测工具开发及维护,最大化提高评测效率
以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测
参与构建评测Agent工具链、机评设计、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设

优先资格

有 AIGC、多模态大模型、图像生成、图像编辑、VLM、Agent 等相关项目经验

有评测平台、对战平台、模型竞技场、自动化评测系统、数据飞轮建设经验
熟悉 diffusion、VLM、LLM、prompt engineering、偏好模型、reward model、VLM-as-Judge 等相关概念
熟悉 SuperCLUE、LMArena、GenAI-Bench、HEIM、T2I-CompBench、DPG-Bench、EditBench 等评测基准或方法论
有较好的图像审美能力,能够从构图、风格、真实感、文字准确性、主体一致性、指令遵循等角度判断生成效果
有复杂项目推进经验,能够跨团队推动评测标准、工具链或数据流程落地

AI 洞察

优缺点分析

优点

  • 参与前沿多模态大模型核心评测,直接贡献模型迭代,技术影响力大
  • 涉及自动化工具链和 Agent 建设,工程能力提升空间大
  • 快手已上市,平台稳定,薪资福利有竞争力
  • 团队氛围鼓励创新,适合从传统测试开发转型的同学
  • 多模态评测标准尚不成熟,需要不断探索和迭代,有一定不确定性
  • 工作节奏可能较快,尤其在模型迭代密集期
  • 适合具备工程开发能力、对 AI 模型评测有浓厚兴趣、愿意深入理解模型效果并推动优化的技术人才

缺点 / 挑战

  • 对工程和算法双重能力要求较高,需要持续学习新知识

角色解读

  • 深耕评测领域,成为大模型评测专家,主导评测体系设计
  • 横向扩展至算法或数据科学方向,结合评测经验参与模型调优
  • 转向 AI 工具链或平台开发,构建更智能的评测基础设施
  • 设计和执行多模态大模型的评测方案,覆盖文生图、图像编辑等方向,确保模型效果符合预期
  • 开发自动化评测工具和数据处理 pipeline,提升评测效率和准确性
  • 通过数据分析和问题归因,定位模型缺陷并与算法团队协作优化
  • 参与构建评测 Agent、模型竞技场等前沿工具链,推动评测体系标准化
  • 扎实的软件工程能力,能独立开发评测工具或平台
  • 较强的数据分析能力,能从评测结果和用户行为中发现问题
  • 对多模态大模型、图像生成有一定理解,了解质量评估维度
  • 良好的跨团队沟通协作能力

申请策略

  • 在求职信或面试中表达对多模态生成质量的理解,展现审美和评测思考
  • 关注快手可灵 AI 的产品动态,提前了解其文生图特点
  • 突出自动化测试或数据处理平台的开发经验,展示独立完成项目的能力
  • 强调数据分析项目,尤其是与模型效果或用户行为相关的分析案例
  • 如有大模型或 AIGC 相关项目(哪怕只是探索),务必提及
  • 展示跨团队协作和推动复杂项目落地的经历
  • 提前熟悉主流多模态评测基准(如 LMArena、GenAI-Bench)的评估方法
  • 补充 Python 工程技能,如 pytest、CI/CD、数据处理库(pandas、numpy)

面试指南

  • 对于评测设计类问题,可从准确率、召回率、人类偏好、公平性等维度展开,结合工程实现细节
  • 对项目经验问题,使用 STAR 方法(情境、任务、行动、结果),突出技术细节和量化成果
  • 对技术原理问题,不必过于深入,但需展示基本理解(如 diffusion 的去噪过程、VLM 的视觉编码)
  • 如何设计一个文生图模型的评测方案?需要考虑哪些维度?
  • 描述一个你以前做过的自动化测试或数据处理项目,遇到了什么挑战?
  • 如何看待自动评测与人工评测的优缺点?如何结合?
  • 如果评测发现模型生成图有某种缺陷,如何定位原因?
  • 你对多模态大模型(如 diffusion、VLM)的原理了解多少?

职位点评

74
综合评分

快手可灵AI核心评测岗,前沿多模态技术栈,强成长性但WLB一般。

更适合这类人
该职位最适合追求技术前沿和快速成长的求职者,愿意投入时间获取大模型评测核心技能。
表现最好
成长发展
相对薄弱
工作生活
薪资福利80
成长发展90
工作生活50
使命价值75

薪资福利

80较高

快手已上市且为行业头部,薪资福利具有竞争力,但薪资未在JD中明确,需面议。

薪资信号面议 (25K-45K/月)

成长发展

90较高

该职位处于多模态大模型前沿赛道,涉及大量新技术(Agent、VLM-as-Judge等),技能成长空间极大。

技术前沿前沿/新兴技术
技术栈多模态大模型、文生图、图像编辑、Agent、LLM、VLM、diffusion、prompt engineering
成长机会参与评测 Agent、模型竞技场、偏好模型、自动化机评、应用数据飞轮等前沿工具链建设
业务类型profit_center

工作生活

50较低

工作地点在北京快手总部,现场办公,未提及弹性工作制,互联网大厂通常有一定加班文化。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

75中等

多模态大模型是当前AI热点,行业高速发展,工作直接推动模型效果提升,具有一定社会价值。

行业发展高速增长赛道
社会影响中性/一般
使命信号工作结果直接影响模型迭代、产品体验和算法优化方向
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 行业运营(汽车业务效果广告方向)-【生活服务】

    快手 · 北京市
    AI 估算 · 25k-40k
  • Java研发工程师(AI客户服务)-【商业化】

    快手 · 北京市
    AI 估算 · 25k-40k
  • 市场IP内容策划-【快手小卖部】

    快手 · 北京市
    AI 估算 · 2k-4k
  • 商业产品实习生(平台方向)

    快手 · 北京市
    AI 估算 · 4k-8k
  • 网络实习生 - 【IT中心】

    快手 · 北京市
    AI 估算 · 4k-7k

相似职位推荐

  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 能耗优化算法工程师(AI实验室)-2027届

    小米 · 北京市
    AI 估算 · 20k-30k
  • 感知算法专家

    小米 · 北京市
    AI 估算 · 35k-65k
  • 热管理系统测试工程师-实习-2027届

    小米 · 南京市
    AI 估算 · 5k-8k
  • 算法工程师

    小米 · 武汉市
    AI 估算 · 15k-25k

快手 的其他在招职位

  • 行业运营(汽车业务效果广告方向)-【生活服务】

    快手 · 北京市
    AI 估算 · 25k-40k
  • Java研发工程师(AI客户服务)-【商业化】

    快手 · 北京市
    AI 估算 · 25k-40k
  • 市场IP内容策划-【快手小卖部】

    快手 · 北京市
    AI 估算 · 2k-4k
  • 商业产品实习生(平台方向)

    快手 · 北京市
    AI 估算 · 4k-8k
  • 网络实习生 - 【IT中心】

    快手 · 北京市
    AI 估算 · 4k-7k

相似职位推荐

  • 车身内外饰试验验证工程师

    小米 · 上海市
    AI 估算 · 15k-25k
  • 能耗优化算法工程师(AI实验室)-2027届

    小米 · 北京市
    AI 估算 · 20k-30k
  • 感知算法专家

    小米 · 北京市
    AI 估算 · 35k-65k
  • 热管理系统测试工程师-实习-2027届

    小米 · 南京市
    AI 估算 · 5k-8k
  • 算法工程师

    小米 · 武汉市
    AI 估算 · 15k-25k