Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Kwai logo
快手
大模型评测算法工程师
立即应聘

大模型评测算法工程师

发布于 大约 2 个月前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
软件工程
机器学习
数据分析
LLM
VLM
大模型评测
Auc
F1

AI 估算 · 30k–50k

大厂核心算法岗位,中级经验,北京薪资较高,月薪30k-50k合理。

职位详情

关于这个职位

作为大模型评测算法工程师,你将负责快手LLM、VLM等大模型的评测体系建设和自动化评测工具开发,通过算法手段进行模型效果评估与竞品对比,并探索基于模型内在机理的评测基准

该职位需要扎实的代码能力和数据分析能力,适合对大模型评测有热情、愿意深入技术前沿的算法工程师

最低要求

硕士及以上学历,计算机、通信、人工智能、大数据、统计等相关专业优先

优秀的代码基础,至少掌握一门高级语言,包括但不限于Python、C/C++、Java
具备良好的数据化思维,能够基于数据分析结果给出分析结论,熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式
具备良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识,逻辑清晰、善于分析与总结,对大模型技术有深厚的热情和探索精神
具备良好的视野,善于学习新的知识、阅读论文、动手能力强、有进取心及抗压能力
具有3-5年工作经验

工作职责

负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因

以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比
从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架,包括通用能力、智能应用,如Agent、OpenClaw、CoWork等
探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护
提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表
站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验

优先资格

有参与大模型相关的项目(如LLM、VLM、搜索推荐、agent等任一均可)研发、评测经验优先,同时有大模型应用和research经验优先

有顶会论文、国家或国际奖项、专利获得者、算法竞赛获奖者优先考虑
熟悉常见算法、大模型评测基准、评测方法优先,如LLM-as-a-Judge
对主流大模型评测体系有较好的理解优先,如Bigbench、Harness、OpenCompass等
对大模型技术、大模型评测感兴趣,认可大模型评测工作价值,愿意深耕在大模型领域

AI 洞察

优缺点分析

优点

  • 紧跟大模型技术前沿,深度参与AGI定义,技术成长空间大
  • 快手作为上市大厂,平台资源丰富,可接触海量业务数据
  • 评测岗位稀缺,积累可迁移到任何AI公司的核心经验
  • 大模型评测领域尚在早期,方法论不成熟,需要较强探索能力
  • 评测结果可能影响模型迭代,责任重大,要求严谨细致
  • 适合对大模型有浓厚兴趣、乐于研究评测方法、具备扎实代码和数据分析能力的算法工程师

缺点 / 挑战

  • 工作强度可能较高,需持续跟进最新论文和竞品动态

角色解读

  • 在评测领域深耕,成为大模型评测专家,定义行业评测标准
  • 横向拓展到模型训练、调优等方向,向全栈算法工程师发展
  • 晋升技术管理岗位,带领评测团队,推动组织评测能力建设
  • 设计和执行大模型评测方案,包括评测指标、数据收集和评测执行,输出专业评测报告
  • 利用算法手段对LLM、VLM等进行分阶段效果评测,跟踪行业前沿并对比竞品
  • 探索智能自动化评测方案,参与评测工具的开发与维护
  • 熟练掌握Python/C++/Java等编程语言,具备优秀的代码基础
  • 熟悉模型评估指标(ACC、AUC、F1等)和数据分析方法,能通过数据定位问题
  • 了解大模型评测基准(如Bigbench、OpenCompass)和评测方法(如LLM-as-a-Judge)

申请策略

  • 申请时附上个人技术博客或GitHub项目,展示对大模型评测的理解
  • 了解快手AI产品方向,在面试中体现对业务落地的思考
  • 突出大模型相关项目经验(LLM、VLM、Agent等),尤其是评测或调优经历
  • 强调代码能力:Python/C++项目、开源贡献、算法竞赛获奖
  • 展示数据分析和问题归因案例:如何通过指标发现模型缺陷
  • 熟悉主流评测框架(OpenCompass、Harness)和评测方法(如LLM-as-a-Judge)
  • 补充可解释性、模型机理相关理论知识
  • 阅读顶会论文(如ACL、NeurIPS)中大模型评测相关研究

面试指南

  • STAR法则:描述情境、任务、行动、结果,突出你如何定义评测标准并解决实际问题
  • 对比分析:先分析不同评测方法的优缺点,再给出你的选择及理由
  • 系统思考:从数据、指标、自动化流程、人类反馈等多个角度构建评测体系
  • 如何设计大模型评测指标体系?请举例说明
  • 谈谈你对LLM-as-a-Judge的看法和局限性
  • 如何自动化评测一个对话生成模型的质量?
  • 你如何理解模型的可解释性?在评测中如何应用?
  • 假设发现模型在某个测试集上得分高但实际效果差,你会怎么办?

匹配度报告

70
综合匹配度

大厂核心岗位,前沿技术栈,发展空间大,但工作强度可能较高。

适合人群
适合追求技术前沿、渴望在AI领域快速成长、愿意投入时间钻研的算法工程师,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活30
使命价值85

薪资福利匹配

70中等

快手作为已上市大厂,薪资水平有竞争力,但JD中未提及具体福利,补偿性满足中等偏上。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

95较高

职位聚焦前沿大模型评测,涉及LLM、VLM、AGI定义,技能成长空间大,且鼓励发表论文,发展性极强。

技术前沿前沿/新兴技术
技术栈LLM、VLM、大模型评测、Agent、AGI
业务类型profit_center

工作生活匹配

30较低

工作地点在北京,仅现场办公,未提及弹性工时或远程,WLB信号弱,可能加班较多。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

85较高

大模型评测是AI发展的关键环节,推动AGI定义和行业标准,社会影响力与创新性均较高。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

快手 的其他在招职位

  • 广告投放策略产品实习生-【电商】

    快手 · 北京市
    AI 估算 · 4k-6k
  • AI全栈开发实习生(海外业务)-【KSIB】

    快手 · 北京市
    AI 估算 · 4k-8k
  • 财务BP leader

    快手 · 北京市
    AI 估算 · 50k-80k
  • 海外商业化广告运营实习生-【KSIB】

    快手 · 北京市
    AI 估算 · 4k-6k
  • 诉讼总监(刑事诉讼)

    快手 · 北京市
    AI 估算 · 50k-80k

相似职位推荐

  • 辅助驾驶HMI后处理研发工程师-2027届

    小米 · 北京市
    AI 估算 · 4k-6k
  • 服务端高级研发工程师

    小米 · 武汉市
    AI 估算 · 25k-40k
  • 高级语音测试开发工程师

    小米 · 北京市
    AI 估算 · 30k-45k
  • 微信-基础功能后台开发

    腾讯 · 广州市
    AI 估算 · 20k-35k
  • 微信-AI应用开发工程师

    腾讯 · 广州市
    AI 估算 · 20k-40k

快手 的其他在招职位

  • 广告投放策略产品实习生-【电商】

    快手 · 北京市
    AI 估算 · 4k-6k
  • AI全栈开发实习生(海外业务)-【KSIB】

    快手 · 北京市
    AI 估算 · 4k-8k
  • 财务BP leader

    快手 · 北京市
    AI 估算 · 50k-80k
  • 海外商业化广告运营实习生-【KSIB】

    快手 · 北京市
    AI 估算 · 4k-6k
  • 诉讼总监(刑事诉讼)

    快手 · 北京市
    AI 估算 · 50k-80k

相似职位推荐

  • 辅助驾驶HMI后处理研发工程师-2027届

    小米 · 北京市
    AI 估算 · 4k-6k
  • 服务端高级研发工程师

    小米 · 武汉市
    AI 估算 · 25k-40k
  • 高级语音测试开发工程师

    小米 · 北京市
    AI 估算 · 30k-45k
  • 微信-基础功能后台开发

    腾讯 · 广州市
    AI 估算 · 20k-35k
  • 微信-AI应用开发工程师

    腾讯 · 广州市
    AI 估算 · 20k-40k