Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Meituan logo
美团
小团-评测负责人
立即应聘

小团-评测负责人

发布于 5 天前

中层管理(经理/总监)

北京市
高级经验
全职员工
仅现场办公
学历未注明
质量管理
LLM
SKILL
外包管理
C端产品
评测体系
系统化思考
自动化Pipeline
Badcase归因
Eval-Driven Development

AI 估算 · 35k–45k

高级管理岗,美团核心业务,需LLM/Agent经验,薪资竞争力强

职位详情

关于这个职位

作为美团AI评测体系的负责人,你将从头搭建AI产品的评测标准和方法论,管理自动化测评pipeline和外包团队,并驱动评测结论闭环

这是一个从0到1的核心岗位,直接决定AI产品迭代方向,适合有C端产品或算法背景、渴望塑造AI质量体系的资深人才

最低要求

产品通道 / 研发通道 双通道均可 2、5年+ C端产品经验 或 5年+ 工程/算法经验 3、产品审美和系统化思考能力强 4、理解 LLM/Agent/Skill 概念并有落地经验,需主动补充评测专业 knowhow(评测方法论、指标设计等)

工作职责

从0到1搭建AI评测体系——明确评测能力范围、标准维度,与体验评测厘清边界

定义上下游流转机制——打通与产品、研发、体验团队的评测需求接入和结论交付链路
建设自动化测评 pipeline——设计并落地端到端的评测工具链,提升评测效率和覆盖度
管理外包团队——拆分外包职能、制定细化考核标准,把控评测产出质量
驱动评测结论闭环——从 badcase 归因到效果改进的推动,确保评测不只是"打分"而是"驱动迭代"

AI 洞察

优缺点分析

优点

  • 从0到1搭建体系,有极大的塑造空间,不是维护成熟流程
  • 处于核心链路位置,直接决定产品迭代方向,是质量决策者
  • 双通道灵活度,产品或研发背景均可,不卡死路径
  • 从零开始建设,需要快速学习和试错,责任重大
  • 管理外包团队,需要较强的沟通和考核能力,确保产出质量
  • 评测体系涉及多部门协作,推动闭环需要较强的跨团队影响力
  • 适合具有丰富C端产品或算法经验,渴望在AI领域从0到1主导建设,并愿意承担管理责任的技术管理者

缺点 / 挑战

暂无明显挑战项

角色解读

  • 成为AI质量保障领域的专家,定义行业评测标准
  • 向AI产品总监或技术总监方向发展,主导更大范围的产品质量
  • 在美团内部可横向拓展到其他业务线的质量决策角色
  • 负责从0到1搭建AI产品的评测体系,定义评测标准和维度
  • 建设自动化测评pipeline,设计端到端工具链提升效率
  • 管理外包团队,制定考核标准,把控评测产出质量
  • 驱动badcase归因到效果改进的闭环,确保评测驱动产品迭代
  • 深入理解LLM/Agent/Skill概念并有落地经验
  • 强大的产品审美和系统化思考能力,能设计复杂评测体系
  • 掌握评测方法论和指标设计,能主动补充专业knowhow
  • 项目管理与团队管理能力,特别是外包团队的管理经验

申请策略

  • 准备一份关于如何设计AI评测体系的想法(PPT或文档),展示系统性思考
  • 了解美团本地生活业务(外卖、到店等)的独特场景,思考其评测挑战
  • 突出你搭建或重构评测体系的经历,尤其是从0到1的案例
  • 详细描述LLM/Agent相关项目的落地经验,包括技术选型和效果
  • 强调团队管理经验,特别是外包或跨职能团队的管理成果
  • 展示产品审美和系统化思考的具体例证,如设计复杂指标或流程
  • 系统学习LLM评估的常用方法和指标(如BLEU、ROUGE、人工评估等)
  • 了解自动化测试工具链(如CI/CD、pipeline编排工具)以赋能评测

面试指南

  • 使用STAR原则(情境、任务、行动、结果)描述过往案例,强调系统性思考和量化结果
  • 对于开放式设计问题,先明确目标用户和使用场景,再拆解关键质量维度,最后提出评估方法和指标
  • 对于管理类问题,展示流程制定、标准定义、持续监控和改进的闭环思维
  • 如果让你为美团的AI客服系统设计评测体系,你会从哪些维度入手?
  • 请分享一个你通过badcase归因推动产品改进的具体案例
  • 你如何管理外包团队以确保评测产出的质量和效率?
  • 谈谈你对Eval-Driven Development的理解,以及它如何落地?
  • 你是如何看待LLM评估中人工评估与自动评估的平衡?

匹配度报告

55
综合匹配度

美团核心业务,前沿AI评测体系搭建,高发展性,现场办公,薪资面议。

适合人群
最适合追求职业发展、技术前沿和影响产品方向的发展型求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利45
成长发展90
工作生活30
使命价值55

薪资福利匹配

45较低

薪资未在JD中披露,需面议,但大型上市公司高级岗位通常有竞争力;福利未提及,补偿性动机满足度中等偏低。

薪资信号未披露(AI估算:35K-45K/月)

成长发展匹配

90较高

从0到1搭建AI评测体系,核心链路位置,双通道灵活,发展空间极大,技能成长和晋升机会突出。

技术前沿前沿/新兴技术
技术栈LLM、Agent、Skill、自动化pipeline、评测体系
业务类型profit_center

工作生活匹配

30较低

仅现场办公,未提及弹性工作或福利,北京核心地段通勤压力大,WLB信号弱。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

55较低

美团本地生活行业稳定成熟,社会影响力中性,但AI评测驱动产品迭代有一定意义感。

行业发展稳定成熟行业
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 运输调度主管

    美团 · 广州市
    AI 估算 · 10k-18k
  • 数据产品经理

    美团 · 北京市
    AI 估算 · 30k-50k
  • 白班运营主管

    美团 · 重庆市
    AI 估算 · 8k-12k
  • AI Builder-供给理解

    美团 · 北京市
    AI 估算 · 30k-50k
  • Litigation Legal Counsel, Saudi Arabia

    美团 · 利雅得
    AI 估算 · 20k-35k

相似职位推荐

  • Game QA Intern

    维塔士 · 成都市
    AI 估算 · 2k-4k
  • 系统测试工程师 南京

    西门子 · 南京市
    AI 估算 · 15k-25k
  • Sr Laboratory Technician

    美泰 · 深圳市
    AI 估算 · 8k-15k
  • 计量员

    麦格纳 · 南昌市
    AI 估算 · 5k-8k
  • Sr Quality Engineer(NPI)

    捷普 · 无锡市
    AI 估算 · 15k-25k

美团 的其他在招职位

  • 运输调度主管

    美团 · 广州市
    AI 估算 · 10k-18k
  • 数据产品经理

    美团 · 北京市
    AI 估算 · 30k-50k
  • 白班运营主管

    美团 · 重庆市
    AI 估算 · 8k-12k
  • AI Builder-供给理解

    美团 · 北京市
    AI 估算 · 30k-50k
  • Litigation Legal Counsel, Saudi Arabia

    美团 · 利雅得
    AI 估算 · 20k-35k

相似职位推荐

  • Game QA Intern

    维塔士 · 成都市
    AI 估算 · 2k-4k
  • 系统测试工程师 南京

    西门子 · 南京市
    AI 估算 · 15k-25k
  • Sr Laboratory Technician

    美泰 · 深圳市
    AI 估算 · 8k-15k
  • 计量员

    麦格纳 · 南昌市
    AI 估算 · 5k-8k
  • Sr Quality Engineer(NPI)

    捷普 · 无锡市
    AI 估算 · 15k-25k