Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/美团/大模型评测专家
Meituan logo
M
美团 (Meituan)

职位信息

北京市
高级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

💡

核心评价

前沿大厂技术岗,成长空间巨大,薪资竞争力强,但工作地点固定且WLB信号不明。

大模型评测专家

🤖 AI 估测:¥35K-60K

发布时间:11 天前

立即应聘

ℹ️关于这个职位

该职位是美团平台的大模型评测专家,核心工作是构建和优化大模型的评测体系
你将负责设计评测框架、搭建自动化评测流水线、管理数据生产质量,并通过评测报告驱动模型迭代优化
这是一个深度参与前沿AI技术实践、对专业能力和工程能力要求都很高的技术岗位

✓工作职责

评测体系建设:面向用户交互场景,设计覆盖基座模型、端到端Agent、用户体验等场景的评测框架和标准,保障评测可解释可复现,并主导Benchmark数据集构建与持续迭代,防控数据污染与评测失效
搭建自动化评测工程:通过judge model等自动评测流水线,设计多评委协作机制,控制评测偏见,持续提升自动评测与人工标注的一致性,推动评测提效
数据生产与质量管控:主导评测/训练数据合成方案设计,建立标注规范与质检体系,同时与数据团队协作,保障大规模数据生产的稳定性与准确性
模型迭代支撑:输出结构化评测报告,将评测结论转化为可落地的优化建议,与模型训练团队深度协作,建立“评测→优化→再评测”闭环
沉淀团队评测方法论,输出可复用框架与工具

⭐最低要求

计算机、人工智能、统计学、数学或相关专业,本科及以上学历,3年大模型评测工作经验以上优先
熟悉业界主流评测工具集和评测集,有独立设计评测框架和评测标准经验
了解Python语言,有实际开发、测试开发或评测工具开发经验优先
具备模型和AI产品分析能力,根据评测结论提出优化建议,驱动优化落地
关注业界前沿AI模型和产品发展,关注AI前沿评测方法发展,并转化为内部评测实践,并且能够熟练借助AI工具进行快速验证,具备Vibe coding或自动化流程搭建能力,支持方案快速验证与落地迭代
积极主动,对AI和大模型领域有激情,喜欢找办法解决问题,具备较强的团队协作能力、组织协调能力、复杂问题解决能力

👍优先资格

3年大模型评测工作经验以上优先
有实际开发、测试开发或评测工具开发经验优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 招聘负责人

    美团

    上海市 · 仅现场办公

  • Operations Data Analyst Intern

    美团

    北京市 · 仅现场办公

  • 广州经营主管

    美团

    佛山市 · 仅现场办公

  • 核心本地商业招聘经理-上海

    美团

    上海市 · 仅现场办公

  • 生产主管

    美团

    广州市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公