Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Meituan logo
美团
大模型应用评测算法工程师
立即应聘

大模型应用评测算法工程师

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
数据分析
PyTorch
多模态
大模型
评测
自动化评测
Red Team

AI 估算 · 25k–45k

大模型方向人才稀缺,美团平台加持,薪资有竞争力,技术难度高,一线大厂标准15薪

职位详情

关于这个职位

该职位主要负责大模型(包括语言、视觉、多模态等)的应用评测与研究工作,需要建设评测体系、开发自动化评测工具,并分析模型能力短板以指导模型优化

你将接触到海量真实数据和丰富GPU资源,与顶尖算法人才一起推动AGI落地

最低要求

计算机、数学、统计学或相关专业的硕士、博士,有一年以上大模型应用、训练、评测经验

熟悉Python等编程语言,具有良好的编码习惯和工程能力,熟悉PyTorch等主流框架,如果能熟练使用Hive、Spark等大数据处理工具更佳
具有广阔的技术视野、良好的逻辑分析和表达能力,紧跟领域前沿,对解决具有挑战性问题能够充满热情,善于通过创造性的方法解决高模糊度、高复杂的实际问题
具有快速学习能力,有责任感,能较好的跨团队协作并推进项目

工作职责

参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于:

从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案
对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升
利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率
利用大模型进行自动化的Red Team,系统的发现模型能力短板及不当回复风险
对模型评测中发现的模型能力短板、变化、异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升
具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响
紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法
紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代

AI 洞察

优缺点分析

优点

  • 海量真实业务数据与丰富的GPU资源,实验条件优越
  • 团队由顶尖算法人才组成,技术氛围浓厚,有助于快速成长
  • 接触大模型全链路,视野全面,对个人职业发展极为有利
  • 美团巨头平台,业务场景多样,技术落地价值高
  • 大模型评测领域尚在早期,方法论不成熟,需要较强的创新和探索能力
  • 适合热爱大模型技术、具备较强工程和研究能力、渴望在AI前沿领域深耕的算法工程师

缺点 / 挑战

  • 工作涉及Red Team和风险控制,对敏感问题处理要求高
  • 技术迭代快,需要持续学习前沿知识,压力较大

角色解读

  • 横向成长为具备全链路视野的大模型专家,覆盖数据、训练、评测、应用
  • 纵向深入模型评测领域,成为评测方法论和工具链的领军人物
  • 向AI算法科学家方向发展,在顶级会议发表研究成果
  • 建设大模型评测体系,制定评测标准并执行,输出评测报告
  • 开发自动化、半自动化的评测工具,利用大模型辅助标注和Red Team测试
  • 分析模型能力短板,研究数据、模型结构、训练方式对能力的影响,指导模型优化
  • 跟踪大模型前沿技术及行业应用,迭代评测体系
  • 扎实的编程能力,熟练使用Python及PyTorch框架
  • 熟悉Hive、Spark等大数据处理工具,具备数据处理和分析能力
  • 深入理解大模型原理,有实际应用评测或训练经验
  • 优秀的问题分析和逻辑推理能力,能解决高模糊度问题

申请策略

  • 深入了解美团的大模型业务场景(如搜索、推荐、客服),思考评测如何支撑业务
  • 面试前可准备一个简短的评测体系设计思路,展示系统性思考能力
  • 突出大模型应用、训练或评测的实战经验,最好有具体项目和数据
  • 展示数据处理和自动化工具的开发能力,如pipeline构建或自动化评测脚本
  • 强调发表的相关论文或开源贡献,体现技术深度
  • 体现跨团队协作和解决模糊问题的案例
  • 提前熟悉大模型评测的常见方法和指标,如BLEU、ROUGE、人工评估等
  • 补充Hive/Spark等大数据处理技能,了解数据pipeline设计

面试指南

  • 先明确评测目标,再选择合适指标,设计科学的数据集和实验流程
  • 采用分层分析:数据层、模型层、训练层,逐步定位问题
  • 结合自动化工具(如大模型辅助标注)和人工审核,平衡效率与准确性
  • 请设计一个大模型应用评测方案,包括指标、数据集和流程
  • 如何通过自动化方式发现模型的能力短板?举例说明
  • 如何评估大模型的安全性?描述Red Team的具体方法
  • 你如何看待当前大模型评测的挑战和未来趋势?
  • 给你一个具体的模型能力问题(如数学推理),你会如何分析并定位原因?

匹配度报告

74
综合匹配度

美团大模型评测算法岗,前沿技术、顶级资源,薪资中上,但现场办公且节奏偏快。

适合人群
最适合追求技术成长、渴望在大模型领域深耕的求职者,对WLB要求不高者可优先考虑。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展95
工作生活50
使命价值70

薪资福利匹配

80较高

美团上市大厂,薪资处于市场偏高水平,福利完善,补偿性动机满足较好。

薪资信号市场水准 (25K-45K/月)

成长发展匹配

95较高

职位涉足大模型全链路,GPU资源丰富,团队顶尖,成长空间极大。

技术前沿前沿/新兴技术
技术栈大模型、评测、Red Team、自动化、PyTorch
成长机会学习生态圈、非线性成长
业务类型profit_center

工作生活匹配

50较低

北京办公室,仅现场办公,未提弹性工作,互联网大厂节奏可能较快,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

大模型是高速增长赛道,职位对推动AI技术进步有直接贡献,社会影响力中上。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号创造行业价值
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 无人车业务部-公共事务发展经理-华中

    美团 · 北京市
    AI 估算 · 30k-45k
  • 甄选住宿助理(销售五区)

    美团 · 广州市
    AI 估算 · 6k-10k
  • 机器人-用工管理/商管理

    美团 · 深圳市
    AI 估算 · 20k-35k
  • 调度主管(杭州/义乌)

    美团 · 杭州市
    AI 估算 · 10k-16k
  • 快乐猴-供应链计划专家 (北京/杭州/广州)

    美团 · 北京市
    AI 估算 · 30k-50k

相似职位推荐

  • AI Agent算法专家(智能创作方向)

    快手 · 北京市
    AI 估算 · 35k-55k
  • Function & Baseline Management

    大众汽车 · 合肥市
    AI 估算 · 20k-30k
  • 算法工程师-抖音Generative Recommendation

    字节跳动 · 上海市
    AI 估算 · 35k-60k
  • 光通信系统研发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 豆包大模型算法工程师(互动娱乐)-火山方舟

    字节跳动 · 杭州市
    AI 估算 · 35k-55k

美团 的其他在招职位

  • 无人车业务部-公共事务发展经理-华中

    美团 · 北京市
    AI 估算 · 30k-45k
  • 甄选住宿助理(销售五区)

    美团 · 广州市
    AI 估算 · 6k-10k
  • 机器人-用工管理/商管理

    美团 · 深圳市
    AI 估算 · 20k-35k
  • 调度主管(杭州/义乌)

    美团 · 杭州市
    AI 估算 · 10k-16k
  • 快乐猴-供应链计划专家 (北京/杭州/广州)

    美团 · 北京市
    AI 估算 · 30k-50k

相似职位推荐

  • AI Agent算法专家(智能创作方向)

    快手 · 北京市
    AI 估算 · 35k-55k
  • Function & Baseline Management

    大众汽车 · 合肥市
    AI 估算 · 20k-30k
  • 算法工程师-抖音Generative Recommendation

    字节跳动 · 上海市
    AI 估算 · 35k-60k
  • 光通信系统研发工程师

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • 豆包大模型算法工程师(互动娱乐)-火山方舟

    字节跳动 · 杭州市
    AI 估算 · 35k-55k