Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Meituan logo
美团
【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究
立即应聘

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
硕士
研究与开发 (研发)
机器学习
深度学习
数据分析
强化学习
NeurIPS
自然语言处理
ACL
大模型评测

AI 估算 · 25k–35k

美团校招研发岗薪资在25-35k/月,15薪,硕士及以上学历,大模型方向竞争激烈,薪资属互联网头部水平。

职位详情

关于这个职位

该职位专注于大模型及Agent能力的评测与认知分析,负责构建全维度评测体系、设计面向真实用户体验的评测方案,并通过线上日志分析模型问题

你将参与定义下一代Agent能力的标尺,推动评测范式的演进,适合对Agent评测有信念感、具备扎实ML/NLP研究基础的同学

最低要求

硕士及以上学历,计算机或相关专业,博士优先

在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先
优秀的代码和算法功底,具备工匠精神,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先
在大模型领域或强化学习领域,主导过大影响力的项目或论文者优先
出色的问题分析和解决能力,有自主探索、深耕一个领域的决心和定力

工作职责

构建 Agent 全维度评测体系:设计横跨感知-规划-执行-反思完整闭环的评测维度框架,重点覆盖代码、办公、搜索等高价值场景

面向真实用户体验的评测方案建设:当前许多Agent应用领域出现了Benchmark指标相对饱和,无法准确链接真实用户使用体验等问题,我们希望从用户实际使用场景出发,构建高度拟真的交互式评测方案,设计体现用户使用体验的评测指标,对齐训练优化方向与提升用户体验的目标
基于线上回流日志的模型问题分析与评测验收:利用线上真实交互日志,系统化挖掘 Agent 在复杂链路中的典型失效模式,如工具幻觉、目标偏离等
将发现的 Badcase 自动归因并转化为可复现的回归测试用例,建立基于回流问题的评测看板,以数据驱动方式量化模型版本迭代的真实收益
探索下一代评测范式:研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research等前沿课题,推动评测范式和模型优化范式演进,产出高水平技术报告与顶会论文

AI 洞察

优缺点分析

优点

  • 美团拥有世界级的业务场景和海量数据,评测落地价值高
  • 团队评测基础国内领先,资源投入充足,团队产出高质量论文
  • 参与定义下一代Agent能力标尺,技术影响力和行业认可度高
  • 可接触到业界前列的GPU算力和软硬件协同技术栈
  • 评测体系构建需要极强的创新和抽象能力,从零到一难度大
  • 需同时兼顾学术前沿与工程落地,对综合能力要求高
  • 大模型领域迭代极快,需持续学习保持竞争力,工作强度较大
  • 适合对Agent评测有强烈信念感、具备扎实研究基础和工程能力、希望在学术界和工业界双向发力的技术型人才

缺点 / 挑战

暂无明显挑战项

角色解读

  • 从评测研究员起步,逐步成长为Agent评测领域的专家,主导评测标准制定
  • 横向拓展至模型训练、优化方向,成为大模型全栈人才
  • 晋升技术Leader,带领评测团队,推动公司级评测体系建设
  • 设计并构建Agent全维度评测体系,覆盖感知、规划、执行、反思等核心能力维度
  • 基于真实用户场景开发交互式评测方案,优化评测指标以贴近用户体验
  • 利用线上日志分析Agent失效模式(如工具幻觉、目标偏离),转化为回归测试用例
  • 探索下一代评测范式,如人机协同评估、自进化评估,产出高水平论文
  • 扎实的机器学习/NLP/强化学习基础,熟悉大模型原理与评测方法
  • 优秀的编程能力(Python),能快速实现评测框架和数据分析流水线
  • 出色的数据分析和问题定位能力,能从复杂日志中提炼规律
  • 学术研究能力,有顶会论文发表或大影响力项目经验者优先

申请策略

  • 在简历和面试中表达对Agent评测的热情,并给出自己对该领域的独特理解或设想
  • 提前了解美团在Agent评测方面的公开成果(如PRDBench、CATArena),思考可能的改进方向
  • 突出机器学习和NLP相关项目经验,特别是大模型评测、Agent相关经历
  • 强调顶会论文发表或重大竞赛获奖(如ACL、NeurIPS、ACM/ICPC等)
  • 展示数据分析、问题定位和自动化工具开发的能力,附上GitHub链接
  • 如果缺乏Agent评测经验,可先学习主流评测Benchmark(如MT-Bench、AgentBench),复现相关论文
  • 提升Python工程能力,熟悉pandas、NumPy等数据分析库,了解CI/CD和自动化测试

面试指南

  • 对于评测设计类问题,采用“目标-维度-指标-数据-验证”框架,从业务目标出发,分解能力维度,设计可量化的指标,规划评测数据,最后通过实验验证
  • 对于问题分析类问题,采用“现象-假设-验证-归因-改进”框架,结合日志和实验定位根因,提出改进方案并评估效果
  • 对于开放性问题,展示学术洞察力,引用已有工作,提出自己的创新点,体现研究思维
  • 请介绍一个你参与过的大模型或Agent相关项目,如何评价其效果?
  • 如何设计一个评测方案来衡量Agent在复杂任务中的规划能力?
  • 如果你发现某个Agent在特定场景下频繁出现工具幻觉,你会如何分析和解决?
  • 你如何看待当前主流评测Benchmark的局限性?如何改进?
  • 请谈谈你对Agentic Evaluation或Auto Research的理解和设想

匹配度报告

71
综合匹配度

美团校招大模型评测岗,前沿技术栈、顶级学术资源,但工作强度较大,生活平衡一般。

适合人群
最看重技术成长和前沿探索、能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值80

薪资福利匹配

70中等

美团校招薪资具有竞争力,福利完善(五险一金、年终奖等),但具体薪资面议,属于大厂中等偏上水平。

薪资信号面议 (25K-35K/月)

成长发展匹配

95较高

该职位处于大模型评测前沿,技术栈新颖,团队学术产出丰富,有明确的成长路径和资源支持,发展性极强。

技术前沿前沿/新兴技术
技术栈大模型评测、Agent、强化学习、自然语言处理、Auto Research
成长机会高水平技术报告与顶会论文、世界级的业务难题、兼顾学习和成长
业务类型ambiguous

工作生活匹配

40较低

仅现场办公,未提及WLB相关措施,大厂研发岗通常强度较高,生活平衡一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

80较高

大模型评测是AI领域关键方向,定义下一代Agent标准具有社会意义,美团业务场景广泛,影响力较大。

行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号定义下一代 Agent 能力的标尺
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k