美团的【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究薪资是多少？

该职位薪资范围为 25k–35k（人民币/月）。

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究有什么任职要求？

该职位要求硕士学历及无经验要求工作经验。

美团

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

立即应聘

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

发布于大约 2 个月前

普通员工/个人贡献者

北京市

无经验要求

全职员工

仅现场办公

硕士

研究与开发 (研发)

大模型评测

强化学习

数据分析

机器学习

深度学习

自然语言处理

ACL

NeurIPS

AI 估算 · 25k–35k

美团校招研发岗薪资在25-35k/月，15薪，硕士及以上学历，大模型方向竞争激烈，薪资属互联网头部水平。

职位详情

关于这个职位

该职位专注于大模型及Agent能力的评测与认知分析，负责构建全维度评测体系、设计面向真实用户体验的评测方案，并通过线上日志分析模型问题

你将参与定义下一代Agent能力的标尺，推动评测范式的演进，适合对Agent评测有信念感、具备扎实ML/NLP研究基础的同学

最低要求

硕士及以上学历，计算机或相关专业，博士优先

在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础，在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先

优秀的代码和算法功底，具备工匠精神，ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先

在大模型领域或强化学习领域，主导过大影响力的项目或论文者优先

出色的问题分析和解决能力，有自主探索、深耕一个领域的决心和定力

工作职责

构建 Agent 全维度评测体系：设计横跨感知-规划-执行-反思完整闭环的评测维度框架，重点覆盖代码、办公、搜索等高价值场景

面向真实用户体验的评测方案建设：当前许多Agent应用领域出现了Benchmark指标相对饱和，无法准确链接真实用户使用体验等问题，我们希望从用户实际使用场景出发，构建高度拟真的交互式评测方案，设计体现用户使用体验的评测指标，对齐训练优化方向与提升用户体验的目标

基于线上回流日志的模型问题分析与评测验收：利用线上真实交互日志，系统化挖掘 Agent 在复杂链路中的典型失效模式，如工具幻觉、目标偏离等

将发现的 Badcase 自动归因并转化为可复现的回归测试用例，建立基于回流问题的评测看板，以数据驱动方式量化模型版本迭代的真实收益

探索下一代评测范式：研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research等前沿课题，推动评测范式和模型优化范式演进，产出高水平技术报告与顶会论文

AI 洞察

优缺点分析

优点

美团拥有世界级的业务场景和海量数据，评测落地价值高
团队评测基础国内领先，资源投入充足，团队产出高质量论文
参与定义下一代Agent能力标尺，技术影响力和行业认可度高
可接触到业界前列的GPU算力和软硬件协同技术栈
评测体系构建需要极强的创新和抽象能力，从零到一难度大
需同时兼顾学术前沿与工程落地，对综合能力要求高
大模型领域迭代极快，需持续学习保持竞争力，工作强度较大
适合对Agent评测有强烈信念感、具备扎实研究基础和工程能力、希望在学术界和工业界双向发力的技术型人才

缺点 / 挑战

暂无明显挑战项

角色解读

从评测研究员起步，逐步成长为Agent评测领域的专家，主导评测标准制定
横向拓展至模型训练、优化方向，成为大模型全栈人才
晋升技术Leader，带领评测团队，推动公司级评测体系建设
设计并构建Agent全维度评测体系，覆盖感知、规划、执行、反思等核心能力维度
基于真实用户场景开发交互式评测方案，优化评测指标以贴近用户体验
利用线上日志分析Agent失效模式（如工具幻觉、目标偏离），转化为回归测试用例
探索下一代评测范式，如人机协同评估、自进化评估，产出高水平论文
扎实的机器学习/NLP/强化学习基础，熟悉大模型原理与评测方法
优秀的编程能力（Python），能快速实现评测框架和数据分析流水线
出色的数据分析和问题定位能力，能从复杂日志中提炼规律
学术研究能力，有顶会论文发表或大影响力项目经验者优先

申请策略

在简历和面试中表达对Agent评测的热情，并给出自己对该领域的独特理解或设想
提前了解美团在Agent评测方面的公开成果（如PRDBench、CATArena），思考可能的改进方向
突出机器学习和NLP相关项目经验，特别是大模型评测、Agent相关经历
强调顶会论文发表或重大竞赛获奖（如ACL、NeurIPS、ACM/ICPC等）
展示数据分析、问题定位和自动化工具开发的能力，附上GitHub链接
如果缺乏Agent评测经验，可先学习主流评测Benchmark（如MT-Bench、AgentBench），复现相关论文
提升Python工程能力，熟悉pandas、NumPy等数据分析库，了解CI/CD和自动化测试

面试指南

对于评测设计类问题，采用“目标-维度-指标-数据-验证”框架，从业务目标出发，分解能力维度，设计可量化的指标，规划评测数据，最后通过实验验证
对于问题分析类问题，采用“现象-假设-验证-归因-改进”框架，结合日志和实验定位根因，提出改进方案并评估效果
对于开放性问题，展示学术洞察力，引用已有工作，提出自己的创新点，体现研究思维
请介绍一个你参与过的大模型或Agent相关项目，如何评价其效果？
如何设计一个评测方案来衡量Agent在复杂任务中的规划能力？
如果你发现某个Agent在特定场景下频繁出现工具幻觉，你会如何分析和解决？
你如何看待当前主流评测Benchmark的局限性？如何改进？
请谈谈你对Agentic Evaluation或Auto Research的理解和设想

职位点评

综合评分

美团校招大模型评测岗，前沿技术栈、顶级学术资源，但工作强度较大，生活平衡一般。

从起薪待遇、成长路径、工作节奏和岗位方向综合评估，方便比较职业起点。

更适合这类人

最看重技术成长和前沿探索、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活40

使命价值80

薪资福利

70中等

美团校招薪资具有竞争力，福利完善（五险一金、年终奖等），但具体薪资面议，属于大厂中等偏上水平。

薪资信号面议 (25K-35K/月)

成长发展

95较高

该职位处于大模型评测前沿，技术栈新颖，团队学术产出丰富，有明确的成长路径和资源支持，发展性极强。

技术前沿前沿/新兴技术

技术栈大模型评测、Agent、强化学习、自然语言处理、Auto Research

成长机会高水平技术报告与顶会论文、世界级的业务难题、兼顾学习和成长

业务类型ambiguous

工作生活

40较低

仅现场办公，未提及WLB相关措施，大厂研发岗通常强度较高，生活平衡一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

80较高

大模型评测是AI领域关键方向，定义下一代Agent标准具有社会意义，美团业务场景广泛，影响力较大。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号定义下一代 Agent 能力的标尺

创新程度开拓性创新（行业首创）

美团的其他在招职位

相似职位推荐

Watch Jobs

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位