美团的【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究薪资是多少？

该职位薪资范围为 4k–8k（人民币/月）。

【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究有什么任职要求？

该职位要求硕士学历及无经验要求工作经验。

美团

【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究

立即应聘

【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究

发布于大约 18 小时前

实习/见习

北京市

无经验要求

实习生

仅现场办公

硕士

研究与开发 (研发)

数据分析

强化学习

NeurIPS

自然语言处理

大模型

ACL

评测

EMNLP

AI 估算 · 4k–8k

美团北京研究实习，大模型方向薪资较高，月薪约4-8k。

职位详情

关于这个职位

美团基础研发平台招聘实习生，参与大模型 Agent 评测体系构建，涉及代码、办公、搜索等高价值场景

你将设计全维度评测框架，基于用户真实体验构建交互式评测方案，利用线上日志分析模型失效模式，并探索下一代评测范式，有机会产出顶会论文

最低要求

硕士及以上学历，计算机或相关专业，博士优先

在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础，在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先

优秀的代码和算法功底，具备工匠精神，ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先

在大模型领域或强化学习领域，主导过大影响力的项目或论文者优先

出色的问题分析和解决能力，有自主探索、深耕一个领域的决心和定力

工作职责

构建 Agent 全维度评测体系：设计横跨感知-规划-执行-反思完整闭环的评测维度框架，重点覆盖代码、办公、搜索等高价值场景

面向真实用户体验的评测方案建设：从用户实际使用场景出发，构建高度拟真的交互式评测方案，设计体现用户使用体验的评测指标

基于线上回流日志的模型问题分析与评测验收：利用线上真实交互日志，系统化挖掘 Agent 在复杂链路中的典型失效模式，如工具幻觉、目标偏离等

将发现的 Badcase 自动归因并转化为可复现的回归测试用例，建立基于回流问题的评测看板

探索下一代评测范式：研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research 等前沿课题，推动评测范式和模型优化范式演进，产出高水平技术报告与顶会论文

优先资格

博士优先

在 ACL/EMNLP/NAACL/NeurIPS/ICML/ICLR/CVPR/ICCV/ICASSP 等顶级会议发表论文者优先

ACM/ICPC、NOI/IOI、Top Coder、Kaggle 等比赛获奖者优先

在大模型领域或强化学习领域，主导过大影响力的项目或论文者优先

AI 洞察

优缺点分析

优点

美团平台提供海量真实业务场景与 GPU 算力支持，研究与落地结合紧密
团队评测基础雄厚，有丰富论文产出，能快速提升学术与工程能力
工作内容前沿，参与定义下一代 Agent 能力标准，技术成长空间大
评测领域需要深入理解大模型行为，问题定位可能复杂且耗时
作为实习岗位，工作节奏可能较快，需快速产出成果
适合对 AI 评测有浓厚兴趣、具备较强研究能力和代码功底的研究生，尤其是希望在大模型方向积累实战经验并发表论文的同学

缺点 / 挑战

岗位要求较高，需同时具备研究背景与工程动手能力，入门门槛不低

角色解读

在美团基础研发平台积累大模型评测与 Agent 核心技术，成为该领域专家
参与业界顶级课题，产出高水平论文，提升学术影响力
可向算法工程师或研究科学家方向发展，未来在 AI 领域深耕
构建大模型 Agent 全维度评测体系，设计感知-规划-执行-反思的评测框架
基于用户真实使用场景，开发拟真交互式评测方案与体验指标
利用线上日志挖掘 Agent 典型失效模式，自动化生成回归测试用例
探索人机协同评估、自进化评估等前沿评测范式，推动学术产出
扎实的机器学习、自然语言处理或强化学习研究基础，熟悉主流大模型技术
优秀的代码能力（Python），具备数据分析和实验设计经验
有顶会论文发表或竞赛获奖经历优先，体现学术或工程影响力
良好的问题分析与系统性思维，能独立完成从方案设计到结果验证的闭环

申请策略

关注美团技术博客或开源项目，了解团队研究方向，在求职中体现热情
准备一个与评测相关的小项目或分析报告，展示专业思考
突出机器学习/NLP/强化学习相关项目经历，尤其是大模型或 Agent 相关经验
列出顶会论文发表或竞赛获奖情况，体现学术竞争力
展示数据分析、实验设计、代码开源贡献等硬技能
强调问题分析与系统解决问题的能力，可用案例说明
提前熟悉主流大模型（如 GPT、Llama）和 Agent 框架（如 LangChain、AutoGPT）
学习评测方法论，了解常用 benchmark（如 HumanEval、AgentBench）

面试指南

STAR 法则：先说明背景与任务，具体行动与结果，突出个人贡献
结合具体技术细节：例如评估维度、指标设计、数据分析方法
体现思考深度：不仅描述做了什么，还要说明为什么这样做及改进空间
请介绍一下你在大模型或 Agent 评测方面的项目经验
如何评估一个 Agent 系统的能力？你会设计哪些维度？
如何利用线上日志分析模型失效模式？请举例说明
你如何看待当前大模型评测的局限性？你有什么改进思路？
描述一个你独立解决复杂问题的案例

职位点评

综合评分

美团大模型Agent评测实习，前沿技术栈、顶级团队、高成长性，薪资一般。

更适合这类人

适合注重技能成长、学术产出和前沿技术探索的求职者，对短期薪资回报要求不高。

表现最好

成长发展

相对薄弱

薪资福利

薪资福利40

成长发展90

工作生活60

使命价值80

薪资福利

40较低

实习岗位薪资相对固定，福利不如正式员工，但美团提供有竞争力的实习津贴和免费餐食等。

薪资信号未披露（AI估算：4K-8K/月）

成长发展

90较高

岗位涉及前沿大模型 Agent 评测领域，团队资源丰富，有明确学术产出机会，成长性极强。

技术前沿前沿/新兴技术

技术栈大模型、Agent、强化学习、评测、NLP

成长机会产出了PRDBench、AMemGym、CATArena等数十篇高质量论文

业务类型ambiguous

工作生活

60中等

仅现场办公，北京办公地点，实习时间相对灵活，但需全职到岗。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

80较高

参与定义下一代 Agent 评测标准，推动 AI 安全与可靠发展，具有较强社会价值。

行业发展高速增长赛道

社会影响正向社会影响力较高

使命信号定义下一代 Agent 能力的标尺

创新程度开拓性创新（行业首创）

美团的其他在招职位

相似职位推荐

Watch Jobs

【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

运输经理（南昌仓）

Qatar城市-运输经理(City Transport Manager)

收退主管（南昌仓）

Qatar仓运维

Kuwait-仓运维

微信支付-大模型风控算法工程师

魔方工作室-动作生成算法工程师-角色动画方向

运动健康算法工程师-实习-2027届

Principal Algorithm Engineer

Lead Engineer, Modeling & Simulation

美团的其他在招职位

运输经理（南昌仓）

Qatar城市-运输经理(City Transport Manager)

收退主管（南昌仓）

Qatar仓运维

Kuwait-仓运维

相似职位推荐

微信支付-大模型风控算法工程师

魔方工作室-动作生成算法工程师-角色动画方向

运动健康算法工程师-实习-2027届

Principal Algorithm Engineer

Lead Engineer, Modeling & Simulation

【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

运输经理（南昌仓）

Qatar城市-运输经理(City Transport Manager)

收退主管（南昌仓）

Qatar仓运维

Kuwait-仓运维

相似职位推荐

微信支付-大模型风控算法工程师

魔方工作室-动作生成算法工程师-角色动画方向

运动健康算法工程师-实习-2027届

Principal Algorithm Engineer

Lead Engineer, Modeling & Simulation

美团的其他在招职位