
美团
【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究
【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究
发布于 大约 18 小时前实习/见习
北京市
无经验要求
实习生
仅现场办公
硕士
研究与开发 (研发)
数据分析
强化学习
NeurIPS
自然语言处理
大模型
ACL
评测
EMNLP
AI 估算 · 4k–8k
美团北京研究实习,大模型方向薪资较高,月薪约4-8k。
职位详情
关于这个职位
美团基础研发平台招聘实习生,参与大模型 Agent 评测体系构建,涉及代码、办公、搜索等高价值场景
你将设计全维度评测框架,基于用户真实体验构建交互式评测方案,利用线上日志分析模型失效模式,并探索下一代评测范式,有机会产出顶会论文
最低要求
硕士及以上学历,计算机或相关专业,博士优先
在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先
优秀的代码和算法功底,具备工匠精神,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先
在大模型领域或强化学习领域,主导过大影响力的项目或论文者优先
出色的问题分析和解决能力,有自主探索、深耕一个领域的决心和定力
工作职责
构建 Agent 全维度评测体系:设计横跨感知-规划-执行-反思完整闭环的评测维度框架,重点覆盖代码、办公、搜索等高价值场景
面向真实用户体验的评测方案建设:从用户实际使用场景出发,构建高度拟真的交互式评测方案,设计体现用户使用体验的评测指标
基于线上回流日志的模型问题分析与评测验收:利用线上真实交互日志,系统化挖掘 Agent 在复杂链路中的典型失效模式,如工具幻觉、目标偏离等
将发现的 Badcase 自动归因并转化为可复现的回归测试用例,建立基于回流问题的评测看板
探索下一代评测范式:研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research 等前沿课题,推动评测范式和模型优化范式演进,产出高水平技术报告与顶会论文
优先资格
博士优先
在 ACL/EMNLP/NAACL/NeurIPS/ICML/ICLR/CVPR/ICCV/ICASSP 等顶级会议发表论文者优先
ACM/ICPC、NOI/IOI、Top Coder、Kaggle 等比赛获奖者优先
在大模型领域或强化学习领域,主导过大影响力的项目或论文者优先
AI 洞察
优缺点分析
优点
- 美团平台提供海量真实业务场景与 GPU 算力支持,研究与落地结合紧密
- 团队评测基础雄厚,有丰富论文产出,能快速提升学术与工程能力
- 工作内容前沿,参与定义下一代 Agent 能力标准,技术成长空间大
- 评测领域需要深入理解大模型行为,问题定位可能复杂且耗时
- 作为实习岗位,工作节奏可能较快,需快速产出成果
- 适合对 AI 评测有浓厚兴趣、具备较强研究能力和代码功底的研究生,尤其是希望在大模型方向积累实战经验并发表论文的同学
缺点 / 挑战
- 岗位要求较高,需同时具备研究背景与工程动手能力,入门门槛不低
角色解读
- 在美团基础研发平台积累大模型评测与 Agent 核心技术,成为该领域专家
- 参与业界顶级课题,产出高水平论文,提升学术影响力
- 可向算法工程师或研究科学家方向发展,未来在 AI 领域深耕
- 构建大模型 Agent 全维度评测体系,设计感知-规划-执行-反思的评测框架
- 基于用户真实使用场景,开发拟真交互式评测方案与体验指标
- 利用线上日志挖掘 Agent 典型失效模式,自动化生成回归测试用例
- 探索人机协同评估、自进化评估等前沿评测范式,推动学术产出
- 扎实的机器学习、自然语言处理或强化学习研究基础,熟悉主流大模型技术
- 优秀的代码能力(Python),具备数据分析和实验设计经验
- 有顶会论文发表或竞赛获奖经历优先,体现学术或工程影响力
- 良好的问题分析与系统性思维,能独立完成从方案设计到结果验证的闭环
申请策略
- 关注美团技术博客或开源项目,了解团队研究方向,在求职中体现热情
- 准备一个与评测相关的小项目或分析报告,展示专业思考
- 突出机器学习/NLP/强化学习相关项目经历,尤其是大模型或 Agent 相关经验
- 列出顶会论文发表或竞赛获奖情况,体现学术竞争力
- 展示数据分析、实验设计、代码开源贡献等硬技能
- 强调问题分析与系统解决问题的能力,可用案例说明
- 提前熟悉主流大模型(如 GPT、Llama)和 Agent 框架(如 LangChain、AutoGPT)
- 学习评测方法论,了解常用 benchmark(如 HumanEval、AgentBench)
面试指南
- STAR 法则:先说明背景与任务,具体行动与结果,突出个人贡献
- 结合具体技术细节:例如评估维度、指标设计、数据分析方法
- 体现思考深度:不仅描述做了什么,还要说明为什么这样做及改进空间
- 请介绍一下你在大模型或 Agent 评测方面的项目经验
- 如何评估一个 Agent 系统的能力?你会设计哪些维度?
- 如何利用线上日志分析模型失效模式?请举例说明
- 你如何看待当前大模型评测的局限性?你有什么改进思路?
- 描述一个你独立解决复杂问题的案例
职位点评
68
综合评分
美团大模型Agent评测实习,前沿技术栈、顶级团队、高成长性,薪资一般。
更适合这类人
适合注重技能成长、学术产出和前沿技术探索的求职者,对短期薪资回报要求不高。
表现最好
成长发展
相对薄弱
薪资福利
薪资福利40
成长发展90
工作生活60
使命价值80
薪资福利
40较低
实习岗位薪资相对固定,福利不如正式员工,但美团提供有竞争力的实习津贴和免费餐食等。
薪资信号未披露(AI估算:4K-8K/月)
成长发展
90较高
岗位涉及前沿大模型 Agent 评测领域,团队资源丰富,有明确学术产出机会,成长性极强。
技术前沿前沿/新兴技术
技术栈大模型、Agent、强化学习、评测、NLP
成长机会产出了PRDBench、AMemGym、CATArena等数十篇高质量论文
业务类型ambiguous
工作生活
60中等
仅现场办公,北京办公地点,实习时间相对灵活,但需全职到岗。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值
80较高
参与定义下一代 Agent 评测标准,推动 AI 安全与可靠发展,具有较强社会价值。
行业发展高速增长赛道
社会影响正向社会影响力较高
使命信号定义下一代 Agent 能力的标尺
创新程度开拓性创新(行业首创)
美团 的其他在招职位
相似职位推荐
Watch Jobs