美团的【LongCat实习】大模型预训练数据科学与模型潜力前沿研究薪资是多少？

该职位薪资范围为 4k–8k（人民币/月）。

【LongCat实习】大模型预训练数据科学与模型潜力前沿研究的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【LongCat实习】大模型预训练数据科学与模型潜力前沿研究有什么任职要求？

该职位要求硕士学历及初级经验工作经验。

美团

【LongCat实习】大模型预训练数据科学与模型潜力前沿研究

立即应聘

【LongCat实习】大模型预训练数据科学与模型潜力前沿研究

发布于大约 11 小时前

实习/见习

北京市

初级经验

实习生

仅现场办公

硕士

研究与开发 (研发)

NLP

PyTorch

因果推断

多模态

数据筛选

数据质量评估

大模型预训练

Scaling Law

AI 估算 · 4k–8k

大厂实习薪资较高，但实习通常按日计算，综合市场水平估算为4000-8000元/月。

职位详情

关于这个职位

这是一个大模型预训练数据方向的实习岗位，你将参与超大规模数据的质量评估、清洗与筛选，探索数据分布与模型能力的因果关系，并构建科学的多维度评估体系

团队在原生多模态方向有长期投入，拥有顶级计算资源，你将直接参与业界最前沿的多模态实验，覆盖从数据到训练的完整链路

适合对AI研究有浓厚兴趣的同学

最低要求

硕士及以上学历，计算机、人工智能、数学、NLP等相关专业，博士优先

在大模型领域有研究基础，或参与过有影响力的开源项目，在ICLR/NeurIPS/ICML/ACL等顶会发表论文者优先

对大模型有浓厚兴趣，对“什么是好数据”有深刻洞察和理解，有较强的问题分析、自主探索和快速迭代的能力

工作职责

研发基于模型的高效数据质量评估、去重与清洗算法，提高数据质量、多样性和覆盖度

深入探究数据分布与模型能力的因果关系，建立“训练数据-模型效果”归因机制，探索并突破基座模型的能力上限

探索自动化数据筛选机制、动态配比（Data Mixture）与多阶段训练范式，探索不同类型数据对模型能力的Scaling Law

构建科学、多维度的基座模型能力和潜力评估，驱动预训练数据策略的优化，形成高效的数据迭代闭环

AI 洞察

优缺点分析

优点

直接参与前沿大模型预训练研究，接触万亿参数级模型
团队技术积累深厚，拥有顶级计算资源（5-6万卡集群）
能深入了解数据与模型能力的因果联系，建立独特竞争力
实习周期可能较短，需要快速上手并产出成果
课题偏研究，对自主探索能力要求高，需要较强的抗压能力
数据科学方向相对细分，可能需要大量阅读文献和实验
适合对大模型预训练和数据科学有浓厚兴趣、具备较强研究能力和编程基础的硕士/博士同学

缺点 / 挑战

暂无明显挑战项

角色解读

从数据科学角度深入大模型核心，成为预训练数据专家
积累大规模多模态训练经验，向全栈大模型研究员发展
表现优秀可转正或推荐至团队核心研发岗位
研发数据质量评估、去重与清洗算法，提升预训练数据质量
探究数据分布与模型能力的因果关系，建立归因机制
探索自动化数据筛选与动态配比策略，研究Scaling Law
构建基座模型能力与潜力评估体系，驱动数据策略优化
熟悉大模型预训练流程，对数据质量有深刻理解
具备较强的编程能力（Python、C++）和深度学习框架使用经验（PyTorch等）
有机器学习或NLP研究背景，在顶会发表过论文优先
对因果推断、数据挖掘有一定了解，能够自主探索和快速迭代

申请策略

在求职信中明确表达对数据科学的热情和对美团技术方向的认同
关注团队发布的LongCat-Next技术报告，面试时展现对团队工作的了解
突出大模型相关项目经历，尤其是数据质量、预训练或Scaling Law相关研究
强调顶会论文或开源贡献，展示研究能力
体现数据分析、因果推断或数据筛选的实践经验
列出熟练的编程语言和深度学习框架（PyTorch等）
补充因果推断和数据分布分析的相关知识，阅读经典论文
动手复现一些数据质量评估或数据筛选的基线方法

面试指南

对于数据质量相关问题，可以先定义指标，再结合具体方法（如基于模型的质量评分、n-gram去重等），最后用实验结果佐证
对于因果推断问题，可以采用对比实验、消融分析等方法，强调控制变量和归因逻辑
对于开放设计问题，需要结构化回答：明确目标、提出方案、分析优缺点、给出验证方式
请解释什么是数据质量中的多样性，如何评估？
你如何理解Scaling Law？请举例说明数据配比如何影响模型性能
描述一个你曾做过的与数据清洗或数据增强相关的项目
如果给你一个100B token的语料库，你会如何设计数据筛选流程？
你如何看待多模态预训练中数据对齐的问题？

职位点评

综合评分

顶级大厂实习，聚焦大模型预训练前沿，技术天花板高，但薪资一般且需全职在岗。

更适合这类人

最适合追求技术成长和前沿研究的发展型求职者，对短期薪资和稳定性要求较低。

表现最好

成长发展

相对薄弱

薪资福利

薪资福利40

成长发展95

工作生活50

使命价值85

薪资福利

40较低

实习岗位薪资相对全职较低，但大厂有餐补、班车等福利，短期稳定性一般。

薪资信号未披露（AI估算：4K-8K/月）

成长发展

95较高

该岗位直接参与前沿大模型预训练研究，使用顶级计算资源，技术成长空间极大。

技术前沿前沿/新兴技术

技术栈大模型预训练、多模态、Scaling Law、数据筛选、因果推断

业务类型ambiguous

工作生活

50较低

仅现场办公，北京核心地段，但实习通常要求全职，缺乏灵活安排。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

85较高

研究旨在提升模型智能上限，推动AI发展，具有较强社会价值与行业前景。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

美团的其他在招职位

相似职位推荐

Watch Jobs

【LongCat实习】大模型预训练数据科学与模型潜力前沿研究

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

WMS高级产品经理

Keeta-代理商解决方案产品运营（Base巴西）

【医药健康】医美上游商业化产品运营

快乐猴供应链计划城市负责人

B端产品经理

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

美团的其他在招职位

WMS高级产品经理

Keeta-代理商解决方案产品运营（Base巴西）

【医药健康】医美上游商业化产品运营

快乐猴供应链计划城市负责人

B端产品经理

相似职位推荐

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

【LongCat实习】大模型预训练数据科学与模型潜力前沿研究

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

WMS高级产品经理

Keeta-代理商解决方案产品运营（Base巴西）

【医药健康】医美上游商业化产品运营

快乐猴供应链计划城市负责人

B端产品经理

相似职位推荐

化學實驗室-前處理人員(台北日班)

AI Standards & Ecosystem | Sr. Staff Engineer

具身智能算法实习生

游戏研发实习生（引擎方向）

图形学研究员实习生（动作生成方向）

美团的其他在招职位