Meituan logo
美团
【LongCat实习】大模型预训练数据科学与模型潜力前沿研究

【LongCat实习】大模型预训练数据科学与模型潜力前沿研究

发布于 大约 11 小时前

实习/见习

北京市
初级经验
实习生
仅现场办公
硕士
研究与开发 (研发)
NLP
PyTorch
因果推断
多模态
数据筛选
数据质量评估
大模型预训练
Scaling Law

AI 估算 · 4k–8k

大厂实习薪资较高,但实习通常按日计算,综合市场水平估算为4000-8000元/月。

职位详情

关于这个职位

这是一个大模型预训练数据方向的实习岗位,你将参与超大规模数据的质量评估、清洗与筛选,探索数据分布与模型能力的因果关系,并构建科学的多维度评估体系

团队在原生多模态方向有长期投入,拥有顶级计算资源,你将直接参与业界最前沿的多模态实验,覆盖从数据到训练的完整链路
适合对AI研究有浓厚兴趣的同学

最低要求

硕士及以上学历,计算机、人工智能、数学、NLP等相关专业,博士优先

在大模型领域有研究基础,或参与过有影响力的开源项目,在ICLR/NeurIPS/ICML/ACL等顶会发表论文者优先
对大模型有浓厚兴趣,对“什么是好数据”有深刻洞察和理解,有较强的问题分析、自主探索和快速迭代的能力

工作职责

研发基于模型的高效数据质量评估、去重与清洗算法,提高数据质量、多样性和覆盖度

深入探究数据分布与模型能力的因果关系,建立“训练数据-模型效果”归因机制,探索并突破基座模型的能力上限
探索自动化数据筛选机制、动态配比(Data Mixture)与多阶段训练范式,探索不同类型数据对模型能力的Scaling Law
构建科学、多维度的基座模型能力和潜力评估,驱动预训练数据策略的优化,形成高效的数据迭代闭环

AI 洞察

优缺点分析

优点

  • 直接参与前沿大模型预训练研究,接触万亿参数级模型
  • 团队技术积累深厚,拥有顶级计算资源(5-6万卡集群)
  • 能深入了解数据与模型能力的因果联系,建立独特竞争力
  • 实习周期可能较短,需要快速上手并产出成果
  • 课题偏研究,对自主探索能力要求高,需要较强的抗压能力
  • 数据科学方向相对细分,可能需要大量阅读文献和实验
  • 适合对大模型预训练和数据科学有浓厚兴趣、具备较强研究能力和编程基础的硕士/博士同学

缺点 / 挑战

暂无明显挑战项

角色解读

  • 从数据科学角度深入大模型核心,成为预训练数据专家
  • 积累大规模多模态训练经验,向全栈大模型研究员发展
  • 表现优秀可转正或推荐至团队核心研发岗位
  • 研发数据质量评估、去重与清洗算法,提升预训练数据质量
  • 探究数据分布与模型能力的因果关系,建立归因机制
  • 探索自动化数据筛选与动态配比策略,研究Scaling Law
  • 构建基座模型能力与潜力评估体系,驱动数据策略优化
  • 熟悉大模型预训练流程,对数据质量有深刻理解
  • 具备较强的编程能力(Python、C++)和深度学习框架使用经验(PyTorch等)
  • 有机器学习或NLP研究背景,在顶会发表过论文优先
  • 对因果推断、数据挖掘有一定了解,能够自主探索和快速迭代

申请策略

  • 在求职信中明确表达对数据科学的热情和对美团技术方向的认同
  • 关注团队发布的LongCat-Next技术报告,面试时展现对团队工作的了解
  • 突出大模型相关项目经历,尤其是数据质量、预训练或Scaling Law相关研究
  • 强调顶会论文或开源贡献,展示研究能力
  • 体现数据分析、因果推断或数据筛选的实践经验
  • 列出熟练的编程语言和深度学习框架(PyTorch等)
  • 补充因果推断和数据分布分析的相关知识,阅读经典论文
  • 动手复现一些数据质量评估或数据筛选的基线方法

面试指南

  • 对于数据质量相关问题,可以先定义指标,再结合具体方法(如基于模型的质量评分、n-gram去重等),最后用实验结果佐证
  • 对于因果推断问题,可以采用对比实验、消融分析等方法,强调控制变量和归因逻辑
  • 对于开放设计问题,需要结构化回答:明确目标、提出方案、分析优缺点、给出验证方式
  • 请解释什么是数据质量中的多样性,如何评估?
  • 你如何理解Scaling Law?请举例说明数据配比如何影响模型性能
  • 描述一个你曾做过的与数据清洗或数据增强相关的项目
  • 如果给你一个100B token的语料库,你会如何设计数据筛选流程?
  • 你如何看待多模态预训练中数据对齐的问题?

职位点评

68
综合评分

顶级大厂实习,聚焦大模型预训练前沿,技术天花板高,但薪资一般且需全职在岗。

更适合这类人
最适合追求技术成长和前沿研究的发展型求职者,对短期薪资和稳定性要求较低。
表现最好
成长发展
相对薄弱
薪资福利
薪资福利40
成长发展95
工作生活50
使命价值85

薪资福利

40较低

实习岗位薪资相对全职较低,但大厂有餐补、班车等福利,短期稳定性一般。

薪资信号未披露(AI估算:4K-8K/月)

成长发展

95较高

该岗位直接参与前沿大模型预训练研究,使用顶级计算资源,技术成长空间极大。

技术前沿前沿/新兴技术
技术栈大模型预训练、多模态、Scaling Law、数据筛选、因果推断
业务类型ambiguous

工作生活

50较低

仅现场办公,北京核心地段,但实习通常要求全职,缺乏灵活安排。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

85较高

研究旨在提升模型智能上限,推动AI发展,具有较强社会价值与行业前景。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度开拓性创新(行业首创)
Watch Jobs