美团的【LongCat大模型人才校招】基础模型 - 数据策略与数据科学薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

美团的【LongCat大模型人才校招】基础模型 - 数据策略与数据科学有什么任职要求？

该职位要求学历未注明学历及无经验要求工作经验。

美团

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学

立即应聘

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学

发布于大约 2 个月前

普通员工/个人贡献者

北京市

无经验要求

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

大语言模型

数据清洗

数据策略

数据配比

机器学习

概率统计

深度学习

预训练

PyTorch

AI 估算 · 20k–35k

大模型校招岗位，美团北京，技术前沿，薪资具有竞争力，基于市场行情估算。

职位详情

关于这个职位

该职位聚焦大模型预训练数据策略，通过数据筛选、配比、合成与系统化迭代，提升模型 scaling efficiency 和智能上限

你将参与业界前沿的多模态实验，直接贡献于万亿参数基座模型

适合对数据驱动、大模型训练有热情的研究型人才

最低要求

熟悉 Python 和 PyTorch 等深度学习框架，具备扎实的机器学习、深度学习、概率统计和算法基础

熟悉大语言模型或多模态基础模型训练流程，理解预训练数据、训练动态、模型能力和评估体系之间的关系

有大规模预训练、Data Mixture、合成数据或模型评估经验者优先

对预训练数据有系统性理解，熟悉数据清洗、去重、污染检测、质量评估、覆盖度建模、长序列组织、合成 / 蒸馏数据和数据配比等关键问题

具备优秀的实验设计和分析能力，能够围绕数据与模型能力提出 hypothesis，设计可复现实验，并基于训练动态、评测结果和模型行为分析实验结论

具备较强的工程实现、自主探索和跨团队协作能力

有相关顶会论文、大模型 / 数据系统 / 训练系统 / 评估系统项目或开源经验者优先

工作职责

研究数据来源、质量、多样性、难度、覆盖度与模型能力之间的关系，建立“数据分布—训练动态—模型效果”的分析与归因框架

探索面向预训练的数据价值建模方法，包括自动化质量评估、样本筛选、语义去重、污染检测、覆盖度建模、长序列数据组织与高价值 token 挖掘

研究 Data Mixture、动态配比、课程学习和多阶段训练策略，分析不同类型数据在不同模型规模、训练阶段和能力维度上的边际收益，提升 token efficiency 与 scaling efficiency

探索合成数据、蒸馏数据、模型自生成数据和反馈数据在预训练中的有效使用方式，研究合成数据的有效性、多样性保持、退化机制和训练配比策略

构建可复现、可扩展的大规模数据处理与实验闭环，将数据构建、训练验证、能力评测、数据诊断和策略更新结合起来，形成面向基础模型持续迭代的数据飞轮

研究并缓解预训练数据中的污染、偏差、重复、低质、隐私、安全和合规风险，提升数据策略的可靠性、可控性和可持续性

AI 洞察

优缺点分析

优点

参与业界最前沿的大模型训练，积累万亿参数级经验
团队技术实力强，资源丰富（5-6万卡集群），成果产出明确
数据策略是大模型核心方向，技能含金量高，职业前景广阔
工作强度可能较大，需要跟进快速迭代的实验进度
技术难度高，需要同时掌握数据处理、模型训练和实验分析多方面知识
适合对数据驱动模型优化有浓厚兴趣，具备扎实的机器学习基础和大模型实践经验的应届生

缺点 / 挑战

作为校招岗位，对独立探索和问题定义能力要求较高

角色解读

从数据策略工程师向数据科学家或算法研究员发展，深入数据驱动模型优化
可进入大模型核心团队，参与模型架构和训练全链路的决策
随着大模型行业发展，成为稀缺的预训练数据专家，可向技术专家或架构师方向成长
研究数据分布与模型能力的关系，建立数据-训练-效果的归因框架
设计自动化的数据质量评估、筛选、去重和污染检测方法
探索数据配比、课程学习等策略，提升训练效率和模型性能
构建数据实验闭环，推动数据策略的持续迭代
扎实的Python和PyTorch编程能力，能够高效实现数据处理和模型训练脚本
深入理解大模型训练流程，熟悉预训练数据的关键问题和处理方法
优秀的实验设计能力，能够提出假设并通过实验验证
良好的工程实现和跨团队协作能力，有相关论文或开源项目经验更佳

申请策略

在简历和面试中展示对数据驱动模型提升的深刻理解和创新想法
关注美团基础研发平台的技术报告，了解团队在原生多模态方向的积累
突出大模型相关的项目或研究经历，尤其是预训练数据处理、数据配比、合成数据等方向
强调Python和PyTorch的实际应用能力，以及在实验设计和分析方面的成果
如有顶会论文、开源贡献或大模型相关比赛获奖，务必显著展示
补充数据去重、污染检测、课程学习等预训练数据方向的经典论文和开源工具
加强分布式训练和数据处理框架（如DeepSpeed、Megatron）的动手能力
提前了解美团的业务场景和大模型应用方向，思考数据策略如何与业务结合

面试指南

对于数据相关的问题，建议从问题定义、现有方法、优缺点分析入手，结合实际项目经验
对于实验设计问题，明确假设、变量控制、评估指标和结论迭代的闭环
对于经验类问题，清晰描述场景、挑战、解决方案和量化成果
请谈谈你对预训练数据质量评估方法的理解，有哪些指标和工具？
如何设计实验来验证数据配比策略对模型能力的影响？
你如何处理预训练数据中的重复和污染问题？
合成数据在预训练中的有效性和局限性是什么？
你有在大规模集群上处理数据或训练模型的经验吗？

职位点评

综合评分

大厂核心大模型团队，前沿技术栈和顶级资源，发展性极强，但WLB一般。

从起薪待遇、成长路径、工作节奏和岗位方向综合评估，方便比较职业起点。

更适合这类人

适合高度重视技术成长和发展机会，愿意投入高强度工作以换取前沿经验的应届生。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展95

工作生活50

使命价值85

薪资福利

70中等

薪资具有市场竞争力，美团作为上市公司提供稳定福利，但 JD 未明确列出具体福利和薪资，整体补偿性动机中等偏上。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

95较高

该职位处于大模型最前沿，参与万亿参数基座训练，技术成长空间极大，且团队有顶级算力资源和明确的学术产出路径。

技术前沿前沿/新兴技术

技术栈Python、PyTorch、大语言模型、预训练、数据配比、合成数据、scaling efficiency

成长机会能力上限、持续迭代、前沿探索、全链路

业务类型ambiguous

工作生活

50较低

工作地点在北京，且 JD 未提及远程或弹性办公，大模型方向通常节奏较快，生活化动机满足一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

85较高

推动大模型技术发展，尤其是原生多模态方向，具有较高的技术创新意义和社会影响力。

行业发展高速增长赛道

社会影响中性/一般

使命信号提升智能上限、非共识的长期投入

创新程度开拓性创新（行业首创）

美团的其他在招职位

相似职位推荐

Watch Jobs

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

美团 的其他在招职位

Keeta-商业分析师（经营分析）-卡塔尔

服务治理高级产品经理

食杂零售综合分析

内容传播实习生（内容编辑与设计方向）

分析应用平台研发工程师

相似职位推荐

资深AI架构师

机器人-AI算法工程师（机器视觉-实习）

研究院-图像算法工程师-杭州

海康机器人-算法工程师-智能控制-杭州

大模型算法工程师

美团的其他在招职位