Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Meituan logo
美团
【LongCat大模型人才校招】基础模型 - 数据策略与数据科学
立即应聘

【LongCat大模型人才校招】基础模型 - 数据策略与数据科学

发布于 大约 16 小时前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
学历未注明
研究与开发 (研发)
机器学习
深度学习
PyTorch
预训练
数据清洗
大语言模型
数据策略
概率统计
数据配比

AI 估算 · 20k–35k

大模型校招岗位,美团北京,技术前沿,薪资具有竞争力,基于市场行情估算。

职位详情

关于这个职位

该职位聚焦大模型预训练数据策略,通过数据筛选、配比、合成与系统化迭代,提升模型 scaling efficiency 和智能上限

你将参与业界前沿的多模态实验,直接贡献于万亿参数基座模型
适合对数据驱动、大模型训练有热情的研究型人才

最低要求

熟悉 Python 和 PyTorch 等深度学习框架,具备扎实的机器学习、深度学习、概率统计和算法基础

熟悉大语言模型或多模态基础模型训练流程,理解预训练数据、训练动态、模型能力和评估体系之间的关系
有大规模预训练、Data Mixture、合成数据或模型评估经验者优先
对预训练数据有系统性理解,熟悉数据清洗、去重、污染检测、质量评估、覆盖度建模、长序列组织、合成 / 蒸馏数据和数据配比等关键问题
具备优秀的实验设计和分析能力,能够围绕数据与模型能力提出 hypothesis,设计可复现实验,并基于训练动态、评测结果和模型行为分析实验结论
具备较强的工程实现、自主探索和跨团队协作能力
有相关顶会论文、大模型 / 数据系统 / 训练系统 / 评估系统项目或开源经验者优先

工作职责

研究数据来源、质量、多样性、难度、覆盖度与模型能力之间的关系,建立“数据分布—训练动态—模型效果”的分析与归因框架

探索面向预训练的数据价值建模方法,包括自动化质量评估、样本筛选、语义去重、污染检测、覆盖度建模、长序列数据组织与高价值 token 挖掘
研究 Data Mixture、动态配比、课程学习和多阶段训练策略,分析不同类型数据在不同模型规模、训练阶段和能力维度上的边际收益,提升 token efficiency 与 scaling efficiency
探索合成数据、蒸馏数据、模型自生成数据和反馈数据在预训练中的有效使用方式,研究合成数据的有效性、多样性保持、退化机制和训练配比策略
构建可复现、可扩展的大规模数据处理与实验闭环,将数据构建、训练验证、能力评测、数据诊断和策略更新结合起来,形成面向基础模型持续迭代的数据飞轮
研究并缓解预训练数据中的污染、偏差、重复、低质、隐私、安全和合规风险,提升数据策略的可靠性、可控性和可持续性

AI 洞察

优缺点分析

优点

  • 参与业界最前沿的大模型训练,积累万亿参数级经验
  • 团队技术实力强,资源丰富(5-6万卡集群),成果产出明确
  • 数据策略是大模型核心方向,技能含金量高,职业前景广阔
  • 工作强度可能较大,需要跟进快速迭代的实验进度
  • 技术难度高,需要同时掌握数据处理、模型训练和实验分析多方面知识
  • 适合对数据驱动模型优化有浓厚兴趣,具备扎实的机器学习基础和大模型实践经验的应届生

缺点 / 挑战

  • 作为校招岗位,对独立探索和问题定义能力要求较高

角色解读

  • 从数据策略工程师向数据科学家或算法研究员发展,深入数据驱动模型优化
  • 可进入大模型核心团队,参与模型架构和训练全链路的决策
  • 随着大模型行业发展,成为稀缺的预训练数据专家,可向技术专家或架构师方向成长
  • 研究数据分布与模型能力的关系,建立数据-训练-效果的归因框架
  • 设计自动化的数据质量评估、筛选、去重和污染检测方法
  • 探索数据配比、课程学习等策略,提升训练效率和模型性能
  • 构建数据实验闭环,推动数据策略的持续迭代
  • 扎实的Python和PyTorch编程能力,能够高效实现数据处理和模型训练脚本
  • 深入理解大模型训练流程,熟悉预训练数据的关键问题和处理方法
  • 优秀的实验设计能力,能够提出假设并通过实验验证
  • 良好的工程实现和跨团队协作能力,有相关论文或开源项目经验更佳

申请策略

  • 在简历和面试中展示对数据驱动模型提升的深刻理解和创新想法
  • 关注美团基础研发平台的技术报告,了解团队在原生多模态方向的积累
  • 突出大模型相关的项目或研究经历,尤其是预训练数据处理、数据配比、合成数据等方向
  • 强调Python和PyTorch的实际应用能力,以及在实验设计和分析方面的成果
  • 如有顶会论文、开源贡献或大模型相关比赛获奖,务必显著展示
  • 补充数据去重、污染检测、课程学习等预训练数据方向的经典论文和开源工具
  • 加强分布式训练和数据处理框架(如DeepSpeed、Megatron)的动手能力
  • 提前了解美团的业务场景和大模型应用方向,思考数据策略如何与业务结合

面试指南

  • 对于数据相关的问题,建议从问题定义、现有方法、优缺点分析入手,结合实际项目经验
  • 对于实验设计问题,明确假设、变量控制、评估指标和结论迭代的闭环
  • 对于经验类问题,清晰描述场景、挑战、解决方案和量化成果
  • 请谈谈你对预训练数据质量评估方法的理解,有哪些指标和工具?
  • 如何设计实验来验证数据配比策略对模型能力的影响?
  • 你如何处理预训练数据中的重复和污染问题?
  • 合成数据在预训练中的有效性和局限性是什么?
  • 你有在大规模集群上处理数据或训练模型的经验吗?

匹配度报告

75
综合匹配度

大厂核心大模型团队,前沿技术栈和顶级资源,发展性极强,但WLB一般。

适合人群
适合高度重视技术成长和发展机会,愿意投入高强度工作以换取前沿经验的应届生。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活50
使命价值85

薪资福利匹配

70中等

薪资具有市场竞争力,美团作为上市公司提供稳定福利,但 JD 未明确列出具体福利和薪资,整体补偿性动机中等偏上。

薪资信号未披露(AI估算:20K-35K/月)

成长发展匹配

95较高

该职位处于大模型最前沿,参与万亿参数基座训练,技术成长空间极大,且团队有顶级算力资源和明确的学术产出路径。

技术前沿前沿/新兴技术
技术栈Python、PyTorch、大语言模型、预训练、数据配比、合成数据、scaling efficiency
成长机会能力上限、持续迭代、前沿探索、全链路
业务类型ambiguous

工作生活匹配

50较低

工作地点在北京,且 JD 未提及远程或弹性办公,大模型方向通常节奏较快,生活化动机满足一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

85较高

推动大模型技术发展,尤其是原生多模态方向,具有较高的技术创新意义和社会影响力。

行业发展高速增长赛道
社会影响中性/一般
使命信号提升智能上限、非共识的长期投入
创新程度开拓性创新(行业首创)
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k

美团 的其他在招职位

  • 【北斗】基于大模型的搜索算法工程师

    美团 · 北京市
    AI 估算 · 6k-10k
  • 【北斗】广告大模型应用算法工程师-【多国多语言LLM-based 推搜广告】

    美团 · 北京市
    AI 估算 · 25k-35k
  • 市场营销实习生

    美团 · 北京市
    AI 估算 · 4k-6k
  • 【LongCat大模型人才校招】基础模型通用 agent 算法研究员

    美团 · 北京市
    AI 估算 · 20k-30k
  • 【北斗】AI决策算法研究员(外卖/即时零售方向)

    美团 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 大模型应用算法工程师-电商业务

    小红书 · 北京市
    AI 估算 · 25k-45k
  • MaaS模型评测高级工程师

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • SW Engineer (Campus)

    大众汽车 · 合肥市
    AI 估算 · 8k-12k
  • 工程技师,合规测试 Engineering Technician, Compliance Test

    特斯拉 · 上海市
    AI 估算 · 20k-35k
  • AI算法实习生

    三七互娱 · 广州市
    AI 估算 · 4k-8k