Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

miHoYo logo
米哈游
LLM Pretrain Data研究员
立即应聘

LLM Pretrain Data研究员

发布于 大约 16 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
学历未注明
分布式计算
预训练
LLM
数据清洗
vLLM
代码数据
数据过滤

AI 估算 · 25k–40k

LLM领域薪资较高,上海一线城市,米哈游大厂薪酬有竞争力,岗位技术壁垒高。

职位详情

关于这个职位

该职位是米哈游的LLM预训练数据研究员

你将负责设计和实现大规模数据处理流水线,用于清洗和过滤代码及通用文本数据,并开发基于LLM的数据过滤策略以提升预训练语料质量
工作涉及Spark/Ray等分布式框架,需要扎实的Python编程能力和对数据质量的执着
适合有大数据处理和LLM背景的工程师

最低要求

精通大规模数据处理框架,如Apache Spark或Ray

扎实的Python编程能力,熟悉分布式计算概念
高度重视数据质量,能够分析并处理不同代码和文本语料中的边界情况

工作职责

针对多种数据源(包括GitHub代码库、网页爬取的code以及通用文本数据)设计并实现代码及通用数据清洗pipeline

开发并迭代基于LLM的数据过滤策略,以提高预训练语料库的数据质量
开发、维护并优化数据pipeline,确保其在大规模场景下的性能和可靠性

优先资格

具有预训练数据处理pipeline的经验,特别是code数据方面

具备vLLM或SGLang等LLM推理框架的实际使用经验

AI 洞察

优缺点分析

优点

  • 米哈游平台稳定,薪酬福利优厚,属于行业头部
  • 接触LLM最前沿的数据工程,技术成长空间大
  • 参与核心预训练流程,具有较大技术影响力
  • 数据规模巨大,需处理各种脏数据和异常情况
  • 技术迭代快,需要持续学习保持竞争力
  • 互联网行业可能存在一定的工作强度
  • 适合对大规模数据处理和LLM有浓厚兴趣、具备扎实编程和分布式计算基础的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

  • 成长为数据工程专家或LLM数据科学家,深入参与模型训练全流程
  • 在米哈游内部向技术主管或架构师方向晋升
  • 横向迁移至其他AI公司的数据或算法团队
  • 设计和实现大规模数据处理pipeline,用于清洗和过滤GitHub代码、网页爬取数据及通用文本
  • 开发基于LLM的数据过滤策略,迭代优化以提升预训练语料质量
  • 维护和优化pipeline,保障在大数据量下的性能和稳定性
  • 精通Apache Spark或Ray等大规模数据处理框架
  • 扎实的Python编程能力,熟悉分布式计算原理
  • 对数据质量有极高要求,能分析和处理各种边界情况

申请策略

  • 关注米哈游技术博客和LLM方向动态,在面试中展现对公司的了解
  • 强调对数据质量的执着,可准备一些处理脏数据的经历
  • 突出使用Spark/Ray等框架处理大规模数据的项目经验,并量化成效
  • 展示数据清洗、过滤策略的设计思路和实际案例
  • 体现Python编程能力和分布式系统调优经验
  • 补充LLM推理框架如vLLM、SGLang的使用经验
  • 了解常见预训练数据处理流程(如C4、The Pile等)

面试指南

  • STAR法则:描述情境、任务、行动和结果,突出量化指标
  • 先分析问题背景,再给出技术方案,最后总结效果和教训
  • 展示系统性思维,从数据接入、清洗、过滤到存储全链路考虑
  • 如何设计一个用于预训练的大规模数据清洗pipeline?
  • 在Spark/Ray中如何进行性能优化?请举例说明
  • 你遇到过最棘手的数据质量问题是什么?如何解决的?
  • 谈谈你对LLM预训练数据中噪声的看法及过滤策略
  • 如果数据源包含多种语言和格式,如何统一处理?

匹配度报告

66
综合匹配度

米哈游LLM预训练数据研究员,前沿技术栈,核心利润中心,成长空间大但WLB未明确。

适合人群
适合追求技术成长和前沿领域、对薪资有较高预期且能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利60
成长发展85
工作生活50
使命价值70

薪资福利匹配

60中等

职位未明确薪资和福利,但米哈游作为大型游戏公司,薪酬水平应属行业上游,能满足基本的补偿性需求。

薪资信号未披露(AI估算:25K-40K/月)

成长发展匹配

85较高

职位涉及LLM前沿技术,使用Spark/Ray等主流框架,有较大技术成长空间,但JD未提及晋升路径。

技术前沿前沿/新兴技术
技术栈Apache Spark、Ray、Python、LLM、vLLM、SGLang
业务类型profit_center

工作生活匹配

50较低

工作地点在上海市区,但未提及弹性工作或WLB,互联网公司通常有一定加班文化,生活化需求满足度中等偏低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

处于AI高速发展赛道,技术前沿,但游戏行业的社会直接影响力有限,意义感动机中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 战斗策划-崩坏:因缘精灵

    米哈游 · 上海市
    AI 估算 · 20k-35k
  • 文案策划(配音监制方向)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-30k
  • 创作者策略运营(UGC方向)-原神

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • UGC运营策划(玩法方向)-原神

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 国际化网页工具产品经理-AI方向(第三方编制)

    米哈游 · 上海市
    AI 估算 · 12k-20k

相似职位推荐

  • Mech Parts 2

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • agent训练工程环境研发(J99851)

    百度 · 北京市
    AI 估算 · 4k-6k
  • Engineering Supervisor

    伊顿中国 · 上海市
    AI 估算 · 25k-40k
  • R&D Engineer

    伊顿中国 · 上海市
    AI 估算 · 15k-25k
  • 运筹优化算法工程师

    京东 · 北京市
    AI 估算 · 30k-50k

米哈游 的其他在招职位

  • 战斗策划-崩坏:因缘精灵

    米哈游 · 上海市
    AI 估算 · 20k-35k
  • 文案策划(配音监制方向)-星布谷地

    米哈游 · 上海市
    AI 估算 · 15k-30k
  • 创作者策略运营(UGC方向)-原神

    米哈游 · 上海市
    AI 估算 · 20k-30k
  • UGC运营策划(玩法方向)-原神

    米哈游 · 上海市
    AI 估算 · 25k-40k
  • 国际化网页工具产品经理-AI方向(第三方编制)

    米哈游 · 上海市
    AI 估算 · 12k-20k

相似职位推荐

  • Mech Parts 2

    大众汽车 · 大连市
    AI 估算 · 15k-25k
  • agent训练工程环境研发(J99851)

    百度 · 北京市
    AI 估算 · 4k-6k
  • Engineering Supervisor

    伊顿中国 · 上海市
    AI 估算 · 25k-40k
  • R&D Engineer

    伊顿中国 · 上海市
    AI 估算 · 15k-25k
  • 运筹优化算法工程师

    京东 · 北京市
    AI 估算 · 30k-50k