Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/米哈游/LLM Pretraining Data Technical Staff
miHoYo logo
m
米哈游 (miHoYo)

职位信息

上海市 / 北京市
中级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

💡

核心评价

大厂AI数据工程核心岗,技术前沿、成长性强,薪资竞争力高,但需适应一线城市现场办公节奏。

LLM Pretraining Data Technical Staff

🤖 AI 估测:¥30K-50K

发布时间:13 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大语言模型(LLM)预训练数据处理的工程师岗位
你将负责设计和实现大规模数据处理流水线,对来自GitHub、网页抓取等渠道的代码和文本数据进行清洗与过滤,以构建高质量的预训练语料库
核心工作是利用Python、Spark等技术栈,开发和优化数据流程,确保其在大规模场景下的性能与可靠性

✓工作职责

为多样化来源(包括 GitHub 仓库、网络抓取的代码和通用文本数据)设计和实现代码及通用数据清洗流水线
开发和迭代基于 LLM 的数据过滤策略,以提升预训练语料库的数据质量
开发、维护和优化数据流水线,以实现大规模下的性能和可靠性

⭐最低要求

精通大规模数据处理框架,如 Apache Spark 或 Ray
扎实的 Python 编程技能
熟悉分布式计算概念
对数据质量有高度关注,能够推理处理多样化代码和文本语料库中的边缘情况

👍优先资格

有预训练数据整理流水线(尤其是代码数据)的先前经验
有 LLM 推理框架(如 vLLM 或 SGLang)的实践经验
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 业务助理

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划(社交)-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 版本运营-星布谷地

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 资深市场公关(媒体关系方向)-原神

    米哈游

    上海市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公