Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/哔哩哔哩/大模型数据开发工程师
Bilibili logo
B
哔哩哔哩 (Bilibili)

职位信息

上海市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

分布式计算PyTorch数据质量评估多模态数据处理数据流水线Dataloader
💡

核心评价

前沿大厂技术岗,高成长潜力,薪资竞争力强,WLB信息不明。

大模型数据开发工程师

🤖 AI 估测:¥35K-60K

发布时间:18 天前

立即应聘

ℹ️关于这个职位

该职位是哔哩哔哩的大模型数据开发工程师,主要负责构建和优化面向大模型训练的超大规模多模态数据处理流水线
你将设计高性能的数据算子库,研发与训练框架无缝集成的Dataloader,并建立数据质量评估体系,为算法团队提供高质量的训练数据支持

✓工作职责

端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程
高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)
训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率
流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求
质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响

⭐最低要求

计算机科学、软件工程、大数据或相关专业本科及以上学历,有3年以上数据开发或算法工程经验
精通Python,熟练使用Pandas、PyTorch等数据处理和深度学习框架,必须具备构建或优化训练数据Dataloader的实际经验
深入理解多模态数据的特性及处理技术,具备丰富的数据建模和数据架构经验,能够设计统一、高效的数据处理抽象
有使用Spark、Ray等分布式框架进行大规模数据处理的实战经验,理解其核心原理
具备优秀的业务理解能力和跨团队(数据、算法、Infra)沟通协作精神,责任心强,有严谨的问题排查与优化
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 运维工程师

    哔哩哔哩

    上海市 · 仅现场办公

  • 交易生态-图书类目运营负责人

    哔哩哔哩

    上海市 · 仅现场办公

  • 社区生态运营

    哔哩哔哩

    上海市 · 仅现场办公

  • 海外社媒推广运营-猫耳FM国际版

    哔哩哔哩

    上海市 · 仅现场办公

  • 节目制作人

    哔哩哔哩

    上海市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公