Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
大模型数据工程师-视频理解方向
立即应聘

大模型数据工程师-视频理解方向

发布于 1 天前

普通员工/个人贡献者

上海市
初级经验
全职员工
仅现场办公
本科
分布式计算
数据清洗
多模态数据
OpenCV
FFmpeg

AI 估算 · 13k–20k

初级岗位,需多媒体处理经验,市场竞争力中等,B站平台较好,薪资有竞争力。

职位详情

关于这个职位

该职位负责B站视频理解方向的多模态数据处理,包括数据清洗、格式转换、质量监控及分布式管线搭建

你将使用Spark/Ray等框架处理TB级数据,并开发可视化工具提升数据治理效率,直接支撑多模态大模型的迭代训练
适合有数据处理经验、对多媒体技术感兴趣的技术人才

最低要求

计算机、大数据、多媒体等相关专业,本科及以上学历,具备1年及以上图像、视频、音频多模态数据处理实战经验

熟练使用Python进行数据脚本开发,掌握基础多媒体处理工具(FFmpeg、OpenCV等),熟悉音视频、图片常规处理逻辑
精通Spark、Ray、Hive等至少一种分布式计算/数据处理框架,有大规模离线数据集群作业落地经验,能独立进行任务调优与问题排查
熟悉海量多媒体数据处理流程,在数据清洗、去重、格式统一、质量校验等环节有成熟实操经验,重视数据效率与质量管控
具备数据管线规范化建设经验,能梳理并沉淀标准化流程规范,推动团队数据处理流程统一化、可复用

工作职责

负责图像、视频、音频类多模态数据全流程处理,完成数据采集、筛选、清洗、格式转换、模态对齐、去重、分类整理等工作,保障数据集合规可用

搭建并维护分布式数据处理流水线,使用分布式工具完成TB/PB级海量多媒体数据批量处理,持续优化处理流程,提升整体运行效率
负责管线的规范化建设,推动数据处理流程标准化、可复用
主导数据处理相关内部工具建设,开发数据质量可视化平台、流程监控看板、自动化校验工具等,实现数据状态、处理进度、质量指标的可视化管理,提升数据治理的透明度与可追溯性
建立数据质量标准与全链路评估体系,开展数据抽检、问题排查、异常数据过滤,把控数据集整体质量、完整性与一致性,定期输出数据质量报告与优化方案
配合算法团队完成数据分装、版本管理、样本调度等工作,根据模型训练需求调整数据配比、补充专项样本,支撑多模态大模型迭代
沉淀通用数据处理脚本、工具库与操作规范,优化作业流程,推动数据生产全流程自动化、标准化,降低运维成本,提升团队协作效率

优先资格

有数据可视化工具或平台开发经验优先,熟悉常用可视化框架(如Matplotlib/Plotly/Grafana等),能搭建数据质量监控看板或自动化校验工具

具备良好问题排查能力、执行力与团队协作意识,能承接大批量数据任务,主动优化流程、解决线上数据问题

AI 洞察

优缺点分析

优点

  • 职位涉及大模型数据前沿领域,能积累分布式计算、数据治理等核心技能
  • 团队氛围技术导向,有机会参与工具平台从0到1建设,提升工程能力
  • 需处理海量数据,对系统性能和稳定性要求高,可能面临紧急任务
  • 年经验起步,但要求较深的技术栈,对自学能力和动手能力要求高
  • 适合有数据处理经验、热爱技术攻坚、希望在AI数据工程领域深耕的初级工程师

缺点 / 挑战

  • B站作为头部视频平台,多模态数据场景丰富,技术挑战大,成长空间高
  • 多模态数据处理链路复杂,需要跨团队协作,沟通成本较高

角色解读

  • 数据工程师 → 高级数据工程师 → 数据架构师:深度钻研分布式数据处理与数据治理
  • 数据工程 → 算法工程:积累多模态数据经验后,可转型为多模态算法工程师
  • 数据工程 → 技术管理:带领数据团队,负责整体数据平台建设
  • 负责多模态(图像、视频、音频)数据的全流程处理,包括采集、清洗、格式转换、模态对齐等,确保数据合规可用
  • 搭建和维护基于Spark/Ray的分布式数据处理流水线,处理TB/PB级数据,并持续优化流程效率
  • 开发数据质量监控看板和自动化校验工具,实现数据治理的可视化与可追溯
  • 与算法团队协作,根据模型训练需求调整数据配比,支撑多模态大模型迭代
  • 精通Python,熟悉FFmpeg、OpenCV等多媒体处理工具
  • 掌握Spark、Ray或Hive等分布式计算框架,有大规模数据作业经验
  • 熟悉数据清洗、去重、质量校验等处理流程,注重效率与质量
  • 具备数据管线规范化建设能力,能推动标准化流程落地

申请策略

  • 在简历中强调数据处理的规范性和自动化思维,体现工程化能力
  • 关注B站大模型团队的技术博客或开源项目,面试时展现对业务的了解
  • 突出多媒体数据处理项目经验,具体描述数据量、使用工具及处理效果
  • 强调分布式框架(Spark/Ray)的使用场景和调优成果
  • 展示可视化工具开发或数据质量监控方面的实践,如有开源项目更好
  • 列出对音视频格式、编解码、OpenCV等多媒体技术的掌握程度
  • 提前学习Grafana、Plotly等可视化工具,了解数据监控面板搭建
  • 熟悉Hive或列式存储(如Parquet)在大数据场景的应用

面试指南

  • 对于技术问题,用STAR法则说明项目背景、任务、行动和结果,重点突出量化成果
  • 对于流程设计题,从需求分析、技术选型、方案实施、效果评估四个层面展开,体现系统性思维
  • 对于异常排查题,先明确问题现象,再分步骤定位(数据侧/代码侧/资源侧),最后给出解决验证
  • 你在之前的项目中如何处理视频/图片数据去重?具体用什么方法?
  • 如何优化Spark作业处理视频元数据时的性能瓶颈?
  • 描述一次你搭建的数据质量监控体系,包括指标设计和报警机制
  • 如果模型训练反馈某类样本不足,你如何快速补充并保证质量?
  • FFmpeg提取关键帧时有哪些参数需要注意?如何提升效率?

匹配度报告

70
综合匹配度

技术前沿、成长空间大,但办公模式传统且WLB不明确。

适合人群
适合追求技术成长、热爱大数据和AI工程的求职者,对WLB要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展85
工作生活60
使命价值65

薪资福利匹配

70中等

B站属于上市大厂,薪资在行业中等偏上,但未明确具体范围,福利方面未在JD提及,因此补偿性满足程度一般。

薪资信号未披露(AI估算:13K-20K/月)

成长发展匹配

85较高

职位涉及大模型数据、分布式计算、自动化工具开发等前沿技术,成长空间大,能显著提升技术栈和工程能力。

技术前沿前沿/新兴技术
技术栈Python、Spark、Ray、Hive、FFmpeg、OpenCV、Grafana
业务类型ambiguous

工作生活匹配

60中等

仅现场办公,未提及弹性工时或居家办公,上海办公地点不明,WLB信号不足,生活化动机满足度有限。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

65中等

B站作为内容社区平台,对文化传播有正向作用,但职位偏后端工程,社会影响直接性不强,行业属于高速增长赛道。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • 营销策划(快消行业)

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 交易-电商产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 25k-40k
  • IP衍生品设计

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 纪录片内容运营

    哔哩哔哩 · 上海市
    AI 估算 · 10k-18k
  • 音乐内容企划(A&R)

    哔哩哔哩 · 上海市
    AI 估算 · 15k-30k

相似职位推荐

  • 微服务治理架构师/Leader-Data

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • 风险监测专员(直播方向)-CQC

    字节跳动 · 成都市
    AI 估算 · 15k-25k
  • 数据工程师

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 产品技术架构师/资深技术架构师-火山引擎

    字节跳动 · 上海市
    AI 估算 · 40k-70k
  • 大模型数据安全策略运营-小荷健康

    字节跳动 · 北京市
    AI 估算 · 25k-45k

哔哩哔哩 的其他在招职位

  • 营销策划(快消行业)

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 交易-电商产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 25k-40k
  • IP衍生品设计

    哔哩哔哩 · 上海市
    AI 估算 · 15k-25k
  • 纪录片内容运营

    哔哩哔哩 · 上海市
    AI 估算 · 10k-18k
  • 音乐内容企划(A&R)

    哔哩哔哩 · 上海市
    AI 估算 · 15k-30k

相似职位推荐

  • 微服务治理架构师/Leader-Data

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • 风险监测专员(直播方向)-CQC

    字节跳动 · 成都市
    AI 估算 · 15k-25k
  • 数据工程师

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 产品技术架构师/资深技术架构师-火山引擎

    字节跳动 · 上海市
    AI 估算 · 40k-70k
  • 大模型数据安全策略运营-小荷健康

    字节跳动 · 北京市
    AI 估算 · 25k-45k