Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Bilibili logo
哔哩哔哩
大模型数据采集工程师
立即应聘

大模型数据采集工程师

发布于 大约 4 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
本科
GO
多模态
数据合规
FFmpeg
反爬对抗

AI 估算 · 25k–45k

大模型数据方向热门,上海大厂,要求高级技能,薪资处于领先水平。

职位详情

关于这个职位

该职位负责搭建和优化面向视频生成模型的多模态数据采集系统,包括分布式爬虫、数据清洗与预处理流水线,以及合规性建设

你将处理海量视频数据,与前沿AI模型紧密配合,是数据基础设施的关键角色
适合具备扎实爬虫工程能力和反爬对抗经验的技术人才

最低要求

计算机、大数据、人工智能等相关专业本科及以上学历,具备扎实的Python/Go编程功底,精通Scrapy、Playwright、Selenium等主流爬虫框架

深入理解HTTP/HTTPS、WebSocket等网络协议,熟悉FFmpeg等音视频处理工具,有大规模视频/图片等多模态数据采集与存储(MySQL/MongoDB/OSS)实战经验
具备极强的反爬对抗能力,熟悉国内外主流站点的反爬机制(如验证码、指纹识别、JS逆向、App抓包),并有成熟的破解与绕过方案
熟悉Linux开发环境及Docker容器化技术,了解分布式任务调度(如Airflow、Celery),能够独立搭建和维护高并发的数据采集集群
具备良好的数据合规意识,了解网络爬虫相关的法律边界,能够在保证数据安全的前提下高效完成采集任务

工作职责

负责面向视频生成模型的海量多模态数据采集,搭建高吞吐、高可用的分布式爬虫系统,覆盖主流短视频平台、影视网站及公开视频库

构建视频数据清洗与预处理流水线,利用多模态大模型(VLM)或传统CV算法,对爬取的视频进行去重、画质评估、敏感内容过滤及基础结构化标注
负责爬虫系统的合规性建设,严格遵守《数据安全法》、《个人信息保护法》及Robots协议,设计数据脱敏与隐私保护方案,规避法律与业务风险
持续优化数据采集链路的工程化能力,包括代理IP池管理、容器化部署(Docker/K8s)、任务调度监控及异常自动重试机制,保障数据供给的时效性与稳定性

优先资格

有视频生成(Text-to-Video)、多模态大模型(VLM)数据工程或AI数据中台开发经验者优先

熟悉大模型数据清洗标准,了解如何使用Prompt工程结合VLM进行自动化视频质量打分与筛选
有处理Trillion级别以上

AI 洞察

优缺点分析

优点

  • 身处大模型数据核心环节,技术前沿且需求旺盛
  • 可积累多模态数据处理、自动化爬虫、合规治理等稀缺技能
  • 待遇优厚,大厂福利完善
  • 反爬对抗持续升级,需要不断学习和更新技术方案
  • 爬虫系统需要高可用高吞吐,对工程化能力要求极高
  • 适合热爱爬虫技术、享受攻克反爬难题、对数据工程充满热情且注重合规的技术工程师

缺点 / 挑战

  • 哔哩哔哩作为大型互联网平台,数据量和场景丰富,技术挑战大
  • 数据合规要求严格,需平衡效率与法律风险

角色解读

  • 向AI数据工程专家或数据基础设施架构师方向发展
  • 可深入多模态大模型领域,转型为AI训练数据负责人
  • 积累合规经验后,可担任数据安全或隐私保护相关岗位
  • 开发高并发分布式爬虫系统,采集海量多模态视频数据
  • 构建数据清洗流水线,利用VLM或CV算法进行去重、画质评估和标注
  • 负责爬虫合规性建设,设计数据脱敏和隐私保护方案
  • 优化采集链路,包括代理池管理、容器化部署和任务监控
  • 精通Python/Go和Scrapy、Playwright、Selenium等爬虫框架
  • 深入理解网络协议和音视频处理(FFmpeg),有大规模数据存储经验
  • 具备强反爬对抗能力,熟悉验证码、JS逆向、App抓包等技术
  • 熟悉Linux、Docker/K8s及分布式任务调度(Airflow/Celery)

申请策略

  • 了解B站业务场景,思考其视频数据需求(如UP主内容、版权合规)
  • 关注国家数据安全法规,面试中展现合规敏感度
  • 突出大规模爬虫项目经验,尤其是处理视频/多模态数据的案例
  • 详细描述反爬破解技术(如验证码绕过、JS逆向、App抓包)
  • 展示工程化能力:Docker/K8s部署、任务调度、监控告警等
  • 强调数据合规意识,提及相关法律知识或实践
  • 补充多模态大模型(VLM)和视频生成(T2V)基础概念
  • 学习FFmpeg高级用法和视频质量评估算法

面试指南

  • STAR法则:描述场景、任务、行动、结果,突出技术难点和量化成果
  • 分层设计:从架构、策略、工具三个层面逐步展开
  • 合规优先:先阐述法律底线,再谈技术方案
  • 如何设计一个可扩展的分布式爬虫系统?
  • 遇到反爬机制(如滑块验证码、IP封禁)如何应对?
  • 如何处理视频数据的去重和画质评估?
  • 在数据采集中如何保证数据合规?
  • 介绍一下你处理过的爬虫性能优化案例

匹配度报告

69
综合匹配度

大厂核心数据岗位,前沿技术栈,高薪高成长,但现场办公且可能加班。

适合人群
适合追求技术前沿、高成长和丰厚回报的求职者,能接受较高工作强度。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活40
使命价值60

薪资福利匹配

85较高

薪资待遇处于互联网大厂高端水平,福利完善,但具体薪资面议,不确定性中等。

薪资信号面议 (25K-45K/月)

成长发展匹配

90较高

技术前沿,涉及大模型数据、多模态、反爬等热点,成长空间大。但未明确提及晋升机制。

技术前沿前沿/新兴技术
技术栈Python、Go、Scrapy、Playwright、Selenium、FFmpeg、Docker、Kubernetes、多模态、VLM、反爬
业务类型profit_center

工作生活匹配

40较低

要求现场办公,未提及弹性工作或加班情况,但互联网大厂通常工作强度较大。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

数据采集直接服务于AI视频生成,有技术价值,但社会影响力一般,合规性强。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

哔哩哔哩 的其他在招职位

  • AI数据基建工程师

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 海外钱包产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 销售管理(销售BP)

    哔哩哔哩 · 上海市
    AI 估算 · 25k-40k
  • 大模型推理平台开发工程师

    哔哩哔哩 · 上海市
    AI 估算 · 40k-60k
  • 商业化-行业运营(本土美妆方向)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Unity客户端开发工程师-抖音直播(北京/上海/深圳)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • Camera软件开发工程师-移动OS

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 网络接入平台研发工程师/专家-基础设施

    字节跳动 · 深圳市
    AI 估算 · 30k-60k
  • 推荐算法工程师-抖音投稿

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 豆包语音大模型后端工程师(模型推理)-Data语音

    字节跳动 · 上海市
    AI 估算 · 20k-40k

哔哩哔哩 的其他在招职位

  • AI数据基建工程师

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 海外钱包产品经理

    哔哩哔哩 · 上海市
    AI 估算 · 25k-45k
  • 销售管理(销售BP)

    哔哩哔哩 · 上海市
    AI 估算 · 25k-40k
  • 大模型推理平台开发工程师

    哔哩哔哩 · 上海市
    AI 估算 · 40k-60k
  • 商业化-行业运营(本土美妆方向)

    哔哩哔哩 · 上海市
    AI 估算 · 20k-30k

相似职位推荐

  • Unity客户端开发工程师-抖音直播(北京/上海/深圳)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • Camera软件开发工程师-移动OS

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 网络接入平台研发工程师/专家-基础设施

    字节跳动 · 深圳市
    AI 估算 · 30k-60k
  • 推荐算法工程师-抖音投稿

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 豆包语音大模型后端工程师(模型推理)-Data语音

    字节跳动 · 上海市
    AI 估算 · 20k-40k