Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/Hi lab-数据采集
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市
中级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

数据采集多模态数据数据合规大模型数据质量评估数据规划爬虫策略预训练数据
💡

核心评价

前沿AI大模型数据策略岗,技术成长性极佳,薪资竞争力强,位于一线城市核心区。

Hi lab-数据采集

🤖 AI 估测:¥25K-45K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型预训练数据采集与策略规划的核心技术岗位
你将负责设计全局数据采集策略,规划多语言、多领域、多模态的数据获取路径,并构建数据需求量化体系,确保数据总量与质量满足前沿AI模型的训练需求
工作涉及数据源发现、质量评估、合规风险应对等全流程,是支撑AI模型能力发展的关键环节

✓工作职责

负责大模型预训练数据的全局采集策略设计,制定高效、可持续的数据获取路径,覆盖多语言、多领域、多模态数据源
构建数据需求量化体系,针对模型能力目标(如推理、代码、知识等)规划数据采集优先级与规模,确保token总量与质量满足训练需求
设计数据源发现、去重、质量评估与增量更新的自动化流程,平衡开源数据、合作数据与自采数据的应用
探索低成本、高合规性的数据获取方案,应对版权、隐私等风险,支撑团队长期数据需求

⭐最低要求

具备数据采集/爬虫策略或大规模数据规划经验,熟悉网页、学术、公开语料等主流数据源特性与获取技术
具备数据价值评估能力,能结合模型训练需求(如稀缺资源、长尾领域)制定数据增强策略
熟悉数据合规与版权规范,具备风险规避意识与实战经验
强自驱力与全局视角,能独立完成从策略设计到落地推进的全流程,适应初创团队快速迭代节奏

👍优先资格

有预训练数据体系建设经验
熟悉数据清洗、去重、质量评估工具链
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 经营分析岗

    中国平安

    上海市 · 仅现场办公

  • 运营分析岗

    中国平安

    上海市 · 仅现场办公

  • 经营分析岗

    中国平安

    上海市 · 仅现场办公

  • 经营分析岗

    中国平安

    杭州市 · 仅现场办公

  • 数据分析师/高级分析师

    中国平安

    深圳市 · 仅现场办公