Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小米/MiMo-大模型全网爬虫工程师
Xiaomi logo
X
小米 (Xiaomi)

职位信息

北京市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

NLP数据清洗大模型反爬机制分布式爬虫网页信息抽取
💡

核心评价

小米AI大模型核心数据岗,技术前沿成长快,意义感强,但需考虑一线城市现场办公的通勤成本。

MiMo-大模型全网爬虫工程师

🤖 AI 估测:¥25K-45K

发布时间:大约 1 个月前

立即应聘

ℹ️关于这个职位

这是一个专注于为AI大模型提供高质量数据源的爬虫工程师岗位
你将负责设计和开发高性能的分布式网络爬虫系统,从互联网公开网页和数据集中采集、清洗数据
你的工作直接关系到下一代大模型的数据质量,是AI技术栈中关键的数据工程环节

✓工作职责

遵照robots协议,对互联网公开网页和公开数据集进行采集
负责设计和开发分布式的网络爬虫,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能
负责网页信息抽取技术算法的研究和开发,提升数据抓取的效率和质量
负责爬取数据的去重、解库、爬虫系统的监控和异常警报

⭐最低要求

本科及以上学历,计算机相关专业, 熟悉Python/Java/Go/C++其中两种语言
掌握一种或多种爬虫库(如Requests、BeautifulSoup、Scrapy等)
具备扎实的编码能力,精通网络通信,对HTTPS、TCP有深入理解

👍优先资格

熟悉主流爬虫框架工具,如Playwright、Puppeteer
掌握正则表达式、XPath、CSS等网页信息抽取技术
了解NLP基本技术,实际使用过如Fasttext、N-gram、Bert、GPT等算法和模型者优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 材料及轻量化实习生

    小米

    上海市 · 仅现场办公

  • 安全事务经理(网安)

    小米

    北京市 · 仅现场办公

  • 大模型技术专家(Agent方向)

    小米

    北京市 · 仅现场办公

  • 参控股公司管理实习生-2027届

    小米

    北京市 · 仅现场办公

  • 小米汽车-自动驾驶行车产品经理实习生

    小米

    北京市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公