Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

miHoYo logo
米哈游
爬虫算法工程师
立即应聘

爬虫算法工程师

发布于 大约 16 小时前

普通员工/个人贡献者

上海市
高级经验
全职员工
仅现场办公
学历未注明
软件工程
分布式系统
大数据
调度算法
爬虫
Url归一化
网页质量排名
链接筛选

AI 估算 · 25k–45k

高级算法工程师岗位,上海地区薪资竞争力强,米哈游作为头部游戏公司,薪酬待遇优厚。

职位详情

关于这个职位

作为爬虫算法工程师,你将负责设计优化亿级URL调度体系,开发链接筛选和网页质量排名算法,解决大规模抓取中的重复、污染等问题,提升数据吞吐效率

需要扎实的算法和编程基础,适合对大规模数据处理感兴趣的技术人才

最低要求

计算机相关专业,具备扎实的数据分析、数据建模、数据结构、算法与网络基础,熟练掌握Java/C++/Python/golang任意一种编程语言,有大规模策略系统研发落地经验

拥有亿URL池调度、链接筛选、URL归一化全链路实战经验,熟悉分布式爬虫海量链接去重、排序、调度、淘汰完整流程
精通URL标准化、等价链接收敛、参数清洗技术,具备超大流量链接降噪、重复抓取治理落地能力
熟练掌握站点质量打分、链接优先级排序、站群与马甲站点识别等核心策略,有大规模垃圾站点、低质链接治理经验
可联动调度策略完成风险适配与流量规整,保障大规模采集业务稳定运行

工作职责

负责亿级URL池智能调度体系的设计、优化与落地,搭建多因子优先级调度、增量更新、并发流量管控策略,在有限资源下最大化高质量页面抓取效率与数据吞吐

负责抓取策略的设计与研发,包括链接筛选算法的开发,网页质量排名算法,通过历史数据动态更新网页的排名策略,实现高价值资源优先调度、低质链接自动降权淘汰
负责URL归一化体系建设,落地域名路径规整、无效参数清洗、等价URL去重收敛能力,解决超大量级链接场景下的重复抓取、数据污染、调度冗余等核心问题
结合业务目标,制定差异化调度、限速、重试策略,提升抓取成功率

优先资格

有大厂全网搜索引擎、亿级爬虫调度平台搭建优化经验

在爬虫调度、链接排序、站群风控领域有技术沉淀、专利或开源项目
具备攻防对抗与抓取策略联动优化经验

AI 洞察

优缺点分析

优点

  • 米哈游作为头部游戏公司,技术投入大,平台稳定,薪酬福利有竞争力
  • 团队氛围和技术深度较好,有专利和开源项目机会
  • 工作强度可能较大,涉及大规模系统实时优化,需要持续跟进技术前沿
  • 对策略思维和工程能力要求高,需要同时处理算法和系统架构问题
  • 爬虫领域常面临反爬对抗,需要不断调整策略,保持技术敏锐度

缺点 / 挑战

  • 接触亿级数据调度和复杂算法,技术挑战大,积累高含金量的大数据处理经验
  • 适合对大规模数据处理和算法优化有热情、喜欢技术挑战、具备扎实编程能力的工程师

角色解读

  • 技术纵深发展:成为爬虫调度、搜索引擎领域的专家,主导核心技术架构
  • 横向扩展:转向大数据、推荐系统或AI数据管道方向,拓宽技术栈
  • 管理方向:带领爬虫团队,负责整体数据采集策略和工程落地
  • 设计并优化亿级URL的智能调度系统,确保有限资源下最大化高质量页面抓取效率
  • 开发链接筛选和网页质量排名算法,动态调整调度策略,优先抓取高价值内容
  • 建设URL归一化体系,解决重复抓取、数据污染和调度冗余等问题
  • 结合业务目标制定差异化限速、重试策略,提升抓取成功率
  • 扎实的数据结构、算法和网络基础,熟练掌握Java/C++/Python/golang中的至少一种
  • 精通分布式爬虫、大规模URL去重、排序、调度和淘汰的完整流程
  • 具备URL标准化、等价链接收敛、参数清洗等实战经验
  • 了解站点质量打分、链接优先级排序、站群识别等风控策略

申请策略

  • 准备一个具体项目案例,展示如何从海量链接中提升抓取效率或质量
  • 了解米哈游的业务场景(如游戏数据采集),思考如何应用你的技术方案
  • 突出亿级URL调度或大规模爬虫系统的实战经验和项目成果
  • 强调在URL归一化、链接排序、去重等方面的算法优化方法
  • 展示在分布式系统、高并发、大流量场景下的设计案例
  • 如有相关专利、开源项目或技术博客,务必列出以体现深度
  • 深入学习搜索引擎和爬虫框架(如Scrapy、Nutch)的源码,理解调度策略
  • 加强算法和数据结构能力,尤其是排序、去重、图算法

面试指南

  • 先明确问题规模(亿级),然后分模块:调度、去重、排序、容错
  • 给出核心算法和数据结构的选型理由(如布隆过滤器、一致性哈希)
  • 结合实际案例,说明如何平衡效率与资源消耗,强调迭代优化过程
  • 展示系统思维:不仅讲单个技术,还要考虑监控、降级、扩展性
  • 如何设计一个亿级URL的调度系统,确保高质量页面优先抓取?
  • 请详细解释URL归一化的主要步骤和去重算法(如布隆过滤器)的实现
  • 如何处理反爬机制(如IP封禁、验证码)?策略如何动态调整?
  • 当抓取资源有限时,如何设计链接优先级排序算法?

职位点评

66
综合评分

高薪高成长的大厂爬虫算法岗,技术硬核但WLB一般。

更适合这类人
最适合追求技术深度和职业成长、能接受现场办公和较高工作强度的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活40
使命价值50

薪资福利

85较高

该职位薪酬处于上海高级算法工程师的较高水平,米哈游作为头部游戏公司,福利完善,但JD未明确列出具体福利,因此评分较好但非满分。

薪资信号未披露(AI估算:25K-45K/月)

成长发展

90较高

职位涉及亿级数据和前沿爬虫技术,技术挑战大,成长空间广阔,但JD未明确提及培训或晋升通道,仅依赖工作内容本身。

技术前沿主流现代技术
技术栈爬虫、调度算法、URL归一化、链接筛选、网页质量排名、分布式系统、大数据
业务类型ambiguous

工作生活

40较低

工作地点在上海,仅现场办公,没有提及弹性工作或远程,且爬虫工程师通常面临较高工作强度,WLB一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

50较低

游戏行业稳定,但爬虫岗位属于基础架构,社会影响力中性,没有明确使命感信号。

行业发展稳定成熟行业
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • AI研发工程师(RL)-UE5动作预研(写实奇幻)

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 国际化营销渠道运营(第三方编制)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • 商业化活动运营-星布谷地

    米哈游 · 上海市
    AI 估算 · 20k-35k
  • 3D生成算法研究员实习生

    米哈游 · 上海市
    AI 估算 · 5k-10k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • Assoc FrontEnd Eng, WRB Tech

    渣打银行 · 广州市
    AI 估算 · 30k-45k
  • 高级全栈开发工程师(侧重前端)

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 中间件开发工程师(存储)

    中国平安 · 深圳市
    AI 估算 · 20k-40k
  • AI Agent Applications Engineer

    高通 · 上海市
    AI 估算 · 30k-55k
  • AI Agent Applications Engineer

    高通 · 上海市
    AI 估算 · 35k-55k

米哈游 的其他在招职位

  • AI研发工程师(RL)-UE5动作预研(写实奇幻)

    米哈游 · 上海市
    AI 估算 · 30k-60k
  • 国际化营销渠道运营(第三方编制)

    米哈游 · 上海市
    AI 估算 · 15k-25k
  • 商业化活动运营-星布谷地

    米哈游 · 上海市
    AI 估算 · 20k-35k
  • 3D生成算法研究员实习生

    米哈游 · 上海市
    AI 估算 · 5k-10k
  • SRE运维工程师(基础架构)

    米哈游 · 上海市
    AI 估算 · 25k-40k

相似职位推荐

  • Assoc FrontEnd Eng, WRB Tech

    渣打银行 · 广州市
    AI 估算 · 30k-45k
  • 高级全栈开发工程师(侧重前端)

    中国平安 · 深圳市
    AI 估算 · 25k-35k
  • 中间件开发工程师(存储)

    中国平安 · 深圳市
    AI 估算 · 20k-40k
  • AI Agent Applications Engineer

    高通 · 上海市
    AI 估算 · 30k-55k
  • AI Agent Applications Engineer

    高通 · 上海市
    AI 估算 · 35k-55k