负责微信搜索业务中的内容抓取收录算法工作,包括但不限于设计并实现spider抓取算法和机制,对动态页面进行渲染识别,对不同页面类型分类,发现互联网新的内容和高价值内容,调度抓取收录,提升优质内容比例
全、准、快三个方面提升内容收录覆盖
当前工作包括:使用数据挖掘、机器学习、深度学习等算法,全面刻画页面元素类型,生成多维度质量特征,指导优化数据收录
同时进行搜索相关产品和策略研发,保证搜索技术和体验业内领先
探索自然语言处理、深度学习、大语言模型等方向的前沿技术在搜索场景的探索落地,更好的满足用户的搜索需求