网页解析与结构化抽取:基于千亿级网页数据,研发通用网页解析算法,实现HTML 结构理解、正文提取、广告识别、页面去重等功能,提升大规模网页解析能力
URL 归一化:优化 URL 解析与去重策略,提升爬虫抓取效率、内容聚合能力,构建高质量索引库
页面质量评估:基于机器学习(ML)+ 自然语言处理(NLP)+ 规则工程,构建高质量内容筛选算法,识别低质量/垃圾/重复页面,提高训练数据质量
知识抽取与语义理解:基于BERT/GPT/LLM 等技术,解析网页、文档、视频等多模态内容,构建网页内容理解、网页分类、实体识别等模型,助力大模型训练数据优化
搜索数据优化:结合大模型能力+外部索引库,优化爬虫抓取策略,提升数据覆盖率、时效性,服务于搜索与问答产品
爬虫数据分析与反爬对抗:基于数据挖掘分析网页特征,优化反爬检测、爬虫模拟行为、动态渲染等策略,提高数据采集成功率
网页知识图谱构建:结合NLP、CV、OCR、知识图谱等技术,从网页、视频等内容中抽取实体、关系、事件等信息,构建高质量知识库