小红书的大模型采集策略算法工程师薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

大模型采集策略算法工程师的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

该职位要求本科学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：13 天前

该职位是大模型采集策略算法工程师，主要负责研发网页解析、内容抽取与质量评估算法，以优化大模型的训练数据

你将运用机器学习、自然语言处理和大模型技术，处理千亿级网页数据，构建高质量的知识库和索引，服务于搜索与问答产品

网页解析与结构化抽取：基于千亿级网页数据，研发通用网页解析算法，实现HTML 结构理解、正文提取、广告识别、页面去重等功能，提升大规模网页解析能力

URL 归一化：优化 URL 解析与去重策略，提升爬虫抓取效率、内容聚合能力，构建高质量索引库

页面质量评估：基于机器学习（ML）+ 自然语言处理（NLP）+ 规则工程，构建高质量内容筛选算法，识别低质量/垃圾/重复页面，提高训练数据质量

知识抽取与语义理解：基于BERT/GPT/LLM 等技术，解析网页、文档、视频等多模态内容，构建网页内容理解、网页分类、实体识别等模型，助力大模型训练数据优化

搜索数据优化：结合大模型能力+外部索引库，优化爬虫抓取策略，提升数据覆盖率、时效性，服务于搜索与问答产品

爬虫数据分析与反爬对抗：基于数据挖掘分析网页特征，优化反爬检测、爬虫模拟行为、动态渲染等策略，提高数据采集成功率

网页知识图谱构建：结合NLP、CV、OCR、知识图谱等技术，从网页、视频等内容中抽取实体、关系、事件等信息，构建高质量知识库

计算机科学、人工智能、数据挖掘相关背景，本科及以上学历

熟练掌握至少一门编程语言（C/C++/Python），具备扎实的数据结构与算法基础，能够编写高效、可扩展的代码

熟悉网页解析与数据处理技术，掌握HTML、DOM 解析、CSS 选择器、XPath、正则匹配、自然语言处理（NLP）等，有网页结构化抽取经验者优先

具备机器学习（ML）/自然语言处理（NLP）实践经验，熟悉文本分类、实体识别、语义相似度计算等算法，能够应用深度学习模型（BERT/GPT 等）进行网页语义质量建模

具备网页质量识别、反爬对抗、垃圾信息过滤、内容分类等领域经验，能够基于大规模数据挖掘优化爬虫策略

有网页抓取、搜索引擎、数据挖掘经验，能够结合搜索引擎索引需求优化数据采集流程

有网页结构化抽取经验者优先

大模型采集策略算法工程师

🤖 AI 估测：¥35K-60K

发布时间：13 天前