工作职责:
围绕B站AI搜业务,从0到1搭建搜索场景专属大模型数据体系,包括垂类知识库、RAG检索材料库、用户Query数据池等,实现数据分钟/小时级低延迟更新,支撑搜素精准度、响应速度提升
负责B站站内+站外高质量数据的采集、整合与治理,覆盖图文/音视频/弹幕等B站特色多模态数据、全网泛知识/泛娱乐类数据,处理百亿级海量数据,为AI搜大模型训练、推理提供优质语料
设计适配B站内容生态的数据采集-清洗-打标-入库-迭代标准化流程,开发基于Ray/Spark的分布式数据处理Pipeline,适配音视频/弹幕等特色数据处理需求,实现CPU/GPU动态编排,支撑日均TB级AI训练数据自动化处理
优化算力与存储体系,结合B站多模态数据特点设计分级存储方案,提升GPU利用率、降低存储成本
搭建元数据管理与数据血缘追踪体系,缩短数据问题追溯时间,保障AI搜数据链路稳定性
基于B站AI搜用户行为,构建Query驱动的数据飞轮,实现RAG材料、搜索反馈数据的自动化沉淀与迭代,推动“数据-模型-搜索体验”的闭环优化
跨部门协同B站算法、Infra、内容生态等团队,对齐AI搜数据需求,从数据层面推动搜索场景大模型应用落地
带领3-10人数据工程团队,统筹数据基建、Pipeline开发与维护等工作
探索B站特色多模态数据融合方案(文本-音视频-弹幕),构建高质量对齐数据集,助力AI搜多模态大模型研发与场景化应用