【训练数据工程】
参与大模型训练数据的采集、清洗、去重、质量过滤的全链路建设,覆盖文本、图文、行为序列等多类型数据
设计并实现数据质量评估体系,包括规则过滤、模型打分、人工标注一致性分析
参与数据飞轮闭环建设,从线上反馈信号到数据回流、再到模型迭代的自动化链路
基于 Spark / Flink / Ray 等框架构建高吞吐数据处理 Pipeline,支撑 TB 级数据规模
【知识库工程】
参与知识库的工程建设,包括知识采集、结构化抽取、Schema 设计、增量更新 Pipeline
构建知识条目的质量检测与覆盖率监控体系,保障知识的准确性与新鲜度
与 Agent 团队协作,优化知识在 RAG 链路中的召回率与命中精度,闭环分析 bad case
设计知识库的版本管理与回滚机制,支持多业务场景下的差异化知识配置
【记忆系统工程】
参与AI 记忆系统的工程实现,包括用户记忆、会话记忆、场景记忆的写入、检索、更新、淘汰全链路
设计记忆存储方案,在向量数据库、KV 存储、结构化 DB 之间做合理分层,兼顾检索效率与存储成本
构建记忆质量评估体系,包括记忆准确性、召回相关性、对下游 Agent 任务的增益指标
研究记忆压缩、记忆蒸馏、长期记忆管理等前沿方向,结合业务场景落地