负责以音视频为主的多个模态的数据策略,协同数据工程师与算法团队,对原始训练数据进行收口、分类、清洗、脱敏、结构化
深入理解各类数据的来源、特性与用途,确保数据质量与合规性
追踪数据生命周期,确保数据可追溯、可还原、可解释
负责数据分级与版本管理,设计并维护训练数据的分级策略、数据标注规范、数据版本体系,负责训练数据的文档化,包括数据源描述、处理流程、清洗策略、抽样配比等关键信息
产品化协作与技术对接,作为接口人,与算法、数据工程、平台团队密切合作,推动训练数据产品方案的落地
与研发团队共同推进数据平台的能力建设与数据工具链打通,提升数据处理效率与规范性,推进训练数据资产的可复用性与积累性,持续构建结构化数据资产池
数据使用策略与监控,与模型团队配合,输出不同训练任务的数据构成建议,制定数据使用与采样策略,建立关键数据指标监控机制,评估数据质量对模型效果的影响