负责对服体大模型构建的通用垂类应用进行数据生产交付和效果质量评估
通过与产品研发团队的紧密合作,制定评估标准和体系,准确分析评估效果,为应用的优化和改进提供支持,以提升应用的性能、用户体验和市场竞争力
应用效果与质量评估:
负责评估基于服体大模型所构建的通用垂类应用的效果和质量,包括但不限于语言理解准确性、生成内容的合理性、逻辑连贯性、知识准确性等方面
参与设计测试数据集,涵盖不同场景、用户需求和输入条件,以确保应用在各种情况下的稳定性和可用性
参与收集和分析用户反馈数据,结合实际使用情况,对应用的性能和用户体验进行综合评估
评估标准与体系建设:
理解业务需求和产品目标,与产品研发团队密切沟通和协作,负责制定详细、明确的评估标准和指标体系
理解评估数据的收集、整理和分析流程,确保评估数据的可用性和置信度,为评估体系的持续改进提供数据支持
与产品、算法、运营、业务方保持协同,制定业务规划、目标管理以及团队人员管理工作,共同关注团队效果数据和目标达成,为产品研发团队提供决策依据和改进方向,共同优化模型及agent体验效果
设计和实现大语言模型方向AI训练流程,并不断优化迭代,带领团队高效完成标注和内容生产项目同时负责管理标注团队,积极推动标注工具、组织流程及交付流程优化,提升并完善团队的交付能力