评测体系建设:主导搭建覆盖基础模型与应用模型的端到端评测体系,包括评测集构建、评估流程设计、评估指标定义、评估报告体系等,持续迭代评测方法论
评测产品规划:负责评测平台的整体产品规划与落地,推动评测流程的平台化、自动化、智能化,提升评测效率与一致性
人工&自动评估:设计并优化人工评估与自动评估的协同机制,制定标注标准与质量管控方案,推动AI辅助评估能力的落地
评测报告与洞察:建立结构化的评估报告分析框架,将评测结果转化为可落地的模型优化建议,驱动模型迭代与数据优化闭环
跨团队协作:与算法、数据、工程团队紧密协作,理解模型训练与推理链路,确保评测体系深度嵌入研发工作流
团队管理:带领评测产品团队,制定团队目标与成长规划,推动产品文化与方法论沉淀