负责构建大模型在真实应用场景下的行为与质量评估体系,涵盖用户价值、可靠性、多模态表现、安全性等维度
能够从用户反馈、模型行为观察、研究侧目标中提炼评估方向,并形成评估结论推动模型迭代
持续迭代评估方法,包括但不限于:可扩展的自动化 Evals、Benchmark任务设计、评估工具链与流程优化
确保评估体系能覆盖新能力、Badcase及模型升级版本
与研究、工程、数据科学等团队紧密协作,基于线上观测、实验结果和用户访谈,识别模型缺陷与改进机会,并给出可执行的优化方向与验证方案
负责推动跨团队闭环,统筹评估目标、资源优先级与落地节奏,确保关键模型行为、风险点、用户体验问题能够被快速验证、追踪与优化