参与建设覆盖文本、音视频及具身模型的统一评测体系,设计并落地模型评测方法与指标体系
面向基座模型,构建通用能力评测(理解、推理、事实性、安全性、鲁棒性等),支撑模型版本对比与演进决策
面向业务侧(客服、导购、搜索、推荐等),抽象业务目标,设计专项评测指标、用例集与评测方案
负责自动化评测与判分策略(规则 / 模型判分 / 多模型互评),并协同人工标注体系提升评测可信度
参与评测数据集建设,包括数据采样、难例挖掘、数据版本管理与评测结果分析
与工程团队协作,打通模型数据 – 实验 – 评测全链路闭环