负责重点AI能力(Chatbot、GUI Agent、Generative rec 等)的评测体系的搭建与优化,包括评测维度设计、指标定义、流程标准化,确保评测结果科学、客观、可复现
负责评测数据真值方案构建,包括数据标注、自动化生产等,确保评测数据真实有效,指引算法优化方向
跟踪业界前沿AI评测技术与方法(如LLM-as-a-judge、Agent-as-a-judge)以及评测基准(AIME、GPQA、BrowserCamp、OSWolrd),并结合业务需求引入创新思路,持续优化评测体系
与算法研发、产品、工程团队紧密协作,明确评测需求,能发现算法能力的欠缺并分析问题原因,推动AI产品质量提升