负责大模型评估体系与评估 Pipeline 的设计、开发与持续演进,覆盖 LLM / VLM / Agent 等多种模型形态
深入理解模型能力结构(指令遵循、推理、代码、Agentic、多模态等),设计高区分度、可落地的评估指标与评测方法
构建并维护 模型评估全流程能力,包括但不限于:
评测样本与数据集管理(版本化、标签体系、覆盖度)
自动化评测执行(批量推理、并发、失败重试、成本控制)
评估打分与聚合逻辑(规则 / LLM-judge / 多裁判)
结果可视化、模型横向对比、趋势分析与回归分析
与模型研发、产品、业务团队协作,帮助各方更准确、可解释地理解模型评估结果