自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等)
构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化
Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制
复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性
模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点
针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向
用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题
与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案
建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化
跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环