评测数据统计与可视化 :负责评测得分数据的清洗、统计与可视化、计算整体及分维度平均分、胜率、p-value、置信区间等指标,并按阈值自动筛选 Bad/Good case,支撑效果分析
搭建可视化Dashboard,支持可视化洞察驱动模型迭代,如模型分数成长趋势
提效 / 测试工具开发:根据评测流程痛点,敏捷交付脚本或小型web服务,如:prompt管理工具(生成、筛选、版本管理)、失分样本检索、模型指标统计平台化&自动生成简要报表
持续优化评测CI/CD,缩短“提测 → 评测 → 反馈 →优化”闭环