设计并执行大模型应用评测:针对Chatbot与ChatBI等应用,设计系统化测试方案,包括功能测试、逻辑测试与边界测试
构建评测数据与指标体系:构建评测数据集,并设计评估指标(如准确率、鲁棒性、一致性、幻觉率等)
参与Agent应用搭建与测试:参与AI Agent系统的构建与测试,验证多步骤推理与工具调用能力
执行模型输出评估:结合人工评测与自动评测(如LLM-as-a-judge)评估模型输出质量
分析模型问题与行为:识别模型幻觉、逻辑错误、偏差等问题,并提出优化建议
数据处理与脱敏:进行数据清洗与脱敏(如匿名化、掩码处理),确保符合数据隐私要求
撰写评测报告:输出评测方法、结果分析及优化建议,并向相关方汇报
向团队成员和相关方展示成果与洞察