专项评测集挖掘与构建:深入挖掘通用问答场景下的用户高频及长尾需求,构建覆盖多维度的专项评测集
制定评测标准,维护评测集的时效性与高难度,确保其能真实反映模型能力水位
自动化评测流程搭建(Workflow):利用自动化工具或脚本搭建高效的评测Workflow,替代传统人工重复劳动
探索并优化评测链路,通过工具化手段提升Badcase发现与数据流转的效率
竞品分析与差距洞察:紧跟行业前沿模型(如GPT-4、Claude等)动态,执行深度的红蓝对抗测试与横向对比
输出高质量的竞品分析报告,归纳总结我方模型与行业标杆的优劣势,为策略迭代提供方向
质量运营与归纳复盘:对大模型问答效果进行日常监控与归因分析,从海量Badcase中归纳共性问题
协同产研团队,推动从“发现问题”到“解决问题”的闭环,输出可落地的优化建议