工作职责:
大模型效果评估与验证 - 负责大模型应用的效果测试,设计和执行模型输出质量评估,涉及准确率、一致性、安全性、无害性等多维度评估
Prompt工程与场景测试 - 设计高效精准的Prompt指令,构造复杂业务场景的测试用例,验证模型在不同场景下的效果和稳定性
智能体质量保障 - 负责AI Agent应用的功能测试、工具链验证、多轮对话一致性测试,验证Agent的规划能力、工具调用正确性、约束条件满足
文本和NLP算法效果测试 - 对文本理解、生成、抽取等NLP任务进行效果评估,验证语义准确性、召回率、覆盖率等指标
性能与成本优化 - 进行LLM性能测试(延迟、吞吐、Token效率),评估推理成本,优化模型选型和参数配置
数据集构造与基准测试 - 基于业务场景构造高质量的评测数据集,建立模型效果的基准线,设计自动化评估框架