Agent 评价体系构建 (Evaluation):
构建针对 Agent 业务场景的自动化评测基准 (Benchmark)
开发基于 LLM-as-a-Judge 的评估管线,量化 Agent 的指令遵循能力 (Instruction Following)、逻辑推理能力 (Reasoning) 和工具调用准确率 (Tool Use)
设计并维护“幻觉”检测机制,确保输出的安全性与真实性
模型后训练与调优 (Post-training):
负责基座模型(Base Model)在特定 Agent 场景下的 SFT (Supervised Fine-Tuning) 工作,规范模型的输出格式(如 JSON)和对话风格
探索 DPO (Direct Preference Optimization) 或 PPO 等对齐算法,优化模型的决策倾向,使其更符合人类或业务的偏好
负责 LoRA/QLoRA 等参数高效微调 (PEFT) 实验,在显存受限情况下优化模型性能
数据合成与清洗:
利用 GPT-4 等强模型构造高质量的合成数据 (Synthetic Data) 用于蒸馏或微调
清洗和构建用于评测的 Golden Dataset (金标数据集)