复杂能力评测: 针对逻辑推理、代码生成、长文本理解等高难度能力,设计并构建自动化评测集与评估管线
主观偏好建模: 深入研究 RLHF 中的 Reward Model 表现,分析 Reward Hacking 现象
建立细粒度的评估准则,提升模型在开放式生成任务中的对齐效果
Model-based Evaluation: 研发并优化 LLM-as-a-Judge 技术,通过训练专用的 Critic Model 来替代人工进行大规模、高一致性的自动评估
数据驱动迭代: 建立从评测结果到训练数据的反馈闭环,通过Bad Case分析指导 SFT 数据配比与 Post-training 策略调整