RM标注策略优化,包括但不限于迭代标注策略、AI标注策略等,探究数据和模型性能的关系
研发fine-grained reward modeling,对幻觉、推理、数学等场景进行针对性优化
探索 PMP、Reference、Tool-Augmented、RM+CoT等对现有方法的改进,探索language-based RM以提高可解释性及鲁棒性
研究Self-Rewarding、Self-Crituqing、Scalable Oversight等方向下的对齐技术,探索LLM booststrap的技术路径