前沿算法探索:紧跟领域前沿技术,探索有效和高效的 RLHF 或 RLAIF 等post-training方法,提升模型在复杂逻辑任务中的推理能力
对齐策略研究: 探索 PPO、DPO、GRPO 等 Post-training 算法的改进,优化模型在指令跟随、多轮对话一致性等方面的表现
高质量数据工程: 负责 SFT 与 RLHF 阶段的数据治理,探索合成数据、数据演化及数据混合策略,解决数据稀缺性问题
长窗口与记忆: 参与 Long Context 训练技术的优化,提升模型在长序列下的注意力保持与信息检索能力