数据艺术的缔造者: 针对模型特定能力进行数据构造、筛选和优化,特别是在数学、代码、复杂推理等领域的特定数据筛选和合成
并负责对齐数据的质量和多样性控制,让数据成为模型进化的沃土
思维链的延伸者: 探索模型如何通过更长的思维链推理,在复杂任务上取得更优的效果,并提升post-training阶段训练和推理的扩展能力,让模型拥有更强大的逻辑推理能力
强化学习的优化师: 提升算法的可扩展性和稳定性,优化后训练 scaling 性能
优化多目标奖励模型,并探索结合CoT和过程监督来优化奖励模型,让强化学习算法更高效、更稳定
对齐范式的创新者: 结合模型监督、self-improve 等进行训练优化探索
攻克交互任务复杂推理难题
让模型的理解和生成能力更上一层楼