参与大规模MoE模型的持续预训练(CPT):数据清洗与混合策略、训练调优与结果分析
参与RLVR/RLAIF强化学习训练流程:数据构建、reward 分析、训练调优
参与多语种机器翻译(MT)方向:语料处理、模型微调、评测
参与生成式推荐基础模型方向:构建用户行为与内容特征序列数据、生成式任务设计与模型微调(SFT/RFT)、离线评测与线上效果分析
参与Agentic RL(智能体强化学习)方向:搭建复杂交互环境与任务流、多步骤推理轨迹(Trajectory)收集、Reward设计与策略网络优化
编写实验脚本、构建评测工具,支持模型上线前的质量验证