教育背景:计算机科学、人工智能、数学或相关专业硕士及以上学历
工作经验:5年以上自然语言处理/深度学习算法工作经验,有大规模语言模型(LLM)预训练或持续训练实战经验
专业技能:熟悉TensorFlow、PyTorch,熟练使用Megatron-LM、DeepSpeed等分布式训练框架
对Transformer、MoE、RoPE、GQA、注意力机制等前沿技术有深刻理解,能够针对业务场景设计和优化模型结构
掌握增量预训练、领域适配、灾难性遗忘缓解技术,有SFT、RLHF(PPO/DPO)全流程落地经验