计算机科学、人工智能、自然语言处理等相关专业硕士及以上学历
在模型架构创新方面有实际研究经验,深入理解Transformer架构及其变体、MoE架构改造、线性注意力等方向
有丰富的研究经验,在顶级会议(如NeurIPS、ICML、ICLR、ACL、EMNLP、NAACL)有一定论文发表
具备扎实的深度学习理论基础和模型优化经验
熟练掌握PyTorch/TensorFlow,了解分布式训练框架(如DeepSpeed、Megatron)
具备强烈的技术热情和创新精神,善于跟踪前沿研究并转化为实际应用