学历与经验:硕士及以上学历,计算机科学、人工智能等相关专业,具备NLP、多模态交互领域深度实践经验
LLM后训练专长:
深入理解主流大模型架构(如Qwen、LLaMA、ChatGLM等)
精通大模型后训练全流程,尤其在RLHF/DPO方面有实际落地经验,熟悉PPO、DPO等强化学习算法在语言模型中的调参与应用
熟悉LoRA、QLoRA等高效微调技术,能根据场景平衡模型性能与训练成本
强化学习(RL)基础:掌握强化学习基本原理,了解其在语言模型推理(如RLHF中的推理环节、过程奖励模型PRM)或多轮对话决策中的应用,有相关研究或项目经验者优先
RAG与多模态技术:精通RAG系统的工程化实现,掌握向量数据库(如Milvus、Faiss)与检索优化策略
熟悉多模态对齐技术(如CLIP),有多模态生成(文本-图像/视频)或多模态语言模型落地经验者优先