网易的大模型算法工程师（NLP/LLM）薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

大模型算法工程师（NLP/LLM）的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

该职位要求硕士学历及高级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：18 天前

这是一个专注于大语言模型（LLM）在虚拟陪伴场景下深度应用的高级算法工程师职位

你将负责从模型后训练（如RLHF/DPO）、强化学习决策优化到RAG系统落地的全链路技术工作，旨在打造一个具备情感理解、个性化表达和逻辑连贯性的智能对话系统

架构设计与模型落地：主导AI虚拟陪伴系统的整体技术架构设计，重点负责大语言模型（LLM）在对话系统中的深度落地，确保模型能力在产品体验层面的高效转化

LLM后训练与对齐：负责基座大模型的后训练（Post-training）阶段工作，包括但不限于监督微调（SFT）、奖励模型（RM）训练，以及基于人类反馈的强化学习（RLHF）或直接偏好优化（DPO），解决模型在虚拟陪伴场景下的角色一致性、情感理解与个性化表达问题

强化学习与决策优化：探索强化学习（RL）在对话策略中的应用，利用强化学习优化模型在长程对话中的推理（Reasoning）能力与决策过程，提升交互的拟人化程度与逻辑连贯性

记忆管理与RAG优化：完善记忆管理机制，实现关键事件、用户偏好的高效存储与检索

负责RAG系统的工程化落地，结合向量数据库与检索策略优化，为强化学习和微调阶段提供高质量的数据支持，提升内容生成的个性化与时效性

性能与资源调度：主导系统性能优化，解决高并发场景下的低延迟响应与推理资源调度问题，保证线上服务的稳定与高效

学历与经验：硕士及以上学历，计算机科学、人工智能等相关专业，具备NLP、多模态交互领域深度实践经验

LLM后训练专长：

深入理解主流大模型架构（如Qwen、LLaMA、ChatGLM等）

精通大模型后训练全流程，尤其在RLHF/DPO方面有实际落地经验，熟悉PPO、DPO等强化学习算法在语言模型中的调参与应用

熟悉LoRA、QLoRA等高效微调技术，能根据场景平衡模型性能与训练成本

强化学习（RL）基础：掌握强化学习基本原理，了解其在语言模型推理（如RLHF中的推理环节、过程奖励模型PRM）或多轮对话决策中的应用，有相关研究或项目经验者优先

RAG与多模态技术：精通RAG系统的工程化实现，掌握向量数据库（如Milvus、Faiss）与检索优化策略

熟悉多模态对齐技术（如CLIP），有多模态生成（文本-图像/视频）或多模态语言模型落地经验者优先

加分项：有复杂对话系统、虚拟陪伴产品或情感计算相关项目的落地经验

在强化学习与语言模型结合方向（如RLHF、RLAIF）有深入研究成果或顶会论文者优先

大模型算法工程师（NLP/LLM）

🤖 AI 估测：¥35K-60K

发布时间：18 天前