腾讯的混元大语言模型后训练算法工程师-深圳/北京薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

混元大语言模型后训练算法工程师-深圳/北京的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

该职位要求硕士学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：大约 1 个月前

该职位是腾讯大语言模型团队的核心算法研发岗位，专注于混元大模型的后训练阶段

你将负责构建和优化奖励系统，运用强化学习等技术提升模型在指令遵循、逻辑推理和价值观对齐方面的能力，并负责数据合成、模型评测等全链路工作

负责大语言模型后训练（Post-Training）阶段的核心技术研发，构建和优化高质量的奖励系统（Reward System），通过Reward Modeling (RM) 和强化学习（RL）算法持续提升模型在复杂指令遵循、逻辑推理及价值观对齐方面的能力

深入研究和优化 RLHF等后训练算法，提升模型训练的稳定性和最终效果

负责后训练阶段的数据合成与管理，设计高效的数据飞轮机制，利用SFT、Self-Instruct等技术合成高质量训练数据，并负责建立从用户反馈（User Feedback）到模型迭代的闭环信号建模体系

负责后训练模型的全维度评测与分析，制定科学的评价指标，跟进前沿技术动态，将最新研究成果快速转化为业务价值

计算机科学/软件工程/人工智能等相关专业硕士及以上学历

深入理解 Transformer 架构及大语言模型训练原理，在 LLM Alignment、RLHF、Reward Modeling 等后训练领域之一有深入的研究和实践经验

具备扎实的算法基础和工程实现能力，熟练掌握 Python，熟悉 PyTorch/TensorFlow 等深度学习框架

拥有分布式训练实战经验，熟悉 Megatron-LM, DeepSpeed, vLLM 等大规模训练及推理框架

具备优秀的科研素养

具备强烈的技术热情和自驱力，善于分析和解决复杂问题，拥有良好的团队协作和沟通能力

有百亿/千亿参数模型训练或调优经验者优先

有高质量论文发表（NeurIPS, ICLR, ICML, ACL, EMNLP 等）或在开源社区（如 HuggingFace）有高影响力项目贡献者优先