智谱的AI院-GLM团队-后训练 RLHF 算法工程师（26届校招）薪资是多少？

该职位薪资范围为 25k–35k（人民币/月）。

AI院-GLM团队-后训练 RLHF 算法工程师（26届校招）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及无经验要求工作经验。

🤖 AI 估测：¥25K-35K

发布时间：19 天前

这是一个面向2026届毕业生的校招算法工程师岗位，专注于大语言模型的后训练阶段，特别是RLHF（人类反馈强化学习）方向

你将负责优化对齐数据、探索强化学习算法，并参与构建业内领先的后训练技术栈，以提升GLM系列大模型的生成质量和稳定性

对齐数据优化

包括针对模型特定能力进行数据构造、筛选和优化，特定领域（如指令遵循、逻辑性、角色扮演）等数据筛选和合成

对齐数据的质量和多样性控制等

后训练扩展性：探索模型如何通过思维链推理，在“通用领域”的任务上取得更优的效果

强化学习算法优化：提升后训练 scaling 性能

多目标奖励模型优化

生成式奖励模型

过程监督奖励模型

对齐范式探索：结合 RLHF、RLAIF、self-improve 等进行训练优化探索

2026届毕业，自然语言处理、机器学习、人工智能、软件工程等相关专业，硕士及以上学历

较强的算法开发能力，熟悉常用的机器学习、深度学习算法

熟练使用Pytorch、Huggingface、Megatron等框架

对Transformer的架构有较为深入的理解，了解Transformer的各种变体，有相关的研究经验者优先

具备优秀的代码能力和基础算法功底，有较为丰富的工程经验，有大规模训练经验或大规模数据处理经验

在ACL，NeurIPS，ICLR，EMNLP，ICML等顶级会议或期刊上发表过论文者优先

熟悉并行训练框架，有多机多卡训练经验者优先

熟悉大模型预训练 / SFT / RL 者优先

AI院-GLM团队-后训练 RLHF 算法工程师（26届校招）

🤖 AI 估测：¥25K-35K

发布时间：19 天前