腾讯的混元大模型后训练算法工程师/专家-长文&复杂指令薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

混元大模型后训练算法工程师/专家-长文&复杂指令的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求硕士学历及高级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：16 天前

这是一个专注于大模型后训练阶段的高级算法工程师/专家职位

你将负责设计和实施针对长文生成与复杂指令遵循场景的端到端数据方案，包括数据生产、自动化质检与定向修复

你需要深度参与Rubrics评分标准体系的构建，并研究前沿数据技术以持续驱动模型在复杂任务上的能力提升

负责大模型后训练（SFT+RL）阶段长文与复杂指令类数据的全链路研发，围绕长篇幅内容生成、多约束/多步骤复杂指令遵循等核心场景，设计并落地覆盖数据生产、自动化质检与定向修复的端到端方案，确保数据在长程连贯性、结构完整性、指令遵循精度等维度的稳定、高标准交付

深度参与Rubrics评分标准体系的设计、生产与质检，针对长文与复杂指令场景，构建原子化、可量化的多维评价体系，搭建从标准生成到评分验证的自动化 pipeline

建立多层质量校验机制，实现“评测发现问题—数据定向补强—配方迭代优化—效果闭环提升”

深度追踪并研究支撑大模型后训练和复杂指令能力提升的前沿数据技术，重点关注长上下文数据构建、复杂指令自动生成、Rubric-based Evaluation、自动化质检、错误归因与数据修复等方向，能够将最新数据方法快速转化为业务价值，持续驱动模型在长文与复杂任务场景下的能力演进

计算机科学、人工智能或相关专业硕士及以上学历，深入理解Transformer 架构及 LLM 训练原理，能针对 SFT、RLHF/DPO 等后训练场景设计并落地高标准数据方案

深入实践过长文生成、复杂指令遵循、长上下文理解等方向的数据构建与优化，具备 Rubrics 评价体系的设计与质检经验，能推动人工标注、模型打分与规则校验等多种质检手段协同落地

熟练掌握 Python 及 PyTorch 等深度学习框架，善于利用 Cursor、Claude Code 等 AI 辅助工具提升数据生产与自动化分析效率

具备强烈的数据敏感度、技术热情与自驱力，主动思考，能从数据与评测结果中洞察模型能力边界，拥有优秀的跨团队协作与沟通能力

在 CCF-A 顶会（NeurIPS、ICLR、ICML、ACL 等）有高质量论文发表或在开源社区有高影响力贡献者优先

混元大模型后训练算法工程师/专家-长文&复杂指令

🤖 AI 估测：¥45K-80K

发布时间：16 天前