腾讯的混元大模型后训练算法工程师/专家-角色扮演&文本创作薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

混元大模型后训练算法工程师/专家-角色扮演&文本创作的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

腾讯的混元大模型后训练算法工程师/专家-角色扮演&文本创作有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

混元大模型后训练算法工程师/专家-角色扮演&文本创作

🤖 AI 估测：¥45K-80K

发布时间：16 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型后训练阶段的算法工程师/专家岗位

你将负责为角色扮演、文本创作等线上核心场景，设计并实施从数据生产、自动化质检到训练链路优化的全流程方案

核心目标是利用评测体系驱动模型能力迭代，确保数据与模型在一致性、准确性、创造力等维度达到高标准

✓工作职责

后训练数据全链路研发：负责大模型后训练（SFT+RL）阶段面向线上核心场景的数据全链路研发，覆盖角色扮演、开放域对话、文本创作、知识问答、逻辑推理、理科解题、Memory等高优场景，针对各场景特性设计并落地覆盖数据生产、自动化质检与定向修复的端到端方案，确保数据在人设一致性、对话自然度、创作质量、事实准确性、推理严谨性、记忆连贯性等维度的稳定、高标准交付

评测驱动的数据与训练链路优化：主导面向线上核心场景的评测体系建设，设计并落地覆盖多场景的 Rubrics 评分标准与自动化评测 pipeline

以评测结果为核心抓手，系统性诊断模型在各场景下的能力短板与失败模式，驱动上游数据调优（数据增补、清洗、重采样）与训练算法及链路的针对性改进（SFT 数据配比、RL reward 信号校准、训练策略迭代等），形成“评测定位问题 → 归因分析 → 数据/算法定向优化 → 效果验证闭环”的持续迭代飞轮

前沿数据技术研究与落地：深度追踪并研究支撑大模型后训练与线上场景能力提升的前沿数据技术，重点关注多轮对话数据构建、角色人设注入与一致性保持、知识增强与事实性校验、复杂推理链数据生成、长程记忆与上下文管理、Rubric-based Evaluation、自动化质检与错误归因修复等方向，能够将最新数据方法快速转化为业务价值，持续驱动模型在各线上核心场景下的能力演进

⭐最低要求

计算机科学、人工智能或相关专业硕士及以上学历，深入理解 Transformer 架构及 LLM 训练原理，能针对 SFT、RLHF/DPO 等后训练场景设计并落地高标准数据方案

在以下一个或多个方向有深入实践经验：角色扮演/开放域对话数据构建与多轮一致性优化、文本创作数据质量提升、知识问答事实性校验、推理与理科数据的正确性验证、长程记忆数据设计等

具备 Rubrics 评价体系的设计与质检经验，能推动人工标注、模型打分与规则校验等多种质检手段协同落地

熟练掌握 Python 及 PyTorch 等深度学习框架，善于利用 Cursor、Claude Code 等 AI 辅助工具提升数据生产与自动化分析效率

具备强烈的数据敏感度与洞察力，善于从海量数据与评测结果中发现隐含模式、定位模型能力瓶颈，并主动推动从 insight 到落地的完整闭环

拥有优秀的跨团队协作与沟通能力，能将数据发现清晰传达给算法、产品等上下游团队

👍优先资格

在 CCF-A 顶会（NeurIPS、ICLR、ICML、ACL 等）有高质量论文发表或在开源社区有高影响力贡献者优先

混元大模型后训练算法工程师/专家-角色扮演&文本创作

🤖 AI 估测：¥45K-80K

发布时间：16 天前

核心评价