混元多模态强化学习后训练算法工程师(框架协同方向)(北京/上海)
🤖 AI 估测:¥45K-80K
发布时间:大约 1 个月前
ℹ️关于这个职位
该职位是腾讯在人工智能前沿领域的核心算法岗位,专注于多模态大模型的后训练优化
你将作为算法与框架团队之间的技术桥梁,负责将RLHF、DPO等先进算法原理转化为底层框架需求,并主导后训练流程的搭建、优化与效果评测,解决跨模态对齐、奖励函数设计等关键技术挑战
✓工作职责
算法-框架协同设计:作为算法与框架团队之间的技术桥梁,深入理解多模态大模型后训练算法(如RLHF、DPO、课程强化学习等)的原理与演进趋势,并将其转化为对底层框架的功能需求,为框架架构设计建言献策
训练流程优化与评测:主导或深度参与后训练流程(如多模态SFT、RLHF)的搭建、优化与效果评测
关注训练稳定性、效率及泛化能力,特别是针对跨模态对齐、奖励函数设计及策略优化等环节提出系统性改进方案
技术调研与瓶颈攻关:主动跟踪学术界与工业界在多模态强化学习后训练领域的前沿进展
针对训练中出现的瓶颈(如OOD泛化不足
模态融合冲突等),进行根因分析,并与框架团队协作制定解决方案
跨团队支持与知识沉淀:高效协同框架开发、硬件优化及业务算法团队,确保技术方案落地
撰写高质量的技术文档、设计稿与实验报告,并组织内部分享,推动团队整体技术认知提升
⭐最低要求
学历与技术背景:拥有计算机科学、人工智能、电子工程、自动化等相关专业的硕士及以上学历
具备扎实的机器学习/深度学习基础,对多模态大模型和强化学习后训练技术栈有深入理解
核心算法与工程能力:精通Python编程,熟练掌握PyTorch等深度学习框架
对Transformer、Diffusion等模型架构有深刻理解
深刻理解SFT、RLHF、DPO等后训练算法的原理、流程及常见挑战(如训练不稳定性、奖励黑客行为等)
具备优秀的工程实现和调试能力,能够快速验证算法想法,并进行严格的实验分析以评估性能
框架协同与系统视角:
熟悉至少一种主流大模型训练/推理框架(如Megatron-LM、DeepSpeed、VLLM),了解其架构设计思想
能够从算法视角评估框架的易用性、扩展性和性能,并提出改进建议
有使用VERL、OpenRLHF等后训练框架的经验者更佳
软技能:具备出色的跨团队沟通能力,能清晰地在算法和工程团队之间翻译需求、阐明方案
拥有强烈的责任心、自驱力和解决复杂问题的热情