【基座大模型北斗实习】大模型后训练研究
🤖 AI 估测:¥8K-15K
发布时间:22 天前
ℹ️关于这个职位
这是一个专注于大模型后训练系统研发的实习岗位
你将参与设计和优化大规模强化学习(RL)训练系统,包括RLHF、RLVR等前沿范式,致力于提升模型能力与应用生产力
工作内容涵盖训练系统架构、在线采样优化、训推一致性、训练稳定性及长程任务训练等多个技术方向
✓工作职责
岗位职责 简介:负责大规模强化学习系统设计、分布式调优、调度优化、算法 co-design等,包括不限于 RLHF、RLVR、Agentic RL等范式
和算法共同提升模型各类专项能力,应用生产力等等 你可能从事以下方向:
RL训练系统架构
①设计和实现支持 PPO及各类变种算法的高效训练框架
②Data/Env Scaling,优化并发调度效率
在线采样 & Rollout 优化
①优化RL场景(longcot、长尾分布、多轮交互)推理引擎效率,包括不限于量化、MTP、并行切分等等
②训推混部署、全流程异步训练,提升 GPU 利用率
训推一致性
①训推引擎天然为了各自最大化效率存在精度差异,研究如何不断降低两者diff,包括不限于 Routing Replay、确定性计算等等
训练稳定性
①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题
②设计细粒度的训练过程监控:reward曲线、KL散度、entropy变化实时可观测
③优化 PPO clip、advantage normalization 等关键超参的自动调节机制
、长程任务训练优化
①长程任务奖励稀疏、过程难精确控制,研究如何系统性的优化其中工程和算法挑战
⭐最低要求
了解 PPO / GRPO / DPO 算法原理,最好动手实现过
用过 veRL / OpenRLHF / TRL 等RL训练框架
有 vLLM / SGLang / TensorRT-LLM 推理加速经验(rollout优化必备)
做过多机多卡训练,理解显存管理和通信开销
RL系统相关顶会论文(NeurIPS/ICML/ICLR/MLSys)