
普通员工/个人贡献者
AI 估算 · 40k–70k
强化学习高需求,北京大厂高级算法岗月薪范围4-7万,14薪,技术门槛高
该职位是昆仑万维的强化学习算法研究员,主要负责在大模型上开展强化学习的前沿探索,优化RL训练Pipeline,提升模型推理与指令跟随能力,并推动RL在复杂Agent任务中的落地应用
跟进RLHF/RFT主流研究方向,熟悉RLHF的pipeline,了解DPO/PPO/GRPO等常见算法的细节与差异,对reasoning model的最新进展有跟进,优先考虑有相关训练算法训练与优化经验的同学
开展强化学习在大模型上的探索工作,通过前沿研究和技术创新,优化RL训练Pipeline,提高模型的复杂推理和通用指令跟随能力
在NeurIPS/ICML/ICLR/CVPR等国际会议上发表过相关论文者优先
优点
缺点 / 挑战
暂无明显挑战项
顶级AI研究员岗位,技术前沿、成长快,但需加班且薪资面议。
薪资属市场偏高,上市大厂福利齐全,但具体薪资未披露,补偿性动机满足较好。
职位要求前沿技术,鼓励开源和发表论文,成长空间大,发展性动机极强。
仅现场办公,未提及WLB,可能工作强度较大,生活化动机满足一般。
AI前沿研究推动技术边界,社会影响力中性偏正,意义感较强。