
普通员工/个人贡献者
AI 估算 · 30k–60k
大厂核心算法岗,技术前沿且稀缺,市场竞争力强,薪资有溢价。
该职位专注于大模型强化学习训练系统的开发与优化,包括改进RL训练框架、提升SFT/RL训练性能和稳定性,并探索前沿算法(如Off-Policy RL、SRFT等)
计算机相关专业本科及以上学历,具有一年及以上大模型算法工作经验,算法与工程能力兼备者优先
负责改进RL训练系统,包括基于Ray的RL Trainer功能拓展、Rollout/采样策略探索、Reward系统集成、Agent Loop复杂任务下轨迹管理等
优点
缺点 / 挑战
大厂核心前沿算法岗,高成长高薪资,但工作强度大、WLB一般。
薪资水平在行业内具有竞争力,但JD未明确福利细节,参考字节惯例五险一金+补充医疗,综合补偿性较好。
技术前沿性极强,涉及大模型强化学习、分布式训练等最新方向,成长空间巨大。
仅现场办公,未提及弹性工作制,互联网大厂通常有加班文化,生活平衡一般。
AI大模型处于高速增长赛道,技术创新直接推动行业发展,社会价值较高。