
实习/见习
AI 估算 · 6k–8k
百度实习生薪资约200-300元/天,按21天算约4200-6300元/月,考虑技术稀缺性上浮至6000-8000元/月,发放12个月。
加入百度强化学习算法团队,你将参与前沿RL算法的研究与落地,包括PPO、SAC等,设计奖励函数并优化策略,在大规模分布式训练中提升智能体性能
计算机、数学或相关专业在读研究生及以上
算法研发与迭代:负责强化学习算法(包括但不限于 PPO, SAC, TD3, Offline RL 等)的研究、实现与调优,推动技术在实际场景中的应用 - 奖励模型设计:基于业务需求,设计合理的 Reward Function 和 Observation 空间等 - 策略优化与评测:针对复杂决策问题进行策略建模,通过大规模并行训练提升智能体性能,并建立完善的算法评估体系 - 前沿技术追踪:跟踪 RL 领域的最新研究动向(如 NeurIPS, ICML, ICLR 论文),验证并复现前沿算法,保持团队技术的领先性 - 数据分析与挖掘:分析训练过程中的数据分布与瓶颈,解决探索(Exploration)与利用(Exploitation)的平衡问题
在顶会(NeurIPS, ICML, ICLR 等)发表过论文
大厂RL实习,前沿技术栈,高压高成长,WLB一般
实习薪资在行业中上水平,但作为实习生,福利保障有限,稳定性一般,补偿性动机满足程度中等。
职位涉及前沿RL算法和大规模分布式训练,有导师指导,能接触顶会论文,发展性动机获得极大满足。
仅现场办公,未提及弹性工作,互联网大厂加班普遍,生活化动机满足程度较低。
百度在AI领域有影响力,强化学习应用于自动驾驶等有社会价值的方向,但直接使命信号不明显。