1)熟悉强化学习领域常用算法及理论基础(如 DQN、Policy Gradient、PPO、GRPO 等
2)熟练掌握至少一门编程语言(如 Python、Java),熟悉 Linux 环境
3)具备深度学习框架(如 PyTorch、TensorFlow)实际项目经验
了解大模型或分布式训练框架(Megatron、DeepSpeed 等)者优先
4)对大模型在 Agent 规划、推理中的作用有浓厚兴趣,对 LLM + RL 的前沿研究有基本认识
5)具备良好的问题分析和解决能力,对新技术保持学习和探索的热情