小红书的【Ace顶尖实习生】Agentic RL技术研究薪资是多少？

该职位薪资范围为 6k–12k（人民币/月）。

【Ace顶尖实习生】Agentic RL技术研究的工作地点在哪里？

该职位工作地点位于北京市、上海市、杭州市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥6K-12K

发布时间：29 天前

这是一个专注于Agentic强化学习（RL）技术研究的实习岗位

你将参与将RL技术引入工业级Agent平台系统，直接对‘规划—执行—反馈’的完整轨迹进行优化

工作内容包括研究轨迹级奖励构建、工具调用与多步推理中的信用分配，以及在高成本环境下的高效离线/在线混合训练

关注如何将RL引入工业级Agent平台系统，直接对“规划—执行—反馈”的完整轨迹进行优化

研究重点包括：如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment，以及如何在高成本环境下进行高效的offline/online混合训练

不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先

扎实的编程能力和算法功底，熟练掌握Python/C++/Java等至少一种编程语言

扎实的机器学习/深度学习理论基础，有大规模推荐系统、计算广告、搜索引擎等核心算法项目经验

良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步

有LLM/MLLM等多模态理解技术背景，或大规模模型训练实际项目经验者优先

在TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR等顶级期刊会议上发表相关论文者优先

在顶级学术会议或期刊发表论文，或ACM编程竞赛/机器学习等竞赛获奖

【Ace顶尖实习生】Agentic RL技术研究

🤖 AI 估测：¥6K-12K

发布时间：29 天前