小红书的Hi Lab-【Ace顶尖实习生】探索面向复杂场景的可拓展大规模强化学习系统薪资是多少？

该职位薪资范围为 6k–12k（人民币/月）。

Hi Lab-【Ace顶尖实习生】探索面向复杂场景的可拓展大规模强化学习系统的工作地点在哪里？

该职位工作地点位于北京市、上海市、杭州市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥6K-12K

发布时间：29 天前

这是一个面向顶尖在校生的强化学习研究实习岗位

你将参与研发面向复杂场景的可拓展大规模强化学习系统，探索AI从被动工具转变为主动协作者的路径

工作内容包括构建大规模奖励系统、研究递归自我增强方法、探索人机合作博弈机制，并关注强化学习进程中的模型可解释性

本课题的研究目标是研发面向复杂场景的可拓展大规模强化学习系统

包括不限于：

超大规模Reward System构建

面向复杂场景构建“策略与反馈一体化”的递归自我增强方法，解决“AI超越人类”时的可拓展监督问题

面向长程任务探索人机合作博弈的强化学习机制，实现模型在超长程复杂任务上的需求明确、自我规划与执行校验能力

让AI从被动完成指令的工具转变为主动推动任务进展的的协作者，实现目标对齐

强化学习进程中的大模型可解释性、可理解性

不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先

优秀的代码能力、数据结构和基础算法功底，熟练掌握至少一门编程语言，包括但不限于Python等

良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步

有LLM/MLLM等多模态理解技术背景，或大规模模型训练实际项目经验者优先

在TPAMI/CVPR/NeurIPS/ICCV/ICML/ICLR等顶级期刊会议上发表相关论文者优先