小红书的【Ace顶尖实习生】全模态Agent长程任务RL算法+工程Co-Design研究薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【Ace顶尖实习生】全模态Agent长程任务RL算法+工程Co-Design研究的工作地点在哪里？

该职位工作地点位于北京市、上海市、杭州市、深圳市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥8K-15K

发布时间：29 天前

这是一个专注于前沿人工智能算法研究的实习岗位

你将参与全模态智能体（Agent）在长程复杂任务中的强化学习算法与工程协同设计研究，旨在解决传统方法在数百至数千步任务中面临的信用分配和收敛难题

研究成果将应用于小红书的核心业务场景，并有机会集成至开源强化学习引擎Relax，对业界产生影响

本课题聚焦全模态Agent（GUI操作、代码生成、网页导航）在长程交互任务领域的算法研究

旨在解决Agent执行跨越数百至数千步的复杂任务时，传统强化学习仅依赖终态奖励信号，导致信用分配路径过长、梯度信号衰减，策略优化难以收敛的问题

研究方向包括：设计层次化时间抽象信用分配机制，缓解长程任务中flat policy的优化不稳定问题

设计验证跨模态可验证奖励机制，抑制Reward hacking对训练过程的干扰，实现全模态长程Agentic RL 稳定收敛

该研究成果将在WebArena、SWE-bench等主流评测基准上验证方法的有效性，应用于公司内社区生态Agent基座、AI跨模态深度搜索等业务场景，并集成至自研开源的强化学习引擎Relax，增强业界影响力

不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先

熟悉Linux/Unix平台上的C++编程，熟悉网络编程-多线程编程，有良好的编程习惯

有扎实的专业基础知识，熟悉常用的数据结构和算法，对计算机系统结构-网络-操作系统等专业知识有深刻认知

良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步

熟悉其中一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现者优先

【Ace顶尖实习生】全模态Agent长程任务RL算法+工程Co-Design研究

🤖 AI 估测：¥8K-15K

发布时间：29 天前