小红书的【Ace顶尖实习生】Large Scale Agentic RL Training薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

【Ace顶尖实习生】Large Scale Agentic RL Training的工作地点在哪里？

该职位工作地点位于北京市、上海市、杭州市。工作形式为仅现场办公。

该职位要求本科学历及无经验要求工作经验。

🤖 AI 估测：¥8K-15K

发布时间：23 天前

这是一个专注于大规模强化学习（RL）训练框架研发的实习岗位

你将参与构建高扩展、低延迟的分布式训练系统，解决海量数据处理、异构算力调度和通信瓶颈等技术挑战

该职位旨在为大型语言模型对齐和多智能体协作提供底层算力支持，是进入AI系统与算法前沿领域的绝佳机会

工作职责大语言模型的对齐需求及复杂环境下的多智能体协作，要求训练系统具备处理海量采样数据与高频梯度更新的能力，传统的单机或小规模集群已难以满足算力与吞吐的指数级增长

本课题旨在研究并构建一套高扩展、低延迟的大规模RL训练框架，核心内容涵盖分布式采样引擎的优化、异构算力资源的高效调度、以及计算与通信的深度并行化策略

然而，该领域面临着严峻的技术挑战：一是如何在保持高吞吐采样（High Throughput）的同时，解决分布式环境下数据回传的通信瓶颈（Communication Bottleneck）

二是针对RL特有的数据非平稳性，如何保障在大规模异步训练下的算法收敛稳定性与超参数鲁棒性

三是涉及CPU仿真环境与GPU神经网络训练之间的精细负载均衡，以最大化集群利用率并降低昂贵的训练成本

不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先

熟悉Linux/Unix平台上的C++编程，熟悉网络编程-多线程编程，有良好的编程习惯

熟悉其中一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现者优先

有扎实的专业基础知识，熟悉常用的数据结构和算法，对计算机系统结构-网络-操作系统等专业知识有深刻认知

良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步

计算机/人工智能/软件工程等相关专业优先

熟悉其中一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现者优先

【Ace顶尖实习生】Large Scale Agentic RL Training

🤖 AI 估测：¥8K-15K

发布时间：23 天前