小红书的基础模型算法实习生 - LLM Post-training薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

基础模型算法实习生 - LLM Post-training的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

该职位要求硕士学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：29 天前

这是一个专注于大语言模型（LLM）后训练（Post-training）的算法实习岗位

你将通过研发对齐、强化学习、推理优化等技术，提升模型在复杂指令下的理解、推理和任务执行能力，以支撑小红书搜索、推荐、电商等核心业务场景

大规模对齐与强化学习：研发并优化 SFT、RL（如GRPO 等）算法，构建高精度的 Reward Model，解决模型在复杂指令下的对齐问题

推理模型（Reasoning）优化：探索长链推理（CoT）、强化学习驱动的自反思与自进化机制，提升模型在的 System 2 思维能力

Agentic RL 与Agency：研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案，提升模型在开放环境中的任务拆解、工具调用及闭环执行能力

合成数据与模型进化：探索高质量合成数据的生成与过滤技术，实现模型能力的自我循环与持续进化

背景：计算机、数学等相关专业硕士/博士在读

深入理解 Transformer 架构及大模型训练全流程

专业深耕：在 Search（搜索）、Code（代码生成/工程）、tool-use、alignment 或 RL（强化学习）领域有深厚积累

工程能力：熟练使用 PyTorch，有 DeepSpeed、Megatron-LM 或 Ray 等大规模分布式训练实战经验

加分项：在 NeurIPS, ICML, ICLR, ACL 等顶会发表过高质量论文

在 LLM 大家关注的 Benchmark 榜单有深入研究或优异表现

有大规模集群调优经验或知名开源 LLM 项目核心贡献者

基础模型算法实习生 - LLM Post-training

🤖 AI 估测：¥8K-15K

发布时间：29 天前