Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/基础模型算法实习生 - LLM Post-training
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市
初级经验
实习生
仅现场办公
硕士
实习/见习

标签

PyTorch强化学习LLMSFTMegatron-LMDeepSpeedPost-TrainingReward Model
💡

核心评价

顶尖互联网公司核心算法实习,前沿LLM技术栈,高成长潜力,WLB信息不明。

基础模型算法实习生 - LLM Post-training

🤖 AI 估测:¥8K-15K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大语言模型(LLM)后训练(Post-training)的算法实习岗位
你将通过研发对齐、强化学习、推理优化等技术,提升模型在复杂指令下的理解、推理和任务执行能力,以支撑小红书搜索、推荐、电商等核心业务场景

✓工作职责

大规模对齐与强化学习:研发并优化 SFT、RL(如GRPO 等)算法,构建高精度的 Reward Model,解决模型在复杂指令下的对齐问题
推理模型(Reasoning)优化:探索长链推理(CoT)、强化学习驱动的自反思与自进化机制,提升模型在的 System 2 思维能力
Agentic RL 与Agency:研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案,提升模型在开放环境中的任务拆解、工具调用及闭环执行能力
合成数据与模型进化:探索高质量合成数据的生成与过滤技术,实现模型能力的自我循环与持续进化

⭐最低要求

背景:计算机、数学等相关专业硕士/博士在读
深入理解 Transformer 架构及大模型训练全流程
专业深耕:在 Search(搜索)、Code(代码生成/工程)、tool-use、alignment 或 RL(强化学习)领域有深厚积累
工程能力:熟练使用 PyTorch,有 DeepSpeed、Megatron-LM 或 Ray 等大规模分布式训练实战经验

👍优先资格

加分项:在 NeurIPS, ICML, ICLR, ACL 等顶会发表过高质量论文
在 LLM 大家关注的 Benchmark 榜单有深入研究或优异表现
有大规模集群调优经验或知名开源 LLM 项目核心贡献者
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 算法资深工程师(AI安全算法)

    中国平安

    深圳市 · 仅现场办公

  • CA-高级Java开发工程师

    中国平安

    深圳市 · 仅现场办公

  • 测试开发

    叠纸游戏

    上海市 · 仅现场办公