Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/【dots】通用基模posttrain算法工程师
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市 / 浙江省-杭州市
高级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

强化学习多模态学习大模型系统思维Agent系统Post-TrainingRlaifRl Scaling
💡

核心评价

顶尖大厂AI前沿岗,技术成长性极佳,薪资竞争力强,但工作地点固定且可能伴随高强度。

【dots】通用基模posttrain算法工程师

🤖 AI 估测:¥45K-80K

发布时间:4 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大模型后训练(Post-Training)前沿研究的算法工程师岗位
你将深度参与强化学习、多模态、自进化Agent系统等方向,探索超越纯预训练范式的新能力边界,目标是构建可持续学习、可记忆、可进化的智能系统
工作核心是设计并实现能提升模型推理、策略优化和长期表现的后训练方法与系统

✓工作职责

Post-Training 核心研究与系统构建:设计并实现面向 推理能力、策略优化和长期表现 的后训练方法
探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法
将 Post-Training 视为 系统级优化问题,而非单次调参或 reward hacking
强化学习与持续进化机制:设计基于试错和反馈的训练闭环(例如,Natural Language FeedBack),使模型具备自我修正和能力生长
探索 RL 在 边缘能力、长尾任务、工具使用和复杂决策 中的作用
研究长期学习(Lifelong Learning)、稳定性、遗忘控制等关键问题
多模态与“世界建模”:参与多模态模型(尤其是视频、时序感知)的 Post-Training 研究
探索从“语言建模”走向“世界建模”的训练目标与评估方式
研究感知、行动与决策的联合优化,而非简单模态拼接
Agent 与自进化系统:构建“可训练的 Agent 系统”,而不仅是工具调用的外壳
设计 Agent 的记忆、学习、反思与策略更新机制
将 Agent 视为一个 持续演化的产品级智能体
新范式与新架构探索:对现有 Attention、NTP 等范式保持批判性思考,例如探索全新的 探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性
参与从模型 → 推理过程 → 自学习环境(System-level Scaling)的演进

⭐最低要求

扎实的机器学习 / 深度学习基础,对模型训练全流程有深入理解
熟悉至少一个方向:强化学习(RL Scaling / RLAIF / Online RL 等)、多模态学习(尤其是视频、时序、感知建模)、Agent / 多智能体系统
良好的工程能力,能将研究想法落地为稳定系统

👍优先资格

有大模型 Post-Training 或 MOE RL Scaling 实战经验
RL Algo & Infra co-design
对 Token 效率、推理效率、多尺度学习 等问题有深入思考
参与过 Agent 系统或复杂训练闭环的设计
有“系统思维”,不满足于单点指标提升
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公