Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小红书/【hi lab】Posttrain算法工程师-RLHF
Xiaohongshu logo
X
小红书 (Xiaohongshu)

职位信息

北京市 / 上海市
中级经验
全职员工
仅现场办公
学历未注明
普通员工/个人贡献者

标签

机器学习NLPPyTorch强化学习CV多模态大模型RLHFAi Alignment
💡

核心评价

前沿AI大厂核心岗,技术成长性极佳,薪资竞争力强,但WLB可能面临挑战。

【hi lab】Posttrain算法工程师-RLHF

🤖 AI 估测:¥35K-60K

发布时间:29 天前

立即应聘

ℹ️关于这个职位

这是一个专注于利用强化学习(RLHF)技术优化多模态大模型的算法工程师岗位
你将负责解决模型对齐过程中的训练效果、稳定性等问题,并探索前沿的强化学习方法,以提升大模型在幻觉、推理、工具使用等场景下的应用价值

✓工作职责

利用强化学习方法对多模态大模型进行对齐:
解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题
探索 RL 阶段 computaiton scaling 对模型能力提升的方法
研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法
基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值

⭐最低要求

具备扎实的机器学习基础,能熟练使用至少一种深度学习框架(e.g. PyTorch、Jax、TensorFlow、MindSpore、PaddlePaddle)
对监督学习、强化学习、表示学习等机器学习方法有深入理解并具备相关的实践经验
在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历,或通过机器学习算法解决过复杂业务场景问题
具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作

👍优先资格

对大模型 RL 技术有极大热情
有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先
主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先
有 AI Alignment 相关研究或大模型应用项目经历的优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小红书 的其他在招职位

  • AI产品运营实习生

    小红书

    上海市 · 仅现场办公

  • 点点AI运营实习生 · AI图像创作

    小红书

    上海市 · 仅现场办公

  • AI Agent算法工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】OLAP研发工程师

    小红书

    北京市 · 仅现场办公

  • 【27届实习】Ray研发工程师

    小红书

    北京市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公