小红书的【hi lab】Posttrain算法工程师-RLHF薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

【hi lab】Posttrain算法工程师-RLHF的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

该职位要求学历未注明学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：29 天前

这是一个专注于利用强化学习（RLHF）技术优化多模态大模型的算法工程师岗位

你将负责解决模型对齐过程中的训练效果、稳定性等问题，并探索前沿的强化学习方法，以提升大模型在幻觉、推理、工具使用等场景下的应用价值

利用强化学习方法对多模态大模型进行对齐：

解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题

探索 RL 阶段 computaiton scaling 对模型能力提升的方法

研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法

基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值

具备扎实的机器学习基础，能熟练使用至少一种深度学习框架（e.g. PyTorch、Jax、TensorFlow、MindSpore、PaddlePaddle）

对监督学习、强化学习、表示学习等机器学习方法有深入理解并具备相关的实践经验

在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历，或通过机器学习算法解决过复杂业务场景问题

具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作

对大模型 RL 技术有极大热情

有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先

主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先

有 AI Alignment 相关研究或大模型应用项目经历的优先

【hi lab】Posttrain算法工程师-RLHF

🤖 AI 估测：¥35K-60K

发布时间：29 天前