小红书的【hi lab】 post train算法研究员-RM薪资是多少？

该职位薪资范围为 35k–60k（人民币/月）。

【hi lab】 post train算法研究员-RM的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

该职位要求学历未注明学历及中级经验工作经验。

🤖 AI 估测：¥35K-60K

发布时间：29 天前

该职位是小红书hi lab的Post Train算法研究员，专注于Reward Model（奖励模型）的研发与优化

你将负责通过多种方法提升模型的性能、鲁棒性和不确定性校准，并探索前沿的对齐技术，如Self-Rewarding和Scalable Oversight，以推动大模型能力的提升

RM标注策略优化，包括但不限于迭代标注策略、AI标注策略等，探究数据和模型性能的关系

研发fine-grained reward modeling，对幻觉、推理、数学等场景进行针对性优化

探索 PMP、Reference、Tool-Augmented、RM+CoT等对现有方法的改进，探索language-based RM以提高可解释性及鲁棒性

研究Self-Rewarding、Self-Crituqing、Scalable Oversight等方向下的对齐技术，探索LLM booststrap的技术路径

具备扎实的机器学习基础，能熟练使用至少一种深度学习框架（e.g. PyTorch、Jax、TensorFlow、MindSpore、PaddlePaddle）

对监督学习、强化学习、表示学习等机器学习方法有深入理解并具备相关的实践经验

在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历，或通过机器学习算法解决过复杂业务场景问题

具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作

有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先

在 ACM/ICPC、NOI/IOI、Kaggle 等比赛获奖者优先

主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先

有 AI Alignment 相关研究或大模型应用项目经历的优先

【hi lab】 post train算法研究员-RM

🤖 AI 估测：¥35K-60K

发布时间：29 天前