Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/米哈游/LLM Evaluation算法研究员
miHoYo logo
m
米哈游 (miHoYo)

职位信息

上海市 / 北京市
中级经验
全职员工
仅现场办公
硕士
普通员工/个人贡献者

标签

机器学习算法研究RLHFReward ModelLlm EvaluationLlm-As-A-JudgeNeurips/Icml/Iclr/Acl
💡

核心评价

前沿大厂核心算法岗,技术成长性极佳,薪资竞争力强,WLB信息不明。

LLM Evaluation算法研究员

🤖 AI 估测:¥35K-60K

发布时间:14 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大语言模型(LLM)评估与对齐的算法研究岗位
你将负责设计并构建针对复杂能力(如逻辑推理、代码生成)的自动化评测体系,深入研究RLHF对齐算法中的偏好建模问题,并开发基于模型的自动评估技术
核心目标是建立数据驱动的模型迭代闭环,通过评测反馈指导模型训练与优化

✓工作职责

复杂能力评测: 针对逻辑推理、代码生成、长文本理解等高难度能力,设计并构建自动化评测集与评估管线
主观偏好建模: 深入研究 RLHF 中的 Reward Model 表现,分析 Reward Hacking 现象
建立细粒度的评估准则,提升模型在开放式生成任务中的对齐效果
Model-based Evaluation: 研发并优化 LLM-as-a-Judge 技术,通过训练专用的 Critic Model 来替代人工进行大规模、高一致性的自动评估
数据驱动迭代: 建立从评测结果到训练数据的反馈闭环,通过Bad Case分析指导 SFT 数据配比与 Post-training 策略调整

⭐最低要求

计算机、AI或相关领域硕士及以上学历,具备扎实的机器学习理论基础
熟悉主流 LLM 评测框架及其局限性,有构建私有评测集的经验
对 RLHF、DPO、PPO 等对齐算法有深入理解,熟悉 Reward Model 的训练与评估难点
具备极强的数据敏感度,能从统计数据中发现模型能力的微弱变化

👍优先资格

在 NeurIPS/ICML/ICLR/ACL 等顶级会议发表过关于 Evaluation、Safety、Alignment 方向的论文
有 Math/Code Reasoning 或 Agent 相关评测的实战经验
熟悉大模型训练全流程,能够独立完成从数据处理到模型微调的实验
在 ACM/ICPC, Kaggle 等算法竞赛中取得优异成绩
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

米哈游 的其他在招职位

  • 业务助理

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划(社交)-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 版本运营-星布谷地

    米哈游

    上海市 · 仅现场办公

  • 资深系统策划-生活MMO

    米哈游

    上海市 · 仅现场办公

  • 资深市场公关(媒体关系方向)-原神

    米哈游

    上海市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公