Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/百度/大模型评估策略PM实习生(J93269)
Baidu logo
B
百度 (Baidu)

职位信息

北京市
初级经验
实习生
仅现场办公
硕士
实习/见习

标签

机器学习NLP多模态自动化评估大语言模型 (Llm)评估策略
💡

核心评价

顶尖AI公司前沿技术实习,技能成长与行业视野拓展的绝佳机会,WLB预期需保守。

大模型评估策略PM实习生(J93269)

🤖 AI 估测:¥6K-12K

发布时间:22 天前

立即应聘

ℹ️关于这个职位

这是一个专注于大语言模型(LLM/VLM)评估策略的实习岗位
你将负责研究和设计评估方法,构建和优化评测基准(benchmark),并探索评估自动化的前沿技术
需要与模型训练、产品、算法等多个团队协作,推动评估体系与模型迭代的紧密结合

✓工作职责

研究与设计大语言模型的评估方法与策略,跟踪业界最新研究进展,探索更高效、精准的评估体系
对开源benchmark有一定了解,能够独立完成benchmark适配到评估结果分析全流程工作
参与自有benchmark的构建、优化评估方法的区分度、稳定性与公允性,涵盖通用能力、垂直领域和多模态等维度
研究评估自动化前沿方法,参与流程设计与开发
与模型训练、产品、算法等多团队密切协作,推动评估体系与模型迭代紧密联动

⭐最低要求

具备计算机/机器学习/NLP/人工智能相关领域硕士及以上学历,或同等的科研/工程经验
对大模型(LLM/VLM等)的评估方法有深入理解
熟悉主流评估方法(如人类偏好评估、自动化指标、Elo/pointwise等),对评估可靠性与公正性有系统认知
具备一定开发能力(如评估脚本、自动化流程搭建),具备一定独立研究能力,能将策略方法落地到工程实践
良好的跨部门沟通与协作能力,具备自我驱动意识

👍优先资格

有benchmark构建或评测研究经验优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • Agent产品经理(J99599)

    百度

    北京市 · 仅现场办公

  • 开发测试工程师(实习生)(J99576)

    百度

    北京市 · 仅现场办公

  • Agent产品经理(J99563)

    百度

    北京市 · 仅现场办公

  • 平台产品经理(J99562)

    百度

    北京市 · 仅现场办公

  • Agent工程架构师(J99561)

    百度

    北京市 · 仅现场办公

相似职位推荐

  • 多模态实习生

    叠纸游戏

    上海市 · 仅现场办公

  • 大模型算法工程师

    中国平安

    深圳市 · 仅现场办公

  • 图形图像算法实习生

    叠纸游戏

    图形图像算法实习生 · 仅现场办公

  • 算法工程师(武汉)

    多点数智

    武汉市 · 仅现场办公

  • 算法工程师(北京)

    多点数智

    北京市 · 仅现场办公