Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/百度/大模型评估策略PM(J98762)
Baidu logo
B
百度 (Baidu)

职位信息

北京市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

数据管理LLM多模态自动化评测大模型评估评测Pipeline
💡

核心评价

百度大厂、前沿大模型技术岗,成长性极佳,薪资竞争力预期高,但WLB信息不明。

大模型评估策略PM(J98762)

🤖 AI 估测:¥35K-60K

发布时间:22 天前

立即应聘

ℹ️关于这个职位

该职位是百度的大模型评估策略产品经理,主要负责为大语言模型、视觉语言模型及智能体等多种AI模型,设计并构建一套完整的评估体系与自动化评测流程
你需要深入理解模型能力,设计可落地的评估指标,并开发工具来管理评测数据、执行自动化评测、分析结果,最终帮助研发和业务团队准确理解模型性能

✓工作职责

负责大模型评估体系与评估 Pipeline 的设计、开发与持续演进,覆盖 LLM / VLM / Agent 等多种模型形态
深入理解模型能力结构(指令遵循、推理、代码、Agentic、多模态等),设计高区分度、可落地的评估指标与评测方法
构建并维护 模型评估全流程能力,包括但不限于:
评测样本与数据集管理(版本化、标签体系、覆盖度)
自动化评测执行(批量推理、并发、失败重试、成本控制)
评估打分与聚合逻辑(规则 / LLM-judge / 多裁判)
结果可视化、模型横向对比、趋势分析与回归分析
与模型研发、产品、业务团队协作,帮助各方更准确、可解释地理解模型评估结果

⭐最低要求

本科及以上学历,计算机 / AI / NLP / 数据相关背景优先
对大模型体系有系统认知,理解不同模型能力与评估边界
具备较强的工程能力,能独立或主导:
评估 Pipeline 搭建(Python / 数据处理 / 推理调用 / 评测调度)
评估逻辑与工具开发(脚本化、服务化均可)
学习能力强,持续关注并吸收新模型、新范式、新评测方向
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • Agent产品经理(J99599)

    百度

    北京市 · 仅现场办公

  • 开发测试工程师(实习生)(J99576)

    百度

    北京市 · 仅现场办公

  • Agent产品经理(J99563)

    百度

    北京市 · 仅现场办公

  • 平台产品经理(J99562)

    百度

    北京市 · 仅现场办公

  • Agent工程架构师(J99561)

    百度

    北京市 · 仅现场办公

相似职位推荐

  • 支付产品经理

    中国平安

    上海市 · 仅现场办公

  • 营销活动经理

    中国平安

    深圳市 · 仅现场办公

  • 产品经理

    中国平安

    青岛市 · 仅现场办公

  • 票据产品岗

    中国平安

    上海市 · 仅现场办公

  • 产品经理

    中国平安

    深圳市 · 仅现场办公