Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Baidu logo
百度
Agent评估工程师实习生(J101070)
立即应聘

Agent评估工程师实习生(J101070)

发布于 1 天前

实习/见习

北京市
无经验要求
实习生
仅现场办公
本科
研究与开发 (研发)
数据分析
可视化
统计学
自动化脚本
大模型评估
Llm-As-A-Judge
消融实验

AI 估算 · 3k–6k

实习薪资,百度基本水平,本科生约3000-5000,硕士5000-6000,取中位数

职位详情

关于这个职位

该职位是百度Agent评估工程师实习生,主要参与策略验证与评测自动化、深度数据分析、评测方法论创新和基准建设等工作

你将接触到前沿的大模型和智能体评估技术,通过编写自动化脚本、分析海量行为数据,推动技术闭环
适合对AI评估、大模型技术有热情的同学,能够在顶级技术团队中积累实战经验

最低要求

学历背景:计算机科学、软件工程、人工智能或相关专业的在校本科生或研究生

技术能力:具备扎实的编程能力,熟练掌握 Python 语言
对大模型能力评估有基本认知
个人特质:对创新事务有足够的热情,学习能力强,主动性强,具备严谨的逻辑思维和数据分析能力

工作职责

策略验证与评测自动化:负责框架的策略或模型能力评测

通过编写自动化脚本与框架,高效执行消融实验,定量评估记忆、规划、工具调用(Tool-use)及反思等核心能力的迭代效果
深度数据分析与行为洞察:管理并分析评测产生的海量行为数据,运用统计学或可视化手段深度解析演化日志,建立健全的负样本归因机制,深入剖析系统瓶颈
评测方法论创新与报告复盘:跟踪国内外前沿评测方法(如基于大模型的自动评估 LLM-as-a-judge、基于环境反馈的评估等),撰写严谨、具备可执行性的评测技术报告,定期与算法团队复盘,驱动技术闭环
基准建设与开源影响力:紧跟业界前沿,参与设计并落地高难度的 Agent 核心 Benchmark
积极参与顶会论文的研究与撰写,通过开源项目、学术发表等方式拓展团队的行业技术影响力

AI 洞察

优缺点分析

优点

  • 身处百度顶级技术团队,接触最前沿的大模型和Agent技术,学习资源丰富
  • 工作涉及从评测到算法复盘的完整闭环,能锻炼系统思考和技术落地能力
  • 有机会发表顶会论文或参与开源项目,增加学术与行业影响力
  • 公司品牌认可度高,对后续求职或深造有显著加分
  • 实习期间需要快速上手复杂的大模型评测流程,学习曲线较陡
  • 工作涉及大量数据分析和报告撰写,对逻辑和沟通能力要求高
  • 适合对AI Agent和大模型评估有浓厚兴趣,具备较强编程和数据分析能力的在校生,尤其是有志于成为AI算法研究员或评测专家的同学

缺点 / 挑战

  • 需要主动跟踪前沿研究,保持技术敏感度,压力较大

角色解读

  • 从评测实习生逐步成长为AI评测专家,深入掌握大模型与智能体评估方法论
  • 可转向算法研究岗位,参与前沿Agent技术研发和Benchmark设计
  • 在百度积累的技术和项目经验可为进入AI大厂或攻读更高学位打基础
  • 编写自动化脚本和框架,对智能体(Agent)的策略或模型进行评测,执行消融实验以量化记忆、规划、工具调用等能力
  • 管理并分析评测产生的大量行为数据,利用统计学或可视化手段深入分析系统瓶颈,建立负样本归因机制
  • 跟踪前沿评测方法(如LLM-as-a-judge),撰写评测技术报告,与算法团队定期复盘,驱动技术闭环
  • 参与设计高难度的Agent Benchmark,并撰写顶会论文或开源项目,提升团队技术影响力
  • 扎实的编程能力,熟练使用Python进行脚本编写和自动化
  • 对大规模语言模型(LLM)及其能力评估有基本认知,了解消融实验和评测设计
  • 具备数据分析能力,能运用统计学或可视化工具处理海量行为数据
  • 逻辑思维严谨,主动性强,对创新有热情,善于通过实验驱动技术改进

申请策略

  • 在简历或面试中表达对Agent评测方法的兴趣,可以提及自己调研过的论文或想法
  • 了解百度在LLM和Agent方向的布局(如文心一言、Agent框架),展示文化契合度
  • 突出Python编程能力,特别是自动化脚本、数据处理相关项目经验
  • 展示对LLM或智能体的理解,例如课程项目、竞赛或开源贡献
  • 强调数据分析经验,如使用pandas、matplotlib等工具进行数据清洗和可视化
  • 如有评测相关经验(如模型评估、消融实验)务必重点描述
  • 提前学习LLM基础知识,理解常见评测benchmark(如MMLU、GSM8K、AgentBench等)
  • 加强Python自动化脚本能力,熟悉如unittest、pytest等测试框架

面试指南

  • 对于设计类问题(如消融实验),可采用“明确目标-分解变量-控制变量-设计指标-迭代”的框架
  • 对于实现类问题(如写脚本),先说明思路,再逐步实现,注意异常处理和可扩展性
  • 对于评测方法问题,可分类讨论(如自动评估、人工评估、环境反馈评估),并比较优劣
  • 请解释什么是消融实验?如何设计一个Agent记忆能力的消融实验?
  • 你如何评估一个大模型在工具调用(Tool-use)方面的能力?有没有具体的指标或方法?
  • 用Python实现一个简单的自动化评测脚本,对给定数据集进行模型输出对比
  • 你了解哪些LLM评测基准?它们各自的优缺点是什么?
  • 当你分析大量行为数据时,如何发现系统瓶颈?请举例说明

职位点评

66
综合评分

百度Agent评测实习,前沿技术栈,成长性极强,但薪资较低且需一线城市现场办公。

更适合这类人
最适合追求技术成长和前沿经验的求职者,对薪资敏感度不高,愿意为长期发展投入时间。
表现最好
成长发展
相对薄弱
薪资福利
薪资福利40
成长发展95
工作生活60
使命价值70

薪资福利

40较低

作为实习生,薪资待遇相对市场水平偏低,但百度提供基本的实习补贴和福利。整体补偿性动机满足有限。

薪资信号未披露(AI估算:3K-6K/月)

成长发展

95较高

该职位处于AI前沿领域,涉及大模型评估、自动化、数据分析等核心技能,成长空间巨大。有参与顶会论文和开源项目的机会,发展性动机高度满足。

技术前沿前沿/新兴技术
技术栈LLM、Agent、Python、自动化、数据分析、LLM-as-a-judge、Benchmark
成长机会评测方法论创新、学术发表、开源项目、驱动技术闭环
业务类型profit_center

工作生活

60中等

北京现场办公,实习通常要求全职,但互联网大厂有弹性工作制,WLB一般。未提及加班信号,暂视为中等。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值

70中等

AI Agent是高速增长赛道,工作直接推动技术发展,但作为实测评测岗社会影响力间接。有一定的使命感和创新感。

行业发展高速增长赛道
社会影响中性/一般
使命信号拓展团队的行业技术影响力
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

百度 的其他在招职位

  • AI解决方案实习生(汽车行业)(J101071)

    百度 · 北京市
    AI 估算 · 3k-5k
  • 测试开发工程师(实习生)(J100989)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 内容策略产品(J101044)

    百度 · 北京市
    AI 估算 · 20k-40k
  • 海外广告运营实习生(J101128)

    百度 · 深圳市
    AI 估算 · 4k-6k
  • 商业分析师(J101101)

    百度 · 北京市
    AI 估算 · 15k-25k

相似职位推荐

  • Scientist, AI & Analytics (RDSS)

    康宁 · Hsinshu, TW, 310
    AI 估算 · 25k-40k
  • Manager I (R&D)

    康宁 · Taichung, TW, 407
    AI 估算 · 25k-45k
  • Control Systems Engineer (RDSS)

    康宁 · Taichung, TW, 407
    AI 估算 · 14k-28k
  • Chemical Process Engineer

    康宁 · Taichung, TW, 407
    AI 估算 · 9k-13k
  • Laboratory Technician

    康宁 · Taipei, TW, 114
    AI 估算 · 8k-12k

百度 的其他在招职位

  • AI解决方案实习生(汽车行业)(J101071)

    百度 · 北京市
    AI 估算 · 3k-5k
  • 测试开发工程师(实习生)(J100989)

    百度 · 北京市
    AI 估算 · 4k-7k
  • 内容策略产品(J101044)

    百度 · 北京市
    AI 估算 · 20k-40k
  • 海外广告运营实习生(J101128)

    百度 · 深圳市
    AI 估算 · 4k-6k
  • 商业分析师(J101101)

    百度 · 北京市
    AI 估算 · 15k-25k

相似职位推荐

  • Scientist, AI & Analytics (RDSS)

    康宁 · Hsinshu, TW, 310
    AI 估算 · 25k-40k
  • Manager I (R&D)

    康宁 · Taichung, TW, 407
    AI 估算 · 25k-45k
  • Control Systems Engineer (RDSS)

    康宁 · Taichung, TW, 407
    AI 估算 · 14k-28k
  • Chemical Process Engineer

    康宁 · Taichung, TW, 407
    AI 估算 · 9k-13k
  • Laboratory Technician

    康宁 · Taipei, TW, 114
    AI 估算 · 8k-12k