Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

职位搜索/小米/Agent 评测工程师
Xiaomi logo
X
小米 (Xiaomi)

职位信息

北京市
中级经验
全职员工
仅现场办公
本科
普通员工/个人贡献者

标签

质量保证NLP自动化测试LLM竞品分析Agent评测DeepevalLangsmithRagas
💡

核心评价

小米前沿AI Agent质量岗,技术成长性极佳,薪资竞争力强,工作地点固定。

Agent 评测工程师

🤖 AI 估测:¥25K-45K

发布时间:24 天前

立即应聘

ℹ️关于这个职位

这是一个专注于AI Agent(智能体)质量评估的工程师岗位
你将负责搭建一套完整的评测体系,从单轮问答到多轮对话,再到工具调用和任务完成,全面评估Agent的性能
核心工作包括构建评测数据集、开发自动化测试流程、进行安全性和竞品分析,最终通过评测报告驱动产品优化

✓工作职责

搭建Agent端到端评测体系,覆盖单轮问答质量、多轮对话一致性、工具调用准确率、任务完成率等维度
构建和维护评测数据集(Golden Dataset),包括标准问答对、多步推理用例、边界Case、对抗样本等
开发自动化评测Pipeline,集成到CI/CD流程,实现Agent版本发布前的自动回归测试
设计Agent安全性评测方案,包括Prompt注入防御、信息泄露检测、权限越界测试
对标Manus、Genspark等产品的Agent能力,定期进行竞品Benchmark对比评测
输出评测报告,驱动算法和工程团队持续优化

⭐最低要求

本科及以上学历,2年以上AI/NLP评测或QA工程经验
熟悉Agent评测框架:RAGAS、DeepEval、TruLens、AgentBench、PromptFoo中至少两种
有评测数据集构建经验,熟悉数据标注流程与质量控制方法
熟悉LangSmith、LangFuse等LLM可观测性工具,能追踪Agent全链路执行日志
了解主流Agent Benchmark(SWE-Bench、WebArena、GAIA、ToolBench等)
精通Python,有自动化测试框架开发经验

👍优先资格

了解红队测试(Red Teaming)、对抗性评测方法者加分
有Manus、Genspark、Perplexity等AI Agent产品深度使用与评测经验者优先
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小米 的其他在招职位

  • 材料及轻量化实习生

    小米

    上海市 · 仅现场办公

  • 安全事务经理(网安)

    小米

    北京市 · 仅现场办公

  • 大模型技术专家(Agent方向)

    小米

    北京市 · 仅现场办公

  • 参控股公司管理实习生-2027届

    小米

    北京市 · 仅现场办公

  • 小米汽车-自动驾驶行车产品经理实习生

    小米

    北京市 · 仅现场办公

相似职位推荐

  • 游戏测试-UE在研

    叠纸游戏

    上海市 · 仅现场办公

  • 品质管理组长-IP开发

    叠纸游戏

    上海市 · 仅现场办公

  • 软件测试工程师

    小马智行

    广州市 · 仅现场办公

  • 高级测试工程师 - 北京亦庄

    小马智行

    北京市 · 仅现场办公

  • 运营质量专员

    小马智行

    广州市 · 仅现场办公