Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Netease logo
网易
AI应用工程师(评测方向)
立即应聘

AI应用工程师(评测方向)

发布于 3 天前

普通员工/个人贡献者

广州市
中级经验
全职员工
仅现场办公
本科
数据分析
自动化测试
LLM
评测
Coding

AI 估算 · 25k–45k

AI前沿技术岗,大厂中级职位,薪资有竞争力

职位详情

关于这个职位

这个职位负责构建AI Agent评测体系,专注于代码智能方向

你将参与评测基准设计、数据集构建、自动化平台开发,并跟踪业界主流Coding Agent产品,产出评测报告
适合对AI编程评测有浓厚兴趣、具备扎实工程能力的候选人

最低要求

本科及以上学历,计算机科学、软件工程、人工智能等相关专业

-5 年相关工作经验,有 Agent/LLM Benchmark 构建经验者优先
熟练掌握 Python 和 TypeScript,具备扎实的工程开发能力,能独立完成评测工具链的设计与开发
对 Coding Agent 的工作范式有深入理解(规划-执行-反思循环、工具调用机制、多步推理等),是 Claude Code/ Codex / Cursor / Copilot 等 AI 编程工具的重度用户
熟悉主流 Agent 评测框架或 Benchmark(SWE-Bench、HumanEval、Terminal-Bench、OctoCodingBench、WildClawBench、GAIA、WebArena、AgentBench、ToolBench 等)中的至少3种
具备较强的数据分析和结构化拆解能力,能从评测数据中提炼有效洞察
良好的文档撰写和跨团队协作能力,能清晰表达评测结论和改进方案

工作职责

Benchmark 体系设计与构建:针对 Coding Agent 场景(代码理解、代码生成、代码重构、Spec Coding、代码 Review、Bug 修复等),设计多维度、多粒度、支持多轮对话的评测基准,覆盖端到端任务完成度、代码质量、工具调用准确性、推理链路合理性等核心指标

评测数据集建设:构建并持续维护高质量评测数据集(Golden Dataset),设计覆盖不同语言、不同复杂度、不同工程场景的测试用例,确保数据集的区分度和代表性
自动化评测平台开发:搭建自动化评测 Pipeline,支持多模型/多 Agent 的批量评测、结果对比与回归检测,实现评测流程的标准化和可复现
竞品对标分析:跟踪业界主流 Coding Agent 产品(如 Claude Code、Codex、Cursor、Copilot等)以及 Benchmark(SWE-Bench、HumanEval、Terminal-Bench、OctoCodingBench、WildClawBench、GAIA、WebArena、AgentBench、ToolBench 等),完成专项对比评测并输出分析报告
评测方法论研究:探索 LLM-as-Judge、对抗性测试、人机混合评估等前沿评测方法,持续迭代评测体系的科学性和有效性
结果可视化与洞察输出:开发评测报告自动生成能力,提供可视化的评测看板,将评测结论转化为可落地的产品优化建议

优先资格

有评测数据标注流程与质量控制方法论经验

熟悉 LangSmith、LangFuse 等 LLM 可观测性工具,能追踪 Agent 全链路执行日志
有自动化测试框架开发经验,熟悉 CI/CD 流程集成
在相关领域有论文发表或开源项目贡献

AI 洞察

优缺点分析

优点

  • 深度参与AI前沿技术(LLM、Agent),技能积累快
  • 网易大厂平台,资源丰富,团队影响力大
  • 工作内容兼具工程和科研属性,有论文/开源机会
  • 评测体系构建涉及复杂技术栈,学习曲线陡峭
  • 适合对AI评测有热情、热爱技术深度、具备强自驱力的工程师

缺点 / 挑战

  • 需要持续跟踪快速演进的业界动态,知识更新压力大
  • 跨团队协作多,沟通成本较高

角色解读

  • 成长为AI评测领域的专家,主导公司级评测体系建设
  • 横向扩展至其他Agent方向(如多模态、对话系统),成为AI质量架构师
  • 向技术管理方向转型,带领评测团队
  • 设计并构建针对Coding Agent的多维度评测基准,涵盖代码生成、修复、Review等场景
  • 开发自动化评测Pipeline,支持批量模型评测、结果对比和回归检测
  • 跟踪业界主流Coding Agent产品及Benchmark,输出竞品分析报告
  • 探索LLM-as-Judge等前沿评测方法,持续优化评测体系
  • 精通Python和TypeScript,能独立开发评测工具链
  • 深入理解Coding Agent的工作范式(规划-执行-反思、工具调用等)
  • 熟悉至少3种主流Agent评测框架(如SWE-Bench、HumanEval等)
  • 具备数据分析和结构化拆解能力,能从评测数据提炼洞察

申请策略

  • 了解网易AI产品方向,在面试中展示对Coding Agent的深度思考
  • 准备一个你设计的评测方案或改进建议,体现创新性
  • 突出AI/LLM/Agent相关项目经验,尤其是评测或数据集构建
  • 强调工程能力,用具体项目展示Python/TypeScript技能和自动化框架开发
  • 列出熟悉的Benchmark及使用心得,体现专业性
  • 提前熟悉SWE-Bench、HumanEval等Benchmark的细节
  • 学习LangSmith/LangFuse等可观测性工具,加深对Agent链路理解

面试指南

  • STAR法则:情境、任务、行动、结果,突出你的贡献和量化成果
  • 横向对比:对比不同方案优劣,体现系统思维和行业认知
  • 请介绍你参与过的一个AI评测项目,你如何设计评测指标?
  • 如何评估一个Coding Agent的代码生成质量?
  • Coding Agent评测中常见的陷阱有哪些?如何避免?
  • 给你一个现有Benchmark,你会如何改进使其更具区分度?
  • 请解释LLM-as-Judge方法的优缺点
  • 复习主流Coding Agent产品(如Claude Code、Cursor)的工作原理

匹配度报告

70
综合匹配度

大厂AI前沿技术岗,发展性极强,但WLB一般

适合人群
适合追求技术成长、不介意固定办公地点、能承受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活50
使命价值60

薪资福利匹配

80较高

网易作为上市大厂,薪资福利有竞争力,但JD未明确披露具体待遇,稳定性较高。

薪资信号未披露(AI估算:25K-45K/月)

成长发展匹配

90较高

岗位聚焦AI前沿技术(LLM/Agent),技能成长空间大,可参与构建行业级评测体系。

技术前沿前沿/新兴技术
技术栈Python、TypeScript、LLM、Agent、Benchmark、SWE-Bench、HumanEval
业务类型ambiguous

工作生活匹配

50较低

仅现场办公,未提及弹性工作或远程选项,工作强度可能较高。

工作模式仅现场办公
办公地点科技园/产业园
加班情况未提及(无法判断)

使命价值匹配

60中等

岗位对AI编程能力提升有间接社会价值,但主要服务于内部产品改进,使命感一般。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

网易 的其他在招职位

  • 内容创意实习生(市场营销方向 - 暗黑破坏神:不朽)

    网易 · 上海市
    AI 估算 · 4k-8k
  • AIGC视觉设计师

    网易 · 杭州市
    AI 估算 · 20k-35k
  • SEO内容运营实习生

    网易 · 杭州市
    AI 估算 · 3k-4k
  • 内容运营实习生(AIGC方向)

    网易 · 杭州市
    AI 估算 · 3k-6k
  • 高级税务专员

    网易 · 杭州市
    AI 估算 · 15k-25k

相似职位推荐

  • 客户端开发实习生-【回森】

    快手 · 北京市
    AI 估算 · 5k-8k
  • 客户端实习生(快影)-【主站】

    快手 · 北京市
    AI 估算 · 6k-10k
  • 服务端开发实习生(影像)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Java开发实习生(回森方向)-【主站】

    快手 · 北京市
    AI 估算 · 4k-6k
  • Senior Software Engineer - Tech Foundations

    锐完游戏 · 上海市
    AI 估算 · 25k-45k

网易 的其他在招职位

  • 内容创意实习生(市场营销方向 - 暗黑破坏神:不朽)

    网易 · 上海市
    AI 估算 · 4k-8k
  • AIGC视觉设计师

    网易 · 杭州市
    AI 估算 · 20k-35k
  • SEO内容运营实习生

    网易 · 杭州市
    AI 估算 · 3k-4k
  • 内容运营实习生(AIGC方向)

    网易 · 杭州市
    AI 估算 · 3k-6k
  • 高级税务专员

    网易 · 杭州市
    AI 估算 · 15k-25k

相似职位推荐

  • 客户端开发实习生-【回森】

    快手 · 北京市
    AI 估算 · 5k-8k
  • 客户端实习生(快影)-【主站】

    快手 · 北京市
    AI 估算 · 6k-10k
  • 服务端开发实习生(影像)-【主站】

    快手 · 北京市
    AI 估算 · 4k-8k
  • Java开发实习生(回森方向)-【主站】

    快手 · 北京市
    AI 估算 · 4k-6k
  • Senior Software Engineer - Tech Foundations

    锐完游戏 · 上海市
    AI 估算 · 25k-45k