网易的Agent 算法研发工程师薪资是多少？

该职位薪资范围为 20k–35k（人民币/月）。

Agent 算法研发工程师的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

网易的Agent 算法研发工程师有什么任职要求？

该职位要求硕士学历及初级经验工作经验。

网易

Agent 算法研发工程师

立即应聘

Agent 算法研发工程师

发布于大约 8 小时前

普通员工/个人贡献者

北京市

初级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

RAG

LLM

SFT

OCR

PPO

DPO

SLM

Grpo

AI 估算 · 20k–35k

AI算法岗位，硕士学历，北京大厂，技术栈前沿，薪资有竞争力。

职位详情

关于这个职位

该职位负责网易有道产品线（如词典、词典笔、学习规划）的 Agent 能力研发，涉及大模型微调（SFT/RL）、工具调用、RAG 链路及数据工程

你将参与从算法设计到工程落地的全流程，推动 AI 在教育场景的智能化体验

最低要求

硕士及以上学历，计算机、人工智能、机器学习等相关专业（优秀者可放宽至本科）

精通 Python，熟练使用 PyTorch 等深度学习框架，具备良好的代码风格与架构设计能力

具备 LLM/SLM 训练与微调经验，熟悉 SFT、对齐与强化学习相关方法（如 PPO/GRPO/DPO 等）的原理与实践

熟悉 Agent 体系与典型范式（Plan-Execute、ReAct、工具调用/函数调用、记忆与检索增强），能将算法设计与实际教育/学习场景有效结合

具备扎实的辅助模型（检索排序与多模态解析）实战经验：熟悉向量检索（BM25/Dense Retrieval）、重排（Cross-Encoder）及点击转化建模

熟悉 OCR 与版面分析（如 LayoutLM、Marker 等），能有效解决复杂长文本与多模态信息的提取难题

具备强大的数据处理与工程能力：精通大规模数据清洗与清洗规则编写，熟悉高质量数据合成方案，对数据质量敏感，能独立搭建数据飞轮与难例挖掘体系

具备良好的问题分解与实验设计能力，能在不完美数据与复杂约束下推进落地

主动负责，抗压能力强，善于沟通与协作

工作职责

面向有道词典、词典笔、学习规划等产品线，负责 Agent 能力的整体方案与核心算法研发，包括任务分解、计划-执行/反思循环（Plan-Execute / ReAct / Reflection）、长短期记忆与工具路由等

负责 SLM（Small Language Model）持续预训练与指令微调（SFT），构建高效压缩与蒸馏方案，面向端侧/低延迟场景优化推理效率

设计与实现工具调用（Function/Tool Calling）体系：工具编目与路由、参数填充、结果验证与回退、调用链追踪与可观测性，提升工具使用的成功率与收益

基于强化学习（PPO/GRPO/DPO 类方法等）与奖励建模，面向语义理解、工具使用成功率、内容生成质量等目标进行对齐与优化，支持离线/在线策略迭代

负责 RAG 链路中的辅助模型研发与优化：统筹文档解析与检索排序能力

针对复杂排版内容（如学术论文、教辅、试卷）进行版面分析、OCR、表格/公式识别的模型微调

同时负责语义检索（Embedding）、重排（Rerank）及学习排序（LTR）模型的迭代，为 Agent 提供高质量的结构化数据与精准的上下文

负责大模型全链路的数据工程与处理：主导高质量数据的合成（Synthetic Data）、清洗、去重与治理

构建并优化用于 SFT、对齐及评测的数据集（如工具调用轨迹、复杂推理过程数据等）

设计策略采样、难例挖掘与失败案例回放的反馈闭环

建立系统化评测体系：离线基准（理解/工具成功率/可用性）、端到端任务评测、A/B 实验与线上指标监控，推进效果持续迭代

推动工程化落地与跨团队协作：负责训练管线并行、推理服务化与端侧加速

与产品、工程团队紧密配合，推进算法落地，持续提升用户体验与业务指标

AI 洞察

优缺点分析

优点

技术栈前沿，涵盖 Agent、大模型、强化学习、RAG 等热门方向，技能积累价值高
网易有道平台成熟，产品线覆盖数亿用户，算法落地场景明确，成就感强
团队氛围技术导向，有机会参与从研究到上线的全流程，成长空间大
对数据工程要求极高，需要处理复杂、低质量的数据，可能比较繁琐
技术迭代快，需要持续学习最新论文与方法，保持竞争力
适合对 AI 前沿技术有强烈好奇心、喜欢从零到一构建系统、抗压能力强且乐于协作的算法工程师

缺点 / 挑战

工作强度较高，需要同时应对算法研究、工程实现与跨团队协作，压力较大

角色解读

从 Agent 算法工程师向资深算法专家发展，深入大模型与强化学习前沿领域
有机会转型为技术 leader，带领团队攻克教育场景的 AI 难题
积累丰富的工程化落地经验，未来可向 AI 架构师或产品技术总监方向成长
负责 Agent 算法的整体设计与实现，包括任务分解、计划执行循环、工具调用等核心模块
进行 SLM 的持续预训练与指令微调，优化端侧推理效率
设计工具调用体系，提升工具使用的成功率与可靠性
基于强化学习方法对模型进行对齐优化，并构建 RAG 链路中的检索与解析模型
扎实的深度学习基础，精通 Python 和 PyTorch，熟悉大模型训练与微调流程
熟悉 Agent 相关范式（ReAct、Plan-Execute 等）及工具调用、记忆增强等机制
具备检索排序（Embedding、Rerank）和多模态解析（OCR、版面分析）的实际经验
强大的数据工程能力，包括数据合成、清洗、难例挖掘与评测体系搭建

申请策略

深入了解网易有道教育产品的特点，在面试中结合具体场景（如学习规划、词典）阐述算法设计思路
关注公司招聘公众号或技术博客，了解团队技术方向，展示对业务的热情
突出大模型训练/微调项目经验，特别是 SFT 和强化学习（PPO/DPO）的实践
强调 Agent 或工具调用相关项目（如自行实现的 ReAct 流程、函数调用系统）
展示数据处理能力：数据清洗、合成、评测指标设计等具体案例
如有 Kaggle 或学术论文加分，尤其是 LLM 检索/OCR 方向的成果
系统学习 Agent 经典论文（ReAct、ToolLLM 等）并复现核心模块
熟悉至少一种强化学习框架（如 TRL、DeepSpeed Chat）并动手调参

面试指南

使用 STAR 原则：描述场景、任务、行动和结果，重点突出技术选型与效果
对于对比类问题，先说明各自原理，再结合实际业务约束（延迟、数据量）给出选择理由
对于问题排查，采用假设驱动：提出可能原因（数据泄露、分布差异），设计实验验证并迭代
请详细描述你设计的一个 Agent 系统，包括任务分解、工具调用、反思机制等
在微调大模型时，如何选择 SFT 数据？如何处理数据噪声和分布偏移？
对比 PPO 和 DPO 的优缺点，在实际项目中如何选择？
如何构建一个 RAG 系统的检索排序链路？如何评估检索质量？
当模型在线上表现不如离线评测时，你会如何定位和解决问题？

职位点评

综合评分

前沿 Agent+大模型技术栈，成长空间极大，但工作强度不确定性高，适合技术驱动型人才。

更适合这类人

最适合追求技术成长、愿意投入时间学习前沿 AI 技术、对薪资和稳定性有中等要求的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值60

薪资福利

75中等

薪资水平在北京大厂 AI 岗中具有竞争力，但未明确披露具体数字，福利待遇可能较好但未在 JD 中体现。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

该职位技术栈非常前沿（Agent、大模型、强化学习、RAG），成长机会极多，且 JD 中明确涉及数据工程、评测体系等能锻炼综合能力。

技术前沿前沿/新兴技术

技术栈LLM、SLM、SFT、PPO、GRPO、DPO、ReAct、RAG、Agent、Tool Calling、Embedding、Rerank

业务类型profit_center

工作生活

50较低

工作地点在北京，要求现场办公，未提及弹性工作或远程，且大厂 AI 岗位通常强度较高，生活平衡一般。

工作模式未明确

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

教育行业具有一定社会价值，帮助用户提升学习效率，但 JD 未强调使命感，更多是技术驱动。

行业发展稳定成熟行业

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

网易

Agent 算法研发工程师

立即应聘

Agent 算法研发工程师

发布于大约 8 小时前

普通员工/个人贡献者

北京市

初级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

RAG

LLM

SFT

OCR

PPO

DPO

SLM

Grpo

AI 估算 · 20k–35k

AI算法岗位，硕士学历，北京大厂，技术栈前沿，薪资有竞争力。

职位详情

关于这个职位

该职位负责网易有道产品线（如词典、词典笔、学习规划）的 Agent 能力研发，涉及大模型微调（SFT/RL）、工具调用、RAG 链路及数据工程

你将参与从算法设计到工程落地的全流程，推动 AI 在教育场景的智能化体验

最低要求

硕士及以上学历，计算机、人工智能、机器学习等相关专业（优秀者可放宽至本科）

精通 Python，熟练使用 PyTorch 等深度学习框架，具备良好的代码风格与架构设计能力

具备 LLM/SLM 训练与微调经验，熟悉 SFT、对齐与强化学习相关方法（如 PPO/GRPO/DPO 等）的原理与实践

熟悉 Agent 体系与典型范式（Plan-Execute、ReAct、工具调用/函数调用、记忆与检索增强），能将算法设计与实际教育/学习场景有效结合

具备扎实的辅助模型（检索排序与多模态解析）实战经验：熟悉向量检索（BM25/Dense Retrieval）、重排（Cross-Encoder）及点击转化建模

熟悉 OCR 与版面分析（如 LayoutLM、Marker 等），能有效解决复杂长文本与多模态信息的提取难题

具备良好的问题分解与实验设计能力，能在不完美数据与复杂约束下推进落地

主动负责，抗压能力强，善于沟通与协作

工作职责

负责 SLM（Small Language Model）持续预训练与指令微调（SFT），构建高效压缩与蒸馏方案，面向端侧/低延迟场景优化推理效率

设计与实现工具调用（Function/Tool Calling）体系：工具编目与路由、参数填充、结果验证与回退、调用链追踪与可观测性，提升工具使用的成功率与收益

基于强化学习（PPO/GRPO/DPO 类方法等）与奖励建模，面向语义理解、工具使用成功率、内容生成质量等目标进行对齐与优化，支持离线/在线策略迭代

负责 RAG 链路中的辅助模型研发与优化：统筹文档解析与检索排序能力

针对复杂排版内容（如学术论文、教辅、试卷）进行版面分析、OCR、表格/公式识别的模型微调

同时负责语义检索（Embedding）、重排（Rerank）及学习排序（LTR）模型的迭代，为 Agent 提供高质量的结构化数据与精准的上下文

负责大模型全链路的数据工程与处理：主导高质量数据的合成（Synthetic Data）、清洗、去重与治理

构建并优化用于 SFT、对齐及评测的数据集（如工具调用轨迹、复杂推理过程数据等）

设计策略采样、难例挖掘与失败案例回放的反馈闭环

建立系统化评测体系：离线基准（理解/工具成功率/可用性）、端到端任务评测、A/B 实验与线上指标监控，推进效果持续迭代

推动工程化落地与跨团队协作：负责训练管线并行、推理服务化与端侧加速

与产品、工程团队紧密配合，推进算法落地，持续提升用户体验与业务指标

AI 洞察

优缺点分析

优点

技术栈前沿，涵盖 Agent、大模型、强化学习、RAG 等热门方向，技能积累价值高
网易有道平台成熟，产品线覆盖数亿用户，算法落地场景明确，成就感强
团队氛围技术导向，有机会参与从研究到上线的全流程，成长空间大
对数据工程要求极高，需要处理复杂、低质量的数据，可能比较繁琐
技术迭代快，需要持续学习最新论文与方法，保持竞争力
适合对 AI 前沿技术有强烈好奇心、喜欢从零到一构建系统、抗压能力强且乐于协作的算法工程师

缺点 / 挑战

工作强度较高，需要同时应对算法研究、工程实现与跨团队协作，压力较大

角色解读

从 Agent 算法工程师向资深算法专家发展，深入大模型与强化学习前沿领域
有机会转型为技术 leader，带领团队攻克教育场景的 AI 难题
积累丰富的工程化落地经验，未来可向 AI 架构师或产品技术总监方向成长
负责 Agent 算法的整体设计与实现，包括任务分解、计划执行循环、工具调用等核心模块
进行 SLM 的持续预训练与指令微调，优化端侧推理效率
设计工具调用体系，提升工具使用的成功率与可靠性
基于强化学习方法对模型进行对齐优化，并构建 RAG 链路中的检索与解析模型
扎实的深度学习基础，精通 Python 和 PyTorch，熟悉大模型训练与微调流程
熟悉 Agent 相关范式（ReAct、Plan-Execute 等）及工具调用、记忆增强等机制
具备检索排序（Embedding、Rerank）和多模态解析（OCR、版面分析）的实际经验
强大的数据工程能力，包括数据合成、清洗、难例挖掘与评测体系搭建

申请策略

深入了解网易有道教育产品的特点，在面试中结合具体场景（如学习规划、词典）阐述算法设计思路
关注公司招聘公众号或技术博客，了解团队技术方向，展示对业务的热情
突出大模型训练/微调项目经验，特别是 SFT 和强化学习（PPO/DPO）的实践
强调 Agent 或工具调用相关项目（如自行实现的 ReAct 流程、函数调用系统）
展示数据处理能力：数据清洗、合成、评测指标设计等具体案例
如有 Kaggle 或学术论文加分，尤其是 LLM 检索/OCR 方向的成果
系统学习 Agent 经典论文（ReAct、ToolLLM 等）并复现核心模块
熟悉至少一种强化学习框架（如 TRL、DeepSpeed Chat）并动手调参

面试指南

使用 STAR 原则：描述场景、任务、行动和结果，重点突出技术选型与效果
对于对比类问题，先说明各自原理，再结合实际业务约束（延迟、数据量）给出选择理由
对于问题排查，采用假设驱动：提出可能原因（数据泄露、分布差异），设计实验验证并迭代
请详细描述你设计的一个 Agent 系统，包括任务分解、工具调用、反思机制等
在微调大模型时，如何选择 SFT 数据？如何处理数据噪声和分布偏移？
对比 PPO 和 DPO 的优缺点，在实际项目中如何选择？
如何构建一个 RAG 系统的检索排序链路？如何评估检索质量？
当模型在线上表现不如离线评测时，你会如何定位和解决问题？

职位点评

综合评分

前沿 Agent+大模型技术栈，成长空间极大，但工作强度不确定性高，适合技术驱动型人才。

更适合这类人

最适合追求技术成长、愿意投入时间学习前沿 AI 技术、对薪资和稳定性有中等要求的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值60

薪资福利

75中等

薪资水平在北京大厂 AI 岗中具有竞争力，但未明确披露具体数字，福利待遇可能较好但未在 JD 中体现。

薪资信号未披露（AI估算：20K-35K/月）

成长发展

90较高

该职位技术栈非常前沿（Agent、大模型、强化学习、RAG），成长机会极多，且 JD 中明确涉及数据工程、评测体系等能锻炼综合能力。

技术前沿前沿/新兴技术

技术栈LLM、SLM、SFT、PPO、GRPO、DPO、ReAct、RAG、Agent、Tool Calling、Embedding、Rerank

业务类型profit_center

工作生活

50较低

工作地点在北京，要求现场办公，未提及弹性工作或远程，且大厂 AI 岗位通常强度较高，生活平衡一般。

工作模式未明确

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

教育行业具有一定社会价值，帮助用户提升学习效率，但 JD 未强调使命感，更多是技术驱动。

行业发展稳定成熟行业

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent 算法研发工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

Agent 算法研发工程师

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

网易 的其他在招职位

游戏体验设计实习生（第五人格）

高级/资深平面设计师（无限大）

前端开发实习生

游戏KOL运营实习生

招聘实习生

相似职位推荐

战斗策划-3C/动作方向

大模型算法实习生

算法专家TL（海外广告）

大模型算法工程师

性能开发

网易 的其他在招职位

游戏体验设计实习生（第五人格）

高级/资深平面设计师（无限大）

前端开发实习生

游戏KOL运营实习生

招聘实习生

相似职位推荐

战斗策划-3C/动作方向

大模型算法实习生

算法专家TL（海外广告）

大模型算法工程师

性能开发

网易的其他在招职位

网易的其他在招职位