多点数智的AI工程师-Agent模型优化与评估方向（北京）薪资是多少？

该职位薪资范围为 15k–25k（人民币/月）。

AI工程师-Agent模型优化与评估方向（北京）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

多点数智的AI工程师-Agent模型优化与评估方向（北京）有什么任职要求？

该职位要求本科学历及无经验要求工作经验。

多点数智

AI工程师-Agent模型优化与评估方向（北京）

立即应聘

AI工程师-Agent模型优化与评估方向（北京）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

无经验要求

全职员工

仅现场办公

本科

软件工程

PyTorch

LLM

SFT

DPO

LoRA

Ragas

AI 估算 · 15k–25k

AI Agent方向技术门槛高，市场需求大，应届生起薪较高，北京互联网行业薪资水平领先。

职位详情

关于这个职位

该职位专注于AI Agent模型的优化与评估，你将参与构建自动化评测基准、开发基于LLM的评估管线，并进行模型后训练与调优

适合对LLM、Agent框架和模型微调有浓厚兴趣的应届生，能够深入接触前沿技术并积累实战经验

最低要求

届本科及以上学历，计算机、数学、统计学等相关专业，熟悉 Python，熟练使用 Linux 开发环境

精通 PyTorch，熟练使用 Hugging Face 全家桶 (Transformers, Datasets, PEFT, TRL)

有过 LLM 微调经验 (SFT/LoRA)，了解 DeepSpeed/FSDP 等分布式训练基础者优先

了解或使用过 RAGAS, G-Eval, MT-Bench, 或者 LangChain 的评估模块

工作职责

Agent 评价体系构建 (Evaluation)：构建针对 Agent 业务场景的自动化评测基准 (Benchmark)

开发基于 LLM-as-a-Judge 的评估管线，量化 Agent 的指令遵循能力 (Instruction Following)、逻辑推理能力 (Reasoning) 和工具调用准确率 (Tool Use)

设计并维护“幻觉”检测机制，确保输出的安全性与真实性

模型后训练与调优 (Post-training)：负责基座模型（Base Model）在特定 Agent 场景下的 SFT (Supervised Fine-Tuning) 工作，规范模型的输出格式（如 JSON）和对话风格

探索 DPO (Direct Preference Optimization) 或 PPO 等对齐算法，优化模型的决策倾向，使其更符合人类或业务的偏好

负责 LoRA/QLoRA 等参数高效微调 (PEFT) 实验，在显存受限情况下优化模型性能

数据合成与清洗：利用 GPT-4 等强模型构造高质量的合成数据 (Synthetic Data) 用于蒸馏或微调

清洗和构建用于评测的 Golden Dataset (金标数据集)

优先资格

加分项：操作过Agent 框架 (AutoGPT, MetaGPT, LangGraph)，理解 Agent 的 ReAct/CoT 思考过程

有数据合成 (Data Synthesis) 经验，如使用 Self-Instruct 方式生成数据

熟悉 DSPy (自动 Prompt 优化) 框架

AI 洞察

优缺点分析

优点

深度参与AI Agent前沿技术，积累LLM微调、评估、数据合成等稀缺技能，职业竞争力强
公司为零售数字化领域头部企业，业务场景丰富，技术落地机会多
团队技术氛围浓厚，可接触GPT-4等顶级模型和分布式训练资源
Agent评估和幻觉检测难度高，需要较强的逻辑分析和问题定位能力
作为应届生岗位，可能缺乏资深导师指导，需具备较强的独立探索能力

缺点 / 挑战

技术栈更新快，需要持续学习最新论文和框架，学习压力较大
适合对LLM和Agent技术有强烈兴趣、具备扎实编程和深度学习基础、喜欢挑战前沿难题的应届生

角色解读

从Agent评估与微调工程师起步，逐步成长为AI模型优化专家，主导核心模型迭代
向AI Agent架构师方向发展，负责复杂多Agent系统的设计与落地
横向拓展至自然语言处理、计算机视觉等其他AI领域，或转向AI产品经理等复合角色
构建Agent自动化评测基准，开发基于LLM的评估管线，量化模型在指令遵循、推理和工具调用上的表现
负责基座模型在Agent场景下的监督微调（SFT），规范输出格式和对话风格
探索DPO/PPO等对齐算法优化模型决策倾向，并利用LoRA等技术进行参数高效微调
利用GPT-4等强模型构造合成数据，清洗并构建金标评测数据集
精通Python和PyTorch，熟练使用Hugging Face全家桶（Transformers、Datasets、PEFT、TRL）
具备LLM微调经验（SFT/LoRA），了解分布式训练基础（DeepSpeed/FSDP）
熟悉Agent框架（如AutoGPT、LangGraph）和评估工具（RAGAS、G-Eval等）
了解数据合成方法（如Self-Instruct）和自动Prompt优化框架（DSPy）

申请策略

关注多点数智的零售业务场景，思考AI Agent如何赋能零售（如智能客服、库存管理），在面试中展现业务理解
准备一个完整的Agent微调或评估项目案例，从问题定义、方案设计到结果分析，体现系统性思维
突出LLM微调项目经验，包括SFT/LoRA的具体实验细节和效果提升
展示使用Hugging Face、PyTorch等工具的实际项目，强调分布式训练经验
如有Agent框架（AutoGPT等）或评估工具（RAGAS）的使用经历，务必详细描述
强调数据合成或清洗经验，尤其是利用GPT-4等模型生成高质量数据的案例
提前学习DPO/PPO等对齐算法原理，并尝试在小型模型上复现
熟悉LangChain和LangGraph框架，动手搭建一个简单的Agent应用

面试指南

对于技术实现类问题，采用STAR法则：情境(Situation)、任务(Task)、行动(Action)、结果(Result)，突出技术细节和量化成果
对于设计类问题，先明确目标，再分步骤阐述方案，最后讨论权衡和备选方案，体现系统性思考
对于对比类问题，从原理、适用场景、优缺点等维度展开，展现知识广度
请描述一次你使用SFT/LoRA微调LLM的经历，遇到了哪些挑战？如何解决的？
如何设计一个Agent的自动化评测基准？你会选择哪些指标？
解释DPO和PPO的区别，以及它们在模型对齐中的应用场景
如何检测和减少LLM的幻觉？请给出具体方法
你了解哪些Agent框架？请比较AutoGPT和LangGraph的异同

匹配度报告

综合匹配度

前沿AI Agent技术岗，技能成长空间极大，但薪资福利未明确，WLB一般。

适合人群

最适合追求技术成长、愿意投入时间学习前沿AI技术的求职者，对工作生活平衡要求不高。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利70

成长发展95

工作生活40

使命价值60

薪资福利匹配

70中等

薪资处于市场中等偏上水平，但JD未明确福利，补偿性动机满足程度一般。

薪资信号未披露（AI估算：15K-25K/月）

成长发展匹配

95较高

职位涉及LLM微调、Agent评估、数据合成等前沿技术，技能成长空间极大，发展性动机高度满足。

技术前沿前沿/新兴技术

技术栈Python、PyTorch、Hugging Face、LLM、Agent、SFT、LoRA、DPO、RAGAS、LangChain、DeepSpeed、FSDP、AutoGPT、MetaGPT、LangGraph、DSPy、GPT-4

业务类型ambiguous

工作生活匹配

40较低

JD未提及远程或弹性工作，且北京现场办公通勤压力大，生活化动机满足程度较低。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值匹配

60中等

AI Agent属于高速增长赛道，但JD未提及社会价值或使命感，意义感动机满足程度中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多点数智

AI工程师-Agent模型优化与评估方向（北京）

立即应聘

AI工程师-Agent模型优化与评估方向（北京）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

无经验要求

全职员工

仅现场办公

本科

软件工程

PyTorch

LLM

SFT

DPO

LoRA

Ragas

AI 估算 · 15k–25k

AI Agent方向技术门槛高，市场需求大，应届生起薪较高，北京互联网行业薪资水平领先。