Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Dmall logo
多点数智
AI工程师-Agent模型优化与评估方向(北京)
立即应聘

AI工程师-Agent模型优化与评估方向(北京)

发布于 大约 2 个月前

普通员工/个人贡献者

北京市
无经验要求
全职员工
仅现场办公
本科
软件工程
PyTorch
LLM
SFT
DPO
LoRA
Ragas

AI 估算 · 15k–25k

AI Agent方向技术门槛高,市场需求大,应届生起薪较高,北京互联网行业薪资水平领先。

职位详情

关于这个职位

该职位专注于AI Agent模型的优化与评估,你将参与构建自动化评测基准、开发基于LLM的评估管线,并进行模型后训练与调优

适合对LLM、Agent框架和模型微调有浓厚兴趣的应届生,能够深入接触前沿技术并积累实战经验

最低要求

届本科及以上学历,计算机、数学、统计学等相关专业,熟悉 Python,熟练使用 Linux 开发环境

精通 PyTorch,熟练使用 Hugging Face 全家桶 (Transformers, Datasets, PEFT, TRL)
有过 LLM 微调经验 (SFT/LoRA),了解 DeepSpeed/FSDP 等分布式训练基础者优先
了解或使用过 RAGAS, G-Eval, MT-Bench, 或者 LangChain 的评估模块

工作职责

Agent 评价体系构建 (Evaluation):构建针对 Agent 业务场景的自动化评测基准 (Benchmark)

开发基于 LLM-as-a-Judge 的评估管线,量化 Agent 的指令遵循能力 (Instruction Following)、逻辑推理能力 (Reasoning) 和工具调用准确率 (Tool Use)
设计并维护“幻觉”检测机制,确保输出的安全性与真实性
模型后训练与调优 (Post-training):负责基座模型(Base Model)在特定 Agent 场景下的 SFT (Supervised Fine-Tuning) 工作,规范模型的输出格式(如 JSON)和对话风格
探索 DPO (Direct Preference Optimization) 或 PPO 等对齐算法,优化模型的决策倾向,使其更符合人类或业务的偏好
负责 LoRA/QLoRA 等参数高效微调 (PEFT) 实验,在显存受限情况下优化模型性能
数据合成与清洗:利用 GPT-4 等强模型构造高质量的合成数据 (Synthetic Data) 用于蒸馏或微调
清洗和构建用于评测的 Golden Dataset (金标数据集)

优先资格

加分项:操作过Agent 框架 (AutoGPT, MetaGPT, LangGraph),理解 Agent 的 ReAct/CoT 思考过程

有数据合成 (Data Synthesis) 经验,如使用 Self-Instruct 方式生成数据
熟悉 DSPy (自动 Prompt 优化) 框架

AI 洞察

优缺点分析

优点

  • 深度参与AI Agent前沿技术,积累LLM微调、评估、数据合成等稀缺技能,职业竞争力强
  • 公司为零售数字化领域头部企业,业务场景丰富,技术落地机会多
  • 团队技术氛围浓厚,可接触GPT-4等顶级模型和分布式训练资源
  • Agent评估和幻觉检测难度高,需要较强的逻辑分析和问题定位能力
  • 作为应届生岗位,可能缺乏资深导师指导,需具备较强的独立探索能力

缺点 / 挑战

  • 技术栈更新快,需要持续学习最新论文和框架,学习压力较大
  • 适合对LLM和Agent技术有强烈兴趣、具备扎实编程和深度学习基础、喜欢挑战前沿难题的应届生

角色解读

  • 从Agent评估与微调工程师起步,逐步成长为AI模型优化专家,主导核心模型迭代
  • 向AI Agent架构师方向发展,负责复杂多Agent系统的设计与落地
  • 横向拓展至自然语言处理、计算机视觉等其他AI领域,或转向AI产品经理等复合角色
  • 构建Agent自动化评测基准,开发基于LLM的评估管线,量化模型在指令遵循、推理和工具调用上的表现
  • 负责基座模型在Agent场景下的监督微调(SFT),规范输出格式和对话风格
  • 探索DPO/PPO等对齐算法优化模型决策倾向,并利用LoRA等技术进行参数高效微调
  • 利用GPT-4等强模型构造合成数据,清洗并构建金标评测数据集
  • 精通Python和PyTorch,熟练使用Hugging Face全家桶(Transformers、Datasets、PEFT、TRL)
  • 具备LLM微调经验(SFT/LoRA),了解分布式训练基础(DeepSpeed/FSDP)
  • 熟悉Agent框架(如AutoGPT、LangGraph)和评估工具(RAGAS、G-Eval等)
  • 了解数据合成方法(如Self-Instruct)和自动Prompt优化框架(DSPy)

申请策略

  • 关注多点数智的零售业务场景,思考AI Agent如何赋能零售(如智能客服、库存管理),在面试中展现业务理解
  • 准备一个完整的Agent微调或评估项目案例,从问题定义、方案设计到结果分析,体现系统性思维
  • 突出LLM微调项目经验,包括SFT/LoRA的具体实验细节和效果提升
  • 展示使用Hugging Face、PyTorch等工具的实际项目,强调分布式训练经验
  • 如有Agent框架(AutoGPT等)或评估工具(RAGAS)的使用经历,务必详细描述
  • 强调数据合成或清洗经验,尤其是利用GPT-4等模型生成高质量数据的案例
  • 提前学习DPO/PPO等对齐算法原理,并尝试在小型模型上复现
  • 熟悉LangChain和LangGraph框架,动手搭建一个简单的Agent应用

面试指南

  • 对于技术实现类问题,采用STAR法则:情境(Situation)、任务(Task)、行动(Action)、结果(Result),突出技术细节和量化成果
  • 对于设计类问题,先明确目标,再分步骤阐述方案,最后讨论权衡和备选方案,体现系统性思考
  • 对于对比类问题,从原理、适用场景、优缺点等维度展开,展现知识广度
  • 请描述一次你使用SFT/LoRA微调LLM的经历,遇到了哪些挑战?如何解决的?
  • 如何设计一个Agent的自动化评测基准?你会选择哪些指标?
  • 解释DPO和PPO的区别,以及它们在模型对齐中的应用场景
  • 如何检测和减少LLM的幻觉?请给出具体方法
  • 你了解哪些Agent框架?请比较AutoGPT和LangGraph的异同

匹配度报告

66
综合匹配度

前沿AI Agent技术岗,技能成长空间极大,但薪资福利未明确,WLB一般。

适合人群
最适合追求技术成长、愿意投入时间学习前沿AI技术的求职者,对工作生活平衡要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展95
工作生活40
使命价值60

薪资福利匹配

70中等

薪资处于市场中等偏上水平,但JD未明确福利,补偿性动机满足程度一般。

薪资信号未披露(AI估算:15K-25K/月)

成长发展匹配

95较高

职位涉及LLM微调、Agent评估、数据合成等前沿技术,技能成长空间极大,发展性动机高度满足。

技术前沿前沿/新兴技术
技术栈Python、PyTorch、Hugging Face、LLM、Agent、SFT、LoRA、DPO、RAGAS、LangChain、DeepSpeed、FSDP、AutoGPT、MetaGPT、LangGraph、DSPy、GPT-4
业务类型ambiguous

工作生活匹配

40较低

JD未提及远程或弹性工作,且北京现场办公通勤压力大,生活化动机满足程度较低。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值匹配

60中等

AI Agent属于高速增长赛道,但JD未提及社会价值或使命感,意义感动机满足程度中等。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

多点数智 的其他在招职位

  • 海外实施顾问(英语工作)

    多点数智 · 深圳市
    AI 估算 · 20k-30k
  • 高级售前顾问(英文&粤语流利)

    多点数智 · 深圳市
    AI 估算 · 20k-35k
  • 核算专家

    多点数智 · 北京市
    AI 估算 · 25k-45k
  • 产品经理

    多点数智 · 北京市
    AI 估算 · 15k-25k
  • IT Support

    多点数智 · 帕赛市
    AI 估算 · 15k-25k

相似职位推荐

  • AI全栈工程师(AI Coding 方向)

    小红书 · 北京市
    AI 估算 · 45k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 高级/资深iOS开发工程师(MJ035494)

    携程 · 上海市
    AI 估算 · 25k-45k
  • Staff Machine Learning Engineer, ML Infrastructure - Offline

    Unity Technologies · 上海市
    AI 估算 · 40k-70k

多点数智 的其他在招职位

  • 海外实施顾问(英语工作)

    多点数智 · 深圳市
    AI 估算 · 20k-30k
  • 高级售前顾问(英文&粤语流利)

    多点数智 · 深圳市
    AI 估算 · 20k-35k
  • 核算专家

    多点数智 · 北京市
    AI 估算 · 25k-45k
  • 产品经理

    多点数智 · 北京市
    AI 估算 · 15k-25k
  • IT Support

    多点数智 · 帕赛市
    AI 估算 · 15k-25k

相似职位推荐

  • AI全栈工程师(AI Coding 方向)

    小红书 · 北京市
    AI 估算 · 45k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 40k-70k
  • 智能体-全栈开发专家-CodeBuddy/WorkBuddy

    腾讯 · 深圳市
    AI 估算 · 30k-60k
  • 高级/资深iOS开发工程师(MJ035494)

    携程 · 上海市
    AI 估算 · 25k-45k
  • Staff Machine Learning Engineer, ML Infrastructure - Offline

    Unity Technologies · 上海市
    AI 估算 · 40k-70k