Trip.com logo
携程
Senior QA EN SHACC ALL(MJ034817)

Senior QA EN SHACC ALL(MJ034817)

发布于 大约 13 小时前

普通员工/个人贡献者

上海市
中级经验
全职员工
仅现场办公
本科
LLM
跨职能协作
质量评估
根本原因分析
回归测试
AIGC
Prompt Engineering
Ai评价

AI 估算 · 20k–30k

携程作为互联网大厂,薪资有竞争力,岗位涉及前沿AI技术,但属质量保障而非核心算法,薪资中上水平。

职位详情

关于这个职位

该职位负责大语言模型(LLM)的质量评估,包括制定评估标准、设计评估流程、进行回归测试和线上监控,并推动质量问题的闭环改进

需要候选人具备AI评估方法论和跨团队协作能力,适合有互联网产品运营经验且对AI质量把控感兴趣的人

最低要求

· 全日制本科及以上学历

· 3年以上互联网产品运营经验
· 掌握AI评估方法论(如Golden Dataset构建、人工评估SOP)
· 具备敏锐的细节洞察力(“抓bug”思维),能从海量数据中挖掘潜在风险
· 熟悉Prompt Engineering(侧重验证而非日常维护)
· 强大的跨职能沟通能力,能用数据影响并推动跨职能合作伙伴解决复杂问题
· 英语书面和口语流利

工作职责

· 建立和维护大语言模型(LLM)的质量评估标准,涵盖准确性、安全性、合规性和指令遵循能力

· 设计结合自动化和人工评估的评估流程,定期量化模型性能
· 负责模型迭代的回归测试和验收测试,实施质量门禁以防止上线前性能下降
· 监控线上性能,挖掘不良案例,识别模型幻觉、逻辑错误或体验缺陷,并及时发出风险警报
· 主导质量问题的根本原因分析(RCA),精准诊断故障源于数据、提示词还是模型架构
· 推动算法、产品和运营团队解决质量缺陷,跟踪修复率并进行重新验证,确保闭环流程
· 连接业务需求与技术实现,确保AI为用户带来真实价值

优先资格

项目管理经验优先

AI 洞察

优缺点分析

优点

  • 身处AI+旅游的头部公司,接触前沿的大语言模型技术,技能积累价值高
  • 岗位职责核心,直接影响AI产品质量,成就感强
  • 携程平台大,跨职能协作机会多,能锻炼综合能力
  • AI质量评估需要持续学习新方法,技术更新快,对学习能力要求高
  • 岗位偏质量保障,与纯算法岗位相比,技术深度可能略逊
  • 适合有互联网产品运营或QA经验、对AI质量把控感兴趣、注重细节且善于跨团队沟通的求职者

缺点 / 挑战

  • 需要处理线上突发风险,可能面临一定压力

角色解读

  • 可以向AI质量专家或AI产品运营经理发展,纵向深化评估方法论
  • 也可以转向算法或产品团队,横向拓展技术广度
  • 随着AI行业成熟,该岗位经验可迁移至其他大模型公司或AI平台团队
  • 制定大语言模型的质量评估标准,设计自动化与人工结合的评估流程,定期量化模型性能
  • 负责LLM模型迭代的回归测试和验收测试,实施质量门禁,监控线上性能并挖掘不良案例
  • 主导质量问题的根因分析,推动算法、产品和运营团队解决缺陷,确保闭环改进
  • 扎实的AI评估方法论,包括构建Golden Dataset和制定人工评估SOP的能力
  • 敏锐的细节洞察力和数据敏感度,能从海量数据中发现潜在风险
  • 熟悉Prompt Engineering,能够复现或验证问题(侧重验证)
  • 优秀的跨部门沟通和数据分析能力,能用数据影响决策

申请策略

  • 申请时关注携程的AI业务方向,如客服、内容生成等,思考如何将经验与之结合
  • 准备英文简历和英文面试,因为JD明确要求英语流利
  • 突出LLM或AIGC相关产品的运营或测试经验,尤其是质量评估框架的搭建案例
  • 强调数据分析和风险挖掘能力,附上具体项目数据如发现并修复的bug数量
  • 展示跨部门协作经验,尤其是推动问题解决的过程
  • 提前学习LLM基础知识,如常见的评估指标(BLEU、ROUGE等)和Prompt Engineering
  • 补充AI产品运营的相关课程或项目经验,了解行业最新动态

面试指南

  • STAR法:描述情境、任务、行动、结果,结构化展示解决问题的能力
  • 方法论+案例:先讲通用方法论,再结合具体项目案例,体现深度
  • 数据驱动:强调用数据说话,量化成果
  • 如何设计一个大语言模型的质量评估框架?
  • 请举例说明你如何通过数据分析发现并推动解决一个复杂质量问题
  • 你如何处理跨团队协作中的冲突?
  • 你对Prompt Engineering有什么理解?如何验证一个Prompt的效果?
  • 复习LLM质量评估相关技术术语和评估体系

匹配度报告

68
综合匹配度

大厂AI质量岗,前沿技术栈,薪资中上,发展空间好但WLB一般。

适合人群
适合追求技术成长和行业前景、能接受现场办公模式的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展80
工作生活50
使命价值75

薪资福利匹配

65中等

薪资水平在上海互联网行业中上,但JD未明确福利,补偿性满足中等。

薪资信号未披露(AI估算:20K-30K/月)

成长发展匹配

80较高

岗位涉及前沿AI评估技术,能积累LLM经验,但JD未明确晋升路径,发展性较好。

技术前沿前沿/新兴技术
技术栈LLM、AIGC、AI评估、Prompt Engineering
业务类型profit_center

工作生活匹配

50较低

仅现场办公,未提及远程或弹性工作,生活化满足有限。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

75中等

AI行业高速增长,岗位有推动技术落地的使命感,但社会影响力不突出。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs