
携程
Senior QA EN SHACC ALL(MJ034817)
Senior QA EN SHACC ALL(MJ034817)
发布于 大约 13 小时前普通员工/个人贡献者
上海市
中级经验
全职员工
仅现场办公
本科
LLM
跨职能协作
质量评估
根本原因分析
回归测试
AIGC
Prompt Engineering
Ai评价
AI 估算 · 20k–30k
携程作为互联网大厂,薪资有竞争力,岗位涉及前沿AI技术,但属质量保障而非核心算法,薪资中上水平。
职位详情
关于这个职位
该职位负责大语言模型(LLM)的质量评估,包括制定评估标准、设计评估流程、进行回归测试和线上监控,并推动质量问题的闭环改进
需要候选人具备AI评估方法论和跨团队协作能力,适合有互联网产品运营经验且对AI质量把控感兴趣的人
最低要求
· 全日制本科及以上学历
· 3年以上互联网产品运营经验
· 掌握AI评估方法论(如Golden Dataset构建、人工评估SOP)
· 具备敏锐的细节洞察力(“抓bug”思维),能从海量数据中挖掘潜在风险
· 熟悉Prompt Engineering(侧重验证而非日常维护)
· 强大的跨职能沟通能力,能用数据影响并推动跨职能合作伙伴解决复杂问题
· 英语书面和口语流利
工作职责
· 建立和维护大语言模型(LLM)的质量评估标准,涵盖准确性、安全性、合规性和指令遵循能力
· 设计结合自动化和人工评估的评估流程,定期量化模型性能
· 负责模型迭代的回归测试和验收测试,实施质量门禁以防止上线前性能下降
· 监控线上性能,挖掘不良案例,识别模型幻觉、逻辑错误或体验缺陷,并及时发出风险警报
· 主导质量问题的根本原因分析(RCA),精准诊断故障源于数据、提示词还是模型架构
· 推动算法、产品和运营团队解决质量缺陷,跟踪修复率并进行重新验证,确保闭环流程
· 连接业务需求与技术实现,确保AI为用户带来真实价值
优先资格
项目管理经验优先
AI 洞察
优缺点分析
优点
- 身处AI+旅游的头部公司,接触前沿的大语言模型技术,技能积累价值高
- 岗位职责核心,直接影响AI产品质量,成就感强
- 携程平台大,跨职能协作机会多,能锻炼综合能力
- AI质量评估需要持续学习新方法,技术更新快,对学习能力要求高
- 岗位偏质量保障,与纯算法岗位相比,技术深度可能略逊
- 适合有互联网产品运营或QA经验、对AI质量把控感兴趣、注重细节且善于跨团队沟通的求职者
缺点 / 挑战
- 需要处理线上突发风险,可能面临一定压力
角色解读
- 可以向AI质量专家或AI产品运营经理发展,纵向深化评估方法论
- 也可以转向算法或产品团队,横向拓展技术广度
- 随着AI行业成熟,该岗位经验可迁移至其他大模型公司或AI平台团队
- 制定大语言模型的质量评估标准,设计自动化与人工结合的评估流程,定期量化模型性能
- 负责LLM模型迭代的回归测试和验收测试,实施质量门禁,监控线上性能并挖掘不良案例
- 主导质量问题的根因分析,推动算法、产品和运营团队解决缺陷,确保闭环改进
- 扎实的AI评估方法论,包括构建Golden Dataset和制定人工评估SOP的能力
- 敏锐的细节洞察力和数据敏感度,能从海量数据中发现潜在风险
- 熟悉Prompt Engineering,能够复现或验证问题(侧重验证)
- 优秀的跨部门沟通和数据分析能力,能用数据影响决策
申请策略
- 申请时关注携程的AI业务方向,如客服、内容生成等,思考如何将经验与之结合
- 准备英文简历和英文面试,因为JD明确要求英语流利
- 突出LLM或AIGC相关产品的运营或测试经验,尤其是质量评估框架的搭建案例
- 强调数据分析和风险挖掘能力,附上具体项目数据如发现并修复的bug数量
- 展示跨部门协作经验,尤其是推动问题解决的过程
- 提前学习LLM基础知识,如常见的评估指标(BLEU、ROUGE等)和Prompt Engineering
- 补充AI产品运营的相关课程或项目经验,了解行业最新动态
面试指南
- STAR法:描述情境、任务、行动、结果,结构化展示解决问题的能力
- 方法论+案例:先讲通用方法论,再结合具体项目案例,体现深度
- 数据驱动:强调用数据说话,量化成果
- 如何设计一个大语言模型的质量评估框架?
- 请举例说明你如何通过数据分析发现并推动解决一个复杂质量问题
- 你如何处理跨团队协作中的冲突?
- 你对Prompt Engineering有什么理解?如何验证一个Prompt的效果?
- 复习LLM质量评估相关技术术语和评估体系
匹配度报告
68
综合匹配度
大厂AI质量岗,前沿技术栈,薪资中上,发展空间好但WLB一般。
适合人群
适合追求技术成长和行业前景、能接受现场办公模式的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展80
工作生活50
使命价值75
薪资福利匹配
65中等
薪资水平在上海互联网行业中上,但JD未明确福利,补偿性满足中等。
薪资信号未披露(AI估算:20K-30K/月)
成长发展匹配
80较高
岗位涉及前沿AI评估技术,能积累LLM经验,但JD未明确晋升路径,发展性较好。
技术前沿前沿/新兴技术
技术栈LLM、AIGC、AI评估、Prompt Engineering
业务类型profit_center
工作生活匹配
50较低
仅现场办公,未提及远程或弹性工作,生活化满足有限。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值匹配
75中等
AI行业高速增长,岗位有推动技术落地的使命感,但社会影响力不突出。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
携程 的其他在招职位
相似职位推荐
Watch Jobs