Amazon logo
亚马逊
AI Benchmarking Specialist - Chinese, International Seller Growth

AI Benchmarking Specialist - Chinese, International Seller Growth

发布于 大约 20 小时前

普通员工/个人贡献者

上海市
初级经验
全职员工
仅现场办公
本科
LLM
Audit
Ai Benchmarking
Documentation

AI 估算 · 15k–25k

亚马逊上海AI岗位,本科学历初级,薪资对标互联网大厂,考虑AI领域溢价,估算15000-25000元/月

职位详情

关于这个职位

该职位属于亚马逊Seller AI团队,主要负责AI模型(特别是生成式AI和大语言模型)的基准测试与审计工作

你将参与设计测试计划、评估模型准确性、鲁棒性和公平性,并撰写审计报告,为全球卖家提供更优质的AI工具
适合对AI质量评估和数据标注有浓厚兴趣的求职者

最低要求

学士学位(任何专业)

工作职责

协助规划和执行AI模型的基准测试,包括定义测试计划、指标和可接受标准(准确性、鲁棒性、偏差和可靠性)

通过审查数据集、模型输出和数据处理实践,支持内容准确性、相关性和隐私检查,并上报潜在监管风险
根据具体标注指南验证数据,确保收集信息的准确性和质量
准备清晰的审计和基准测试报告,包括错误评级、根本原因分析和建议,并为高级利益相关者准备演示材料
维护有序的审计文档、证据和基准测试数据集,以支持内部审查
与团队成员和管理层紧密合作,推动流程效率并探索自动化机会
通过参与开发和完善AI审计方法、检查清单和测试框架,提高数据生成的生产力和有效性

优先资格

有AI系统工作经验或评估经验

AI 洞察

优缺点分析

优点

  • 亚马逊作为全球电商和AI领导者,平台资源丰富,能接触前沿的生成式AI和大模型技术
  • 职位聚焦AI质量评估,属于新兴领域,技能稀缺性强,未来发展空间大
  • 团队国际化,有机会与全球同事协作,拓展视野
  • 工作内容涉及多维度评估(准确、鲁棒、公平),能全面理解AI系统
  • AI领域更新快,需要持续学习新模型和评估方法,保持技术敏感度
  • 适合对AI质量保障有热情、注重细节、擅长逻辑分析和文档整理的求职者,尤其是希望在AI评估领域建立专业壁垒的人

缺点 / 挑战

  • 工作可能涉及大量重复性数据验证和文档工作,需要耐心和细致
  • 审计类角色需要频繁与多方沟通,协调成本高,对表达能力要求较高

角色解读

  • 在AI质量评估领域深耕,成为AI审计专家,主导更大规模的模型评估项目
  • 转向AI产品管理或数据科学方向,利用评估经验理解用户需求
  • 在亚马逊内部跨团队晋升,如Seller AI团队的技术项目经理或高级研究员
  • 设计和执行AI模型的基准测试与审计,评估模型在准确性、鲁棒性、公平性等方面的表现
  • 审查数据集和模型输出,确保内容准确、相关且符合隐私要求,并上报潜在风险
  • 编写详细的审计报告,包括错误分析、根本原因和改进建议,并向高级管理层汇报
  • 与团队协作优化标注流程,探索自动化机会,提升数据生成效率
  • 扎实的数据分析和逻辑推理能力,能够定义测试指标和验收标准
  • 熟悉AI/LLM的基本原理,有模型评估或数据标注经验者优先
  • 出色的文档撰写和沟通能力,能清晰呈现审计结果
  • 注重细节,对质量把控严格,能独立推动任务完成

申请策略

  • 在求职信中强调你对AI质量控制的热情,以及如何通过细致的测试帮助产品改进
  • 提前了解亚马逊领导力原则(如“客户至上”、“刨根问底”),在面试中结合案例展示
  • 突出AI或数据标注相关项目经验,展示你对模型评估方法的理解
  • 强调数据分析与报告撰写能力,如曾撰写过技术评估报告或质量分析文档
  • 如有SQL、Python等数据处理技能,务必在简历中体现
  • 展示团队协作和跨部门沟通经历,尤其是与工程师或产品经理合作的经验
  • 学习AI基本概念,特别是大语言模型(如GPT、BERT)的原理和评估指标(如BLEU、ROUGE、准确率、公平性指标)
  • 练习撰写结构化报告,提升文档清晰度和逻辑性

面试指南

  • 用STAR方法(情境、任务、行动、结果)结构化回答,突出具体行动和量化结果
  • 展示批判性思维:先定义问题,再分析原因,最后提出可落地的解决方案
  • 结合亚马逊的工作风格:强调数据驱动、深入细节和客户导向
  • 请描述你如何评估一个AI模型的准确性和鲁棒性?会用哪些指标?
  • 假设你发现模型输出存在偏见,你会如何向上级报告并推动改善?
  • 你如何确保数据标注的一致性?请举例说明
  • 你理解的AI审计包含哪些步骤?如何制定审计计划?
  • 你对生成式AI的局限性和风险有什么了解?

匹配度报告

65
综合匹配度

大厂AI评估岗位,前沿技术栈,成长空间大,但WLB一般,薪资未明示。

适合人群
最适合追求技术成长和职业发展的求职者,愿意接受一定的工作强度以换取前沿AI领域的经验积累。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利65
成长发展85
工作生活40
使命价值70

薪资福利匹配

65中等

亚马逊作为已上市巨头,薪资福利有竞争力,但JD未披露具体薪资和福利,补偿性满足中等。

薪资信号未披露(AI估算:15K-25K/月)

成长发展匹配

85较高

职位涉及前沿AI技术(Gen-AI/LLM),有明确的技能成长空间,但JD未直接提及晋升或培训,发展性满足较好。

技术前沿前沿/新兴技术
技术栈Gen-AI、LLM、AI Benchmarking、Data Annotation、Automation
业务类型profit_center

工作生活匹配

40较低

JD仅说明上海现场办公,未提弹性工作或WLB信息,亚马逊整体工作强度偏大,生活化满足较低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

职位通过提升卖家体验间接创造社会价值,但不直接涉及使命感,行业前景好但社会影响中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs