腾讯的资深AI评测工程师（多模态与 AIGC方向）薪资是多少？

该职位薪资范围为 35k–65k（人民币/月）。

资深AI评测工程师（多模态与 AIGC方向）的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

腾讯的资深AI评测工程师（多模态与 AIGC方向）有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

腾讯

资深AI评测工程师（多模态与 AIGC方向）

立即应聘

资深AI评测工程师（多模态与 AIGC方向）

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

高级经验

全职员工

仅现场办公

硕士

软件工程

Llm-As-A-Judge

Lpips

Opencompass

多模态

Aesthetic Score

AIGC

Clip Score

Elo Rating

AI 估算 · 35k–65k

腾讯大厂资深AI岗，技术门槛高、行业稀缺，竞争力强，月薪35k-65k合理。

职位详情

关于这个职位

作为腾讯的资深AI评测工程师，你将专注于多模态与AIGC方向的质量保障，负责构建高质量评测数据集、开发自动化评测流水线，并建立图像/视频生成的评估体系

这是一个深度参与前沿AI技术质量控制的核心技术岗位，适合对模型评测有热情、追求技术深度的工程师

最低要求

教育背景：计算机、数学、数据科学等相关专业硕士及以上学历

方法论深度：熟悉各类评测技术（如 A/B Testing, Elo Rating, LLM-as-a-Judge），能独立设计复杂的评测实验

了解 LLM、CV 及多模态模型的基本原理，知道模型在哪些地方容易“翻车”

实战经验：有 Benchmark 构建经验（如构建过公司内部的行业测试集、Prompt 库或高质量标注集）

熟悉多模态评测维度（如 OCR、视觉推理、属性对齐）及 AIGC 评估指标（如 CLIP Score, Aesthetic Score, LPIPS 等）

工程能力：精通 Python，能熟练编写自动化脚本，有处理大规模文本/多媒体数据的经验

工作职责

Benchmark 构建与管理：负责高质量评测数据集的挖掘、清洗、标注与动态更新，设计长尾场景测试集，专门捕捉模型在极端或复杂指令下的失效点

自动化评测流水线开发：搭建自动评测框架，集成主流开源评测工具（如 OpenCompass, VLMEvalKit 等）

开发基于模型的自动评分器，提升评测效率并保持与人工评价的高一致性

AIGC 专项评测：建立图像/视频生成的质量评估体系，涵盖视觉效果、语义遵循、物理规律等维度，并解决生成内容的主观评价量化难题

AI 洞察

优缺点分析

优点

腾讯大平台，技术积累深厚，可接触前沿AI技术（多模态、AIGC）
岗位稀缺，专业性强，容易形成技术壁垒和行业影响力
薪资待遇优厚，福利完善，职业发展路径清晰
评测工作可能较为枯燥，需要大量数据清洗和实验设计，耐心要求高
技术迭代快，需要持续学习最新模型和评测方法
工作强度较大，可能需要应对紧急评测任务和项目deadline

缺点 / 挑战

适合对AI模型评测有强烈兴趣、喜欢数据分析和实验设计、追求技术深度且能承受一定压力的工程师

角色解读

向AI评测专家或技术负责人发展，主导质量体系建设
可横向迁移至模型训练、算法优化等岗位，成为复合型AI人才
在腾讯大平台积累前沿技术经验，后续可进入AI创业公司或晋升管理岗
构建和维护高质量评测数据集，设计长尾场景测试集，发现模型在极端或复杂指令下的失效点
开发自动化评测流水线，集成开源工具（如OpenCompass、VLMEvalKit），并开发基于模型的自动评分器
针对AIGC图像/视频生成建立质量评估体系，从视觉效果、语义遵循、物理规律等多维度量化评估
扎实的评测方法论：熟悉A/B Testing、Elo Rating、LLM-as-a-Judge等评测技术，能独立设计复杂实验
深入理解LLM、CV及多模态模型原理，了解模型常见失效模式
熟练掌握Python，具备自动化脚本开发和大规模数据处理经验
有Benchmark构建经验，熟悉多模态评测维度和AIGC评估指标

申请策略

深入了解腾讯的AI产品线（如混元、AI Lab），在面试中展现你对业务场景的理解
关注评测领域的最新进展（如Google的Gemini评测、Meta的Seal），展现技术洞察力
突出Benchmark构建经验：详细描述你构建过的评测集、Prompt库或标注流程
展示自动化评测能力：如有自己开发的评测框架或工具，附上GitHub链接
量化成果：用数据说明评测工作如何提升模型效果或发现关键问题
强调对多模态和AIGC的理解：列出你熟悉的评估指标和工具
补强评测方法论文献阅读，深入理解LLM-as-a-Judge、Elo Rating等底层逻辑
动手实践OpenCompass、VLMEvalKit等开源框架，熟悉其架构和扩展方式

面试指南

对于评测设计问题：明确目标、定义指标体系、选择数据集、设计实验流程、结果分析
对于指标选择问题：结合具体业务场景，说明指标优缺点，最好有对比实验
对于经验分享问题：STAR法则（情境-任务-行动-结果），突出你的思考过程和量化结果
请设计一个评测方案，评估一个多模态模型在视觉问答任务上的表现
如何解决AIGC生成内容主观评价的量化难题？请举例说明
你如何选择评测指标？在CLIP Score和Aesthetic Score之间如何权衡？
描述你曾经构建的一个Benchmark，包括数据来源、清洗流程和最终效果
如果发现模型在长尾场景下频繁出错，你会如何分析和改进评测集？

职位点评

综合评分

腾讯大厂、前沿AI技术栈、薪资优厚，但工作强度大且灵活性低。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

最适合追求技术深度和快速成长的求职者，对工作强度有一定承受能力。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展92

工作生活45

使命价值70

薪资福利

85较高

腾讯作为互联网巨头，提供极具竞争力的薪酬和全面福利，但该职位JD未明确披露薪资，整体处于行业高水平。

薪资信号未披露（AI估算：35K-65K/月）

成长发展

92较高

岗位聚焦多模态与AIGC前沿技术，需要掌握最新评测方法和工具，技术成长空间巨大，且腾讯内部有丰富的学习资源和项目机会。

技术前沿前沿/新兴技术

技术栈多模态、AIGC、LLM、CV、Benchmark、OpenCompass、VLMEvalKit、CLIP Score、Aesthetic Score、LPIPS、A/B Testing、Elo Rating、LLM-as-a-Judge

业务类型ambiguous

工作生活

45较低

岗位要求现场办公（深圳），未提及弹性工作或远程政策，互联网大厂普遍工作强度较高，生活平衡可能受影响。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

腾讯平台影响力大，AI质量保障间接推动技术向善，但岗位本身社会使命感一般。AI行业高速增长，前景好。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

腾讯的其他在招职位

相似职位推荐

Watch Jobs

资深AI评测工程师（多模态与 AIGC方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯云-智慧零售-公有云售前架构师

QQ浏览器商业分析经理

S工作室-预研项目-关卡策划

游戏维权诉讼律师-涉外方向

流量产品运营

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

腾讯的其他在招职位

腾讯云-智慧零售-公有云售前架构师

QQ浏览器商业分析经理

S工作室-预研项目-关卡策划

游戏维权诉讼律师-涉外方向

流量产品运营

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

资深AI评测工程师（多模态与 AIGC方向）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯 的其他在招职位

腾讯云-智慧零售-公有云售前架构师

QQ浏览器商业分析经理

S工作室-预研项目-关卡策划

游戏维权诉讼律师-涉外方向

流量产品运营

相似职位推荐

IT-算法工程师-杭州

大模型算法工程师

软件开发岗（AI应用方向）

海康汽车电子-IOS开发工程师-杭州

交通与停车-高级嵌入式软件开发工程师-杭州

腾讯的其他在招职位