腾讯的微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

腾讯的微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

腾讯

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

立即应聘

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

发布于 1 天前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

数据分析

PyTorch

多模态模型

大语言模型

HuggingFace

评测框架

Opencompass

Lm-Evaluation-Harness

AI 估算 · 30k–50k

腾讯大模型方向算法岗，北京薪资较高，硕士学历，竞争力强，整体薪资水平在市场中上。

职位详情

关于这个职位

加入腾讯，参与微信读书、输入法、秒剪等产品的大模型评测工作

你将设计评测体系与自动化工具链，评估LLM及多模态模型能力，与算法团队协作推动模型优化

适合对AI评测有热情、技术扎实的算法工程师

最低要求

计算机科学、人工智能、数学、统计学等相关专业硕士及以上学历

精通 Python，熟悉 PyTorch/HuggingFace 生态

深入理解 Transformer 架构及大模型训练流程（预训练、SFT、RLHF/DPO）

熟悉主流评测框架（如 OpenCompass、lm-evaluation-harness、HF Evaluate 等）及常用指标（BLEU、ROUGE、Pass@k、ELO 等）

具备优秀的数据分析能力和系统化思维

良好的跨团队沟通协作能力，能清晰表达复杂评测结论

对 AI 评测方法论有热情，关注行业最新进展

工作职责

评测体系建设：负责大语言模型（LLM）及多模态模型（语音/视频/图片）的评测体系设计与搭建

评测方案设计与执行: 构建自动化、可扩展的评测工具链，支持模型快速迭代验证

探索前沿评测方法，包括但不限于 LLM-as-a-Judge、动态评测、Arena 对战、复杂推理评估等

模型能力诊断与优化协同：通过量化分析定位模型短板，与算法团队紧密协作，推动模型能力持续提升

AI 洞察

优缺点分析

优点

腾讯大平台，涉及微信读书、输入法等海量用户产品，影响力大
大模型评测是当前AI热点，技术前沿，个人成长快
团队技术氛围浓厚，能与顶尖算法工程师合作，积累宝贵经验
薪资福利优厚，股票期权等
评测定性难度大，需要不断探索新方法，面临技术不确定性
模型迭代速度快，工作强度可能较大，需要快速学习和适应
适合对AI评测有浓厚兴趣、技术基础扎实、善于数据分析且乐于沟通的算法工程师

缺点 / 挑战

跨团队协作频繁，沟通成本较高，需具备较强的表达和推动能力

角色解读

在评测领域深耕，成为AI评测专家，负责整个产品线的模型质量把控
转向算法研发方向，利用评测经验优化模型算法，成为大模型训练专家
向技术管理方向发展，带领评测团队，构建公司级评测体系
设计并搭建大语言模型和多模态模型的评测体系，包括评测指标、数据集和流程
开发自动化评测工具链，支持模型快速迭代和线上验证
探索前沿评测方法，如LLM-as-a-Judge、Arena对战等，提升评测的科学性和全面性
通过数据分析定位模型短板，与算法团队协作推动模型能力提升
精通Python，熟练使用PyTorch和HuggingFace生态，理解Transformer架构和大模型训练流程
熟悉主流评测框架（如OpenCompass、lm-evaluation-harness）和常见评测指标
具备优秀的数据分析能力，能从海量评测数据中提取有效结论
良好的沟通协作能力，能清晰表达复杂评测结论，推动跨团队协作

申请策略

关注腾讯AI Lab的研究动态，了解其在大模型评测方面的布局
准备一个完整的评测案例，展示从设计到结论的闭环能力
突出大模型相关项目经验，尤其是评测或模型优化方面的成果
强调Python、PyTorch等技能熟练度，以及使用过的评测框架和指标
展示数据分析能力，例如通过数据发现模型问题并提出改进方案
如有开源评测工具或论文发表，务必列出
熟悉主流评测框架（OpenCompass、lm-evaluation-harness）的使用和定制
深入理解大模型训练流程（SFT、RLHF），掌握常见模型架构

面试指南

针对评测设计问题：先明确评测目标（能力维度），再选择指标和数据集，考虑自动化与人工结合，最后分析结果闭环
针对技术理解问题：先阐述核心概念，再结合自身经验举例，最后点出优缺点或改进方向
针对协作推动问题：用STAR法则（情境、任务、行动、结果）说明跨团队沟通案例
请介绍你参与过的一个大模型评测项目，如何设计评测指标和流程？
你对LLM-as-a-Judge方法有什么理解？有哪些优缺点？
如何评估一个多模态模型的对话能力？请设计一个评测方案
如果发现模型在某个维度得分低，你会如何分析原因并推动改进？
你熟悉哪些自动化评测工具？如何构建可扩展的评测工具链？

职位点评

综合评分

腾讯大模型评测岗，前沿技术栈，薪资高，发展空间大，但需现场办公且强度可能较大。

更适合这类人

适合追求技术成长和前沿挑战，对WLB要求不高，希望在大平台积累经验的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活60

使命价值65

薪资福利

85较高

腾讯作为头部互联网公司，薪资福利具有竞争力，大模型方向薪资溢价明显，能较好满足补偿性动机。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

职位涉及大模型评测前沿技术，团队专业度高，个人技术成长空间大，发展性动机满足程度高。

技术前沿前沿/新兴技术

技术栈大语言模型、多模态模型、Transformer、PyTorch、HuggingFace、LLM-as-a-Judge、Arena对战

业务类型ambiguous

工作生活

60中等

北京现场办公，互联网大厂工作强度较大，但腾讯比较注重团队氛围，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

AI评测对技术发展有贡献，但岗位偏技术支撑，社会价值中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

腾讯

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

立即应聘

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

发布于 1 天前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

数据分析

PyTorch

多模态模型

大语言模型

HuggingFace

评测框架

Opencompass

Lm-Evaluation-Harness

AI 估算 · 30k–50k

腾讯大模型方向算法岗，北京薪资较高，硕士学历，竞争力强，整体薪资水平在市场中上。

职位详情

关于这个职位

加入腾讯，参与微信读书、输入法、秒剪等产品的大模型评测工作

你将设计评测体系与自动化工具链，评估LLM及多模态模型能力，与算法团队协作推动模型优化

适合对AI评测有热情、技术扎实的算法工程师

最低要求

计算机科学、人工智能、数学、统计学等相关专业硕士及以上学历

精通 Python，熟悉 PyTorch/HuggingFace 生态

深入理解 Transformer 架构及大模型训练流程（预训练、SFT、RLHF/DPO）

熟悉主流评测框架（如 OpenCompass、lm-evaluation-harness、HF Evaluate 等）及常用指标（BLEU、ROUGE、Pass@k、ELO 等）

具备优秀的数据分析能力和系统化思维

良好的跨团队沟通协作能力，能清晰表达复杂评测结论

对 AI 评测方法论有热情，关注行业最新进展

工作职责

评测体系建设：负责大语言模型（LLM）及多模态模型（语音/视频/图片）的评测体系设计与搭建

评测方案设计与执行: 构建自动化、可扩展的评测工具链，支持模型快速迭代验证

探索前沿评测方法，包括但不限于 LLM-as-a-Judge、动态评测、Arena 对战、复杂推理评估等

模型能力诊断与优化协同：通过量化分析定位模型短板，与算法团队紧密协作，推动模型能力持续提升

AI 洞察

优缺点分析

优点

腾讯大平台，涉及微信读书、输入法等海量用户产品，影响力大
大模型评测是当前AI热点，技术前沿，个人成长快
团队技术氛围浓厚，能与顶尖算法工程师合作，积累宝贵经验
薪资福利优厚，股票期权等
评测定性难度大，需要不断探索新方法，面临技术不确定性
模型迭代速度快，工作强度可能较大，需要快速学习和适应
适合对AI评测有浓厚兴趣、技术基础扎实、善于数据分析且乐于沟通的算法工程师

缺点 / 挑战

跨团队协作频繁，沟通成本较高，需具备较强的表达和推动能力

角色解读

在评测领域深耕，成为AI评测专家，负责整个产品线的模型质量把控
转向算法研发方向，利用评测经验优化模型算法，成为大模型训练专家
向技术管理方向发展，带领评测团队，构建公司级评测体系
设计并搭建大语言模型和多模态模型的评测体系，包括评测指标、数据集和流程
开发自动化评测工具链，支持模型快速迭代和线上验证
探索前沿评测方法，如LLM-as-a-Judge、Arena对战等，提升评测的科学性和全面性
通过数据分析定位模型短板，与算法团队协作推动模型能力提升
精通Python，熟练使用PyTorch和HuggingFace生态，理解Transformer架构和大模型训练流程
熟悉主流评测框架（如OpenCompass、lm-evaluation-harness）和常见评测指标
具备优秀的数据分析能力，能从海量评测数据中提取有效结论
良好的沟通协作能力，能清晰表达复杂评测结论，推动跨团队协作

申请策略

关注腾讯AI Lab的研究动态，了解其在大模型评测方面的布局
准备一个完整的评测案例，展示从设计到结论的闭环能力
突出大模型相关项目经验，尤其是评测或模型优化方面的成果
强调Python、PyTorch等技能熟练度，以及使用过的评测框架和指标
展示数据分析能力，例如通过数据发现模型问题并提出改进方案
如有开源评测工具或论文发表，务必列出
熟悉主流评测框架（OpenCompass、lm-evaluation-harness）的使用和定制
深入理解大模型训练流程（SFT、RLHF），掌握常见模型架构

面试指南

针对评测设计问题：先明确评测目标（能力维度），再选择指标和数据集，考虑自动化与人工结合，最后分析结果闭环
针对技术理解问题：先阐述核心概念，再结合自身经验举例，最后点出优缺点或改进方向
针对协作推动问题：用STAR法则（情境、任务、行动、结果）说明跨团队沟通案例
请介绍你参与过的一个大模型评测项目，如何设计评测指标和流程？
你对LLM-as-a-Judge方法有什么理解？有哪些优缺点？
如何评估一个多模态模型的对话能力？请设计一个评测方案
如果发现模型在某个维度得分低，你会如何分析原因并推动改进？
你熟悉哪些自动化评测工具？如何构建可扩展的评测工具链？

职位点评

综合评分

腾讯大模型评测岗，前沿技术栈，薪资高，发展空间大，但需现场办公且强度可能较大。

更适合这类人

适合追求技术成长和前沿挑战，对WLB要求不高，希望在大平台积累经验的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活60

使命价值65

薪资福利

85较高

腾讯作为头部互联网公司，薪资福利具有竞争力，大模型方向薪资溢价明显，能较好满足补偿性动机。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

职位涉及大模型评测前沿技术，团队专业度高，个人技术成长空间大，发展性动机满足程度高。

技术前沿前沿/新兴技术

技术栈大语言模型、多模态模型、Transformer、PyTorch、HuggingFace、LLM-as-a-Judge、Arena对战

业务类型ambiguous

工作生活

60中等

北京现场办公，互联网大厂工作强度较大，但腾讯比较注重团队氛围，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

65中等

AI评测对技术发展有贡献，但岗位偏技术支撑，社会价值中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度开拓性创新（行业首创）

Watch Jobs

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯 的其他在招职位

和平精英-高级关卡/战斗策划

微信-小程序测试开发工程师

《英雄联盟》/《无畏契约》-社区高级产品经理-产品策划

和平精英-游戏客户端开发工程师（Gameplay）

《金铲铲之战》-发行运营推广

相似职位推荐

Product Engineer

Low Voltage Switchgear R&D Engineer

算法工程师-TikTok直播

Intern-Software Developer

Industrial Engineering ES

腾讯 的其他在招职位

和平精英-高级关卡/战斗策划

微信-小程序测试开发工程师

《英雄联盟》/《无畏契约》-社区高级产品经理-产品策划

和平精英-游戏客户端开发工程师（Gameplay）

《金铲铲之战》-发行运营推广

相似职位推荐

Product Engineer

Low Voltage Switchgear R&D Engineer

算法工程师-TikTok直播

Intern-Software Developer

Industrial Engineering ES

腾讯的其他在招职位

腾讯的其他在招职位