字节跳动的大模型数据评测专家-AI数据与安全薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

大模型数据评测专家-AI数据与安全的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的大模型数据评测专家-AI数据与安全有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

字节跳动

大模型数据评测专家-AI数据与安全

立即应聘

大模型数据评测专家-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

北京市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

Prompt设计

大语言模型

小语种

数据分析

数据评测

自动化评估

评估方法论

SQL

AI 估算 · 30k–50k

大模型方向热门，字节跳动薪资竞争力强，硕士+经验要求，预计月薪3-5万，年终奖丰厚

职位详情

关于这个职位

该职位负责大语言模型在垂类场景下的评测体系搭建，包括设计高质量评估集、自动化评估流程，并通过负面案例分析驱动模型优化

适合具备数据分析、Python和Agent技术背景的AI从业者，能深入参与前沿大模型的质量保障与迭代

最低要求

硕士学位及以上，具备良好的逻辑分析、数据分析或研究能力

掌握Python，具备数据清洗、数据分析、数据预处理相关项目经验，熟悉SQL用法

熟悉大模型评估方法，能够围绕不同场景设计评估框架、拆解评估维度、制定评分标准，具备评估集构建、负面案例分析或自动化评估相关经验者优先

熟悉Agent的常见组件、编排流程及应用场景，如工具调用、规划、检索、记忆、长尾任务等

具备良好的逻辑分析能力、沟通协作能力，能够清晰、准确地表达问题、结论和改进建议，对AI技术和大模型应用场景有强烈兴趣，具备主动探索、快速学习和持续迭代的能力

英语水平流利，能用于日常工作交流

工作职责

参与大语言模型在不同垂类场景下的用户需求分析，设计并构建高质量评估集

基于大语言模型的调用链路、工具使用、回复结果等信息，进行负面案例分析、错误定位与归因

设计并完善大语言模型在基模、端到端、应用层场景下的自动化评估流程，包括数据预处理、Prompt设计、Agentic Workflow评估等

沉淀评估方法论、评价标准和分析报告，推动模型能力与产品体验持续优化

优先资格

计算机、人工智能、数据科学、统计学、数学等相关专业背景

达到下述任意小语种的C1及以上水平：印尼语、葡萄牙语（巴西）、阿拉伯语、越南语、马来语、泰语

AI 洞察

优缺点分析

优点

大模型赛道高速发展，岗位技术壁垒高，职业前景广阔
字节跳动全球化AI布局，资源丰富，能接触前沿技术和海量数据
工作内容涉及评估方法论创新，个人技术沉淀价值高
小语种加分项体现了国际化视野，有海外发展可能
大模型评测领域尚不成熟，需要较强的探索和创新能力
对技术广度和深度要求高，需持续学习最新模型和框架
适合对AI评测有浓厚兴趣、具备数据分析背景、喜欢钻研模型细节的技术从业者，尤其是有Agent或大模型使用经验的人

缺点 / 挑战

工作可能涉及高强度分析和重复性任务，需要耐心和细致

角色解读

可向大模型评估专家或AI安全方向深入，参与模型全生命周期质量管控
积累自动化评估和Agent方向经验后，可转型为AI应用架构师或技术负责人
在字节跳动大平台下，有机会接触前沿AI技术，横向拓展到其他AI研发岗位
分析大语言模型在不同垂类场景下的用户需求，设计高质量评估集来量化模型表现
通过工具调用、回复结果等链路信息定位模型错误，进行负面案例归因分析
构建自动化评估流程，包括数据预处理、Prompt设计和Agentic Workflow评估
沉淀评估方法论和标准，输出分析报告以推动模型和产品体验优化
扎实的Python编程和SQL能力，能独立完成数据清洗、分析和预处理
熟悉大模型评估框架，能根据场景拆解维度、制定评分标准
了解Agent常见组件（工具调用、规划、检索等）及其编排流程
出色的逻辑分析和沟通能力，能清晰表达问题和改进建议

申请策略

字节跳动注重实操，面试前可准备一个你主导过的评估或分析案例，展示完整思路
了解字节跳动的大模型产品（如豆包）和其评估体系，在面试中体现对业务的理解
突出Python和SQL相关项目经验，尤其是数据清洗、分析的实际案例
强调大模型评估或Agent相关的工作经历，如构建过评测集或自动化流程
展示逻辑分析能力，可用具体例子说明如何定位和归因模型错误
若有小语种能力，务必在简历中明确标注等级
深入学习LangChain、AutoGPT等Agent框架，熟悉其评估方法
补充大模型评测相关知识，如BLEU、ROUGE等自动评估指标及人工评估方法论

面试指南

对于评估设计类问题：先明确业务目标，再拆解评估维度（准确性、鲁棒性、安全性等），设计对应指标和数据集，最后说明如何执行和迭代
对于问题定位类问题：采用“现象-链路-根因-建议”结构，先描述错误表现，追踪调用链路或数据异常，定位根因，给出可执行的优化建议
如何为医疗垂域的大模型设计一套评估集？请说明维度、指标和流程
描述一个你曾经遇到的模型负面案例，你是如何定位错误并给出改进建议的？
Agent中的工具调用经常失败，你会如何自动化评估工具调用的准确性？
如何评估Prompt设计的效果？请举例说明你的评估框架
你熟悉哪些大模型评估指标？它们的优缺点是什么？
熟悉大模型常见评估框架（如MMLU、HumanEval、HELM等）及其适用场景

职位点评

综合评分

高薪、前沿技术栈、强技术成长，但WLB一般、节奏快

更适合这类人

优先追求技术成长和职业发展的求职者，适合能接受高强度工作、希望在前沿AI领域深耕的人。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利

80较高

字节跳动薪酬在行业内具有竞争力，大模型方向薪资偏高，但工作强度也相应较大。

薪资信号偏高 (30K-50K/月)

成长发展

90较高

岗位涉及前沿大模型技术栈，能深度参与评估方法创新，成长空间大。

技术前沿前沿/新兴技术

技术栈大语言模型、Agent、Prompt设计、自动化评估

业务类型profit_center

工作生活

40较低

字节跳动工作节奏较快，且北京办公，通勤压力大，WLB一般。

工作模式仅现场办公

办公地点市区核心地段

加班情况明确要求弹性/高强度

使命价值

70中等

大模型评测对AI安全与质量有直接贡献，具有一定社会意义，行业前景好。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度积极采用新技术

Watch Jobs

大模型数据评测专家-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

大模型数据评测专家-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位