字节跳动的大模型评测研发工程师-AI数据与安全薪资是多少？

该职位薪资范围为 30k–55k（人民币/月）。

大模型评测研发工程师-AI数据与安全的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的大模型评测研发工程师-AI数据与安全有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型评测研发工程师-AI数据与安全

立即应聘

大模型评测研发工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Llm-As-A-Judge

全栈开发

分布式系统

前后端开发

大模型评测

数据结构与算法

自动化评测

AI Agent

LLM

AI 估算 · 30k–55k

大模型岗位市场需求旺盛，字节跳动薪资竞争力强，但对技术能力要求高，薪资在行业中上水平。

职位详情

关于这个职位

该职位专注于大模型评测体系的工程基础设施开发，包括评测集管理、评测链路采样、自动评测能力建设，并探索AI Agent在评测场景中的应用，实现高效自动化的评测交付

你将与算法、产品、运营团队紧密协作，解决复杂的工程问题，推动大模型评测技术的进步

适合具备全栈开发能力、熟悉大模型与Agent技术、热爱挑战的工程师

最低要求

计算机或相关专业本科及以上学历，具备扎实的编程能力、数据结构与算法基础

具备全栈（前后端、Agent）开发能力，能独立设计开发高性能、高可用的分布式系统，掌握常用的存储与中间件技术，了解前端开发框架，对常用的前后端开发语言有技术鉴赏和判断力

熟悉大模型的原理及应用，具备Agent框架开发经验，能够设计并实现复杂的Agent系统用于解决具体的业务问题

掌握大模型评测相关的关键技术，能够与算法、产品、运营、研发团队高效协作，有技术判断力，具备优秀的系统设计能力和问题解决能力，能够独立分析和解决复杂的工程问题

有良好的业务及产品意识，能够将业务问题转化为定义明确的技术问题，并通过技术手段有效解决

坦诚清晰、积极乐观，责任心强有主人翁意识，工作认真细致严谨，具有优秀的团队沟通与协作能力，热爱技术，有较强的学习能力，有强烈的求知欲、好奇心和进取心，能及时关注和学习业界最新技术，对解决挑战性问题充满激情

工作职责

评测体系建设：参与大模型评测的工程基础设施的开发工作，包括评测集的接入、生产、管理，评测对象的链路采样，人评/机评能力建设，评估结果的分析等评测核心能力的开发工作

评测Agent搭建：探索自动评测、高质量评测集构建等前沿评测方法，在评测场景搭建AI Agent，为评测业务提供端到端的高效、自动化的交付能力

优先资格

加分项：

对大模型技术及其应用有浓厚兴趣，有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先

积极参与开源社区，有相关贡献者优先

AI 洞察

优缺点分析

优点

字节跳动平台资源丰富，项目影响力大，能快速提升个人能力
薪资竞争力强，福利待遇好，职业发展空间广阔
技术栈要求全面，全栈+Agent+大模型，学习曲线陡峭
行业变化快，需持续跟进最新技术，保持学习状态

缺点 / 挑战

处于AI技术最前沿，接触大模型评测核心挑战，技术积累价值高
高压力环境下工作，需要快速迭代和解决复杂问题
适合技术驱动型、热爱挑战、具备全栈能力和大模型背景的工程师，追求前沿技术和高回报

角色解读

技术方向：成为大模型评测领域的专家，主导评测平台架构演进
管理方向：升级为技术Leader，带领评测研发团队
跨领域发展：向大模型训练、推理优化或AI安全等方向拓展
负责大模型评测基础设施的开发，包括评测集管理、链路采样和自动评测能力建设
搭建AI Agent来优化评测流程，实现端到端的自动化和高效交付
与算法、产品、运营等团队协作，将业务需求转化为技术方案并落地
扎实的编程能力，精通数据结构与算法，能独立设计高性能分布式系统
全栈开发能力，熟悉前后端框架及中间件技术
深入理解大模型原理，具备Agent框架开发经验，能设计复杂Agent系统
了解大模型评测方法，有技术判断力和问题解决能力

申请策略

在简历中量化成果，如评测效率提升百分比
了解字节跳动AI数据与安全团队的业务方向，在面试中展示对评测业务的理解
突出全栈开发项目经验，尤其是高性能分布式系统的设计和实现
强调Agent框架开发或大模型应用相关经历，展示技术深度
提及开源贡献或参与评测体系建设的成果
补强Agent开发经验，学习LangChain、AutoGPT等框架
深化对大模型评测方法的理解，了解LLM-as-a-judge等前沿方向
提升系统设计能力，熟悉分布式系统常见模式

面试指南

STAR法则：描述情境、任务、行动、结果，突出技术挑战和解决方案
结构化分析：先拆解问题，再分点论述，最后总结要点
结合实际案例：引用以往项目经验，展示技术判断力和落地能力
请描述一个你设计的高性能分布式系统，如何处理高并发和数据一致性？
如何设计一个Agent系统来自动化执行大模型评测？
你如何理解大模型评测中的LLM-as-a-judge？请举例说明其优缺点
给定一个业务需求，如何将其转化为技术方案并评估可行性？
请谈谈你对大模型技术趋势的看法，以及评测在其中扮演的角色

职位点评

综合评分

字节跳动大模型评测岗，前沿技术栈，高薪但WLB一般，适合技术狂热者。

更适合这类人

适合追求技术前沿和快速成长的求职者，愿意为高回报接受高强度工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展85

工作生活40

使命价值70

薪资福利

75中等

薪资未披露，但字节跳动作为大厂通常提供高薪和优厚福利，但JD中无明确薪资信息，存在一定不确定性。

薪资信号未披露（AI估算：30K-55K/月）

成长发展

85较高

岗位涉及前沿大模型评测技术和Agent开发，技术成长空间大，但JD中未提及明确晋升通道或培训体系。

技术前沿前沿/新兴技术

技术栈大模型、AI Agent、全栈、分布式系统、LLM、数据结构、算法、自动评测

业务类型ambiguous

工作生活

40较低

工作模式为现场办公，未提及弹性工作或远程，字节跳动工作强度较高，生活平衡可能较难。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

大模型是高速增长赛道，岗位对社会智能化有间接贡献，但JD未提及使命或社会价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型评测研发工程师-AI数据与安全

立即应聘

大模型评测研发工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

上海市

中级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Llm-As-A-Judge

全栈开发

分布式系统

前后端开发

大模型评测

数据结构与算法

自动化评测

AI Agent

LLM

AI 估算 · 30k–55k

大模型岗位市场需求旺盛，字节跳动薪资竞争力强，但对技术能力要求高，薪资在行业中上水平。

职位详情

关于这个职位

你将与算法、产品、运营团队紧密协作，解决复杂的工程问题，推动大模型评测技术的进步

适合具备全栈开发能力、熟悉大模型与Agent技术、热爱挑战的工程师

最低要求

计算机或相关专业本科及以上学历，具备扎实的编程能力、数据结构与算法基础

熟悉大模型的原理及应用，具备Agent框架开发经验，能够设计并实现复杂的Agent系统用于解决具体的业务问题

有良好的业务及产品意识，能够将业务问题转化为定义明确的技术问题，并通过技术手段有效解决

工作职责

评测Agent搭建：探索自动评测、高质量评测集构建等前沿评测方法，在评测场景搭建AI Agent，为评测业务提供端到端的高效、自动化的交付能力

优先资格

加分项：

对大模型技术及其应用有浓厚兴趣，有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先

积极参与开源社区，有相关贡献者优先

AI 洞察

优缺点分析

优点

字节跳动平台资源丰富，项目影响力大，能快速提升个人能力
薪资竞争力强，福利待遇好，职业发展空间广阔
技术栈要求全面，全栈+Agent+大模型，学习曲线陡峭
行业变化快，需持续跟进最新技术，保持学习状态

缺点 / 挑战

处于AI技术最前沿，接触大模型评测核心挑战，技术积累价值高
高压力环境下工作，需要快速迭代和解决复杂问题
适合技术驱动型、热爱挑战、具备全栈能力和大模型背景的工程师，追求前沿技术和高回报

角色解读

技术方向：成为大模型评测领域的专家，主导评测平台架构演进
管理方向：升级为技术Leader，带领评测研发团队
跨领域发展：向大模型训练、推理优化或AI安全等方向拓展
负责大模型评测基础设施的开发，包括评测集管理、链路采样和自动评测能力建设
搭建AI Agent来优化评测流程，实现端到端的自动化和高效交付
与算法、产品、运营等团队协作，将业务需求转化为技术方案并落地
扎实的编程能力，精通数据结构与算法，能独立设计高性能分布式系统
全栈开发能力，熟悉前后端框架及中间件技术
深入理解大模型原理，具备Agent框架开发经验，能设计复杂Agent系统
了解大模型评测方法，有技术判断力和问题解决能力

申请策略

在简历中量化成果，如评测效率提升百分比
了解字节跳动AI数据与安全团队的业务方向，在面试中展示对评测业务的理解
突出全栈开发项目经验，尤其是高性能分布式系统的设计和实现
强调Agent框架开发或大模型应用相关经历，展示技术深度
提及开源贡献或参与评测体系建设的成果
补强Agent开发经验，学习LangChain、AutoGPT等框架
深化对大模型评测方法的理解，了解LLM-as-a-judge等前沿方向
提升系统设计能力，熟悉分布式系统常见模式

面试指南

STAR法则：描述情境、任务、行动、结果，突出技术挑战和解决方案
结构化分析：先拆解问题，再分点论述，最后总结要点
结合实际案例：引用以往项目经验，展示技术判断力和落地能力
请描述一个你设计的高性能分布式系统，如何处理高并发和数据一致性？
如何设计一个Agent系统来自动化执行大模型评测？
你如何理解大模型评测中的LLM-as-a-judge？请举例说明其优缺点
给定一个业务需求，如何将其转化为技术方案并评估可行性？
请谈谈你对大模型技术趋势的看法，以及评测在其中扮演的角色

职位点评

综合评分

字节跳动大模型评测岗，前沿技术栈，高薪但WLB一般，适合技术狂热者。

更适合这类人

适合追求技术前沿和快速成长的求职者，愿意为高回报接受高强度工作。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展85

工作生活40

使命价值70

薪资福利

75中等

薪资未披露，但字节跳动作为大厂通常提供高薪和优厚福利，但JD中无明确薪资信息，存在一定不确定性。

薪资信号未披露（AI估算：30K-55K/月）

成长发展

85较高

岗位涉及前沿大模型评测技术和Agent开发，技术成长空间大，但JD中未提及明确晋升通道或培训体系。

技术前沿前沿/新兴技术

技术栈大模型、AI Agent、全栈、分布式系统、LLM、数据结构、算法、自动评测

业务类型ambiguous

工作生活

40较低

工作模式为现场办公，未提及弹性工作或远程，字节跳动工作强度较高，生活平衡可能较难。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

大模型是高速增长赛道，岗位对社会智能化有间接贡献，但JD未提及使命或社会价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型评测研发工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型评测研发工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动的其他在招职位

字节跳动的其他在招职位