字节跳动的大模型评测研发工程师-AI数据与安全薪资是多少？

该职位薪资范围为 25k–50k（人民币/月）。

大模型评测研发工程师-AI数据与安全的工作地点在哪里？

该职位工作地点位于杭州市。工作形式为仅现场办公。

字节跳动的大模型评测研发工程师-AI数据与安全有什么任职要求？

该职位要求本科学历及中级经验工作经验。

字节跳动

大模型评测研发工程师-AI数据与安全

立即应聘

大模型评测研发工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

分布式系统

深度学习

自动化测试

全栈开发

LLM

前端框架

中间件

AI Agent

大模型评测

AI 估算 · 25k–50k

大模型赛道热门，字节跳动薪资竞争力强，需要全栈+AI能力，薪资处于行业高位。

职位详情

关于这个职位

负责大模型评测体系的工程基础设施建设，包括评测集管理、评测链路采样、人评/机评能力开发等核心工作

同时探索自动评测与高质量评测集构建等前沿方法，搭建AI Agent以提供端到端的高效自动化交付能力

该岗位需要扎实的全栈开发能力和对大模型技术的深刻理解

最低要求

计算机或相关专业本科及以上学历，具备扎实的编程能力、数据结构与算法基础

具备全栈（前后端、Agent）开发能力，能独立设计开发高性能、高可用的分布式系统，掌握常用的存储与中间件技术，了解前端开发框架，对常用的前后端开发语言有技术鉴赏和判断力

熟悉大模型的原理及应用，具备Agent框架开发经验，能够设计并实现复杂的Agent系统用于解决具体的业务问题

掌握大模型评测相关的关键技术，能够与算法、产品、运营、研发团队高效协作，有技术判断力，具备优秀的系统设计能力和问题解决能力，能够独立分析和解决复杂的工程问题

有良好的业务及产品意识，能够将业务问题转化为定义明确的技术问题，并通过技术手段有效解决

坦诚清晰、积极乐观，责任心强有负责人意识，工作认真细致严谨，具有优秀的团队沟通与协作能力，热爱技术，有较强的学习能力，有强烈的求知欲、好奇心和进取心，能及时关注和学习业界最新技术，对解决挑战性问题充满激情

工作职责

评测体系建设：参与大模型评测的工程基础设施的开发工作，包括评测集的接入、生产、管理，评测对象的链路采样，人评/机评能力建设，评估结果的分析等评测核心能力的开发工作

评测Agent搭建：探索自动评测、高质量评测集构建等前沿评测方法，在评测场景搭建AI Agent，为评测业务提供端到端的高效、自动化的交付能力

优先资格

加分项：

对大模型技术及其应用有浓厚兴趣，有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先

积极参与开源社区，有相关贡献者优先

AI 洞察

优缺点分析

优点

身处AI大模型的最热门方向，技术栈前沿，学习机会多
字节跳动平台资源丰富，业务影响力大，项目落地场景真实
薪资待遇优厚，股票期权等福利完善
团队技术氛围浓厚，可接触业界最新实践
大模型技术迭代快速，需要持续学习，保持技术敏感度
工作强度可能较大，涉及跨团队协作，沟通成本高
评测指标体系构建复杂，需要同时兼顾技术深度和业务理解
适合具备全栈开发经验、对大模型技术有强烈热情、喜欢解决复杂工程问题的技术型人才，尤其是希望在AI评测领域深耕的开发者

缺点 / 挑战

暂无明显挑战项

角色解读

技术深耕：成为大模型评测领域的专家，主导评测基础设施架构演进
管理路线：从技术负责人逐步成长为团队管理者，带领评测团队
跨领域发展：转向AI训练平台、模型部署等相邻领域，扩展技术广度
负责大模型评测平台的基础设施开发，包括评测集管理、评测任务调度、结果分析等核心模块
搭建AI Agent，实现自动化评测、高质量评测集生成等前沿功能
与算法、产品、运营团队协作，将业务需求转化为技术方案并落地
持续优化系统性能，保证评测链路的高效和稳定性
扎实的全栈开发能力，包括后端（如Python/Go）和前端（如React/Vue）技术
熟悉分布式系统设计与常用中间件（如Redis、Kafka、MySQL）
深入理解大模型原理（如Transformer、RLHF）及Agent框架（如LangChain、AutoGPT）
掌握大模型评测方法（如Benchmark、LLM-as-a-Judge），具备业务抽象能力

申请策略

在求职信中表达对大模型评测方向的强烈兴趣，并结合自身经验提出改进思路
提前了解字节跳动大模型业务（如豆包、火山引擎），在面试中展现行业认知
突出全栈项目经验，尤其是分布式系统设计和性能优化案例
强调Agent或大模型相关的开发经历，如评测工具、自动化框架
展示业务落地成果，如将评测效率提升的具体数据
如有开源贡献或技术博客，标注在显眼位置
补充LLM-as-a-Judge相关实践，了解主流评测基准（如MMLU、GSM8K）
学习Agent框架（如LangChain、CrewAI）并动手实现一个评测Agent

面试指南

系统设计题：遵循“需求分析-架构选型-模块划分-细节优化”的框架，强调可扩展性和鲁棒性
经验题：采用STAR原则（情境-任务-行动-结果），突出技术难点和自己的贡献
开放题：先界定问题边界，再分点论述，最后总结可能存在的不足和未来方向
如何设计一个高并发的大模型评测系统？请从架构层面展开
请描述一次你使用Agent解决复杂业务问题的经历，遇到了哪些挑战？
你如何评估一个AI Agent的评测结果是否可靠？
对LLM-as-a-Judge方法有什么理解？它有哪些局限性？
假设需要评测一个多轮对话模型，你会设计哪些指标？

职位点评

综合评分

大模型评测前沿岗位，技术成长空间大，薪资竞争力强，但工作强度较高。

更适合这类人

适合追求技术成长、渴望在大模型前沿领域挑战自己的开发者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展90

工作生活40

使命价值70

薪资福利

70中等

字节跳动薪资水平在行业中处于领先地位，但JD未明确具体薪资，且未提及福利。

薪资信号未披露（AI估算：25K-50K/月）

成长发展

90较高

岗位涉及大模型评测前沿技术，能深入接触AI Agent和分布式系统，成长空间大。

技术前沿前沿/新兴技术

技术栈大模型、AI Agent、分布式系统、LLM、全栈开发

业务类型ambiguous

工作生活

40较低

字节跳动为互联网大厂，通常工作强度较高，JD未提及弹性办公或WLB。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

大模型评测属于AI核心领域，对行业有直接推动作用，但JD未突出社会价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型评测研发工程师-AI数据与安全

立即应聘

大模型评测研发工程师-AI数据与安全

发布于大约 2 个月前

普通员工/个人贡献者

杭州市

中级经验

全职员工

仅现场办公

本科

软件工程

分布式系统

深度学习

自动化测试

全栈开发

LLM

前端框架

中间件

AI Agent

大模型评测

AI 估算 · 25k–50k

大模型赛道热门，字节跳动薪资竞争力强，需要全栈+AI能力，薪资处于行业高位。

职位详情

关于这个职位

负责大模型评测体系的工程基础设施建设，包括评测集管理、评测链路采样、人评/机评能力开发等核心工作

同时探索自动评测与高质量评测集构建等前沿方法，搭建AI Agent以提供端到端的高效自动化交付能力

该岗位需要扎实的全栈开发能力和对大模型技术的深刻理解

最低要求

计算机或相关专业本科及以上学历，具备扎实的编程能力、数据结构与算法基础

熟悉大模型的原理及应用，具备Agent框架开发经验，能够设计并实现复杂的Agent系统用于解决具体的业务问题

有良好的业务及产品意识，能够将业务问题转化为定义明确的技术问题，并通过技术手段有效解决

工作职责

评测Agent搭建：探索自动评测、高质量评测集构建等前沿评测方法，在评测场景搭建AI Agent，为评测业务提供端到端的高效、自动化的交付能力

优先资格

加分项：

对大模型技术及其应用有浓厚兴趣，有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先

积极参与开源社区，有相关贡献者优先

AI 洞察

优缺点分析

优点

身处AI大模型的最热门方向，技术栈前沿，学习机会多
字节跳动平台资源丰富，业务影响力大，项目落地场景真实
薪资待遇优厚，股票期权等福利完善
团队技术氛围浓厚，可接触业界最新实践
大模型技术迭代快速，需要持续学习，保持技术敏感度
工作强度可能较大，涉及跨团队协作，沟通成本高
评测指标体系构建复杂，需要同时兼顾技术深度和业务理解
适合具备全栈开发经验、对大模型技术有强烈热情、喜欢解决复杂工程问题的技术型人才，尤其是希望在AI评测领域深耕的开发者

缺点 / 挑战

暂无明显挑战项

角色解读

技术深耕：成为大模型评测领域的专家，主导评测基础设施架构演进
管理路线：从技术负责人逐步成长为团队管理者，带领评测团队
跨领域发展：转向AI训练平台、模型部署等相邻领域，扩展技术广度
负责大模型评测平台的基础设施开发，包括评测集管理、评测任务调度、结果分析等核心模块
搭建AI Agent，实现自动化评测、高质量评测集生成等前沿功能
与算法、产品、运营团队协作，将业务需求转化为技术方案并落地
持续优化系统性能，保证评测链路的高效和稳定性
扎实的全栈开发能力，包括后端（如Python/Go）和前端（如React/Vue）技术
熟悉分布式系统设计与常用中间件（如Redis、Kafka、MySQL）
深入理解大模型原理（如Transformer、RLHF）及Agent框架（如LangChain、AutoGPT）
掌握大模型评测方法（如Benchmark、LLM-as-a-Judge），具备业务抽象能力

申请策略

在求职信中表达对大模型评测方向的强烈兴趣，并结合自身经验提出改进思路
提前了解字节跳动大模型业务（如豆包、火山引擎），在面试中展现行业认知
突出全栈项目经验，尤其是分布式系统设计和性能优化案例
强调Agent或大模型相关的开发经历，如评测工具、自动化框架
展示业务落地成果，如将评测效率提升的具体数据
如有开源贡献或技术博客，标注在显眼位置
补充LLM-as-a-Judge相关实践，了解主流评测基准（如MMLU、GSM8K）
学习Agent框架（如LangChain、CrewAI）并动手实现一个评测Agent

面试指南

系统设计题：遵循“需求分析-架构选型-模块划分-细节优化”的框架，强调可扩展性和鲁棒性
经验题：采用STAR原则（情境-任务-行动-结果），突出技术难点和自己的贡献
开放题：先界定问题边界，再分点论述，最后总结可能存在的不足和未来方向
如何设计一个高并发的大模型评测系统？请从架构层面展开
请描述一次你使用Agent解决复杂业务问题的经历，遇到了哪些挑战？
你如何评估一个AI Agent的评测结果是否可靠？
对LLM-as-a-Judge方法有什么理解？它有哪些局限性？
假设需要评测一个多轮对话模型，你会设计哪些指标？

职位点评

综合评分

大模型评测前沿岗位，技术成长空间大，薪资竞争力强，但工作强度较高。

更适合这类人

适合追求技术成长、渴望在大模型前沿领域挑战自己的开发者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展90

工作生活40

使命价值70

薪资福利

70中等

字节跳动薪资水平在行业中处于领先地位，但JD未明确具体薪资，且未提及福利。

薪资信号未披露（AI估算：25K-50K/月）

成长发展

90较高

岗位涉及大模型评测前沿技术，能深入接触AI Agent和分布式系统，成长空间大。

技术前沿前沿/新兴技术

技术栈大模型、AI Agent、分布式系统、LLM、全栈开发

业务类型ambiguous

工作生活

40较低

字节跳动为互联网大厂，通常工作强度较高，JD未提及弹性办公或WLB。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

70中等

大模型评测属于AI核心领域，对行业有直接推动作用，但JD未突出社会价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型评测研发工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型评测研发工程师-AI数据与安全

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Agent 平台架构师

AI应用开发工程师-汽车专项-实习

混元AI Agent Harness Engineer（北京/深圳））

AI应用工程师

Java开发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Agent 平台架构师

AI应用开发工程师-汽车专项-实习

混元AI Agent Harness Engineer（北京/深圳））

AI应用工程师

Java开发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位