字节跳动的大模型与Agent评测基础设施算法工程师-Commercial AI薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

大模型与Agent评测基础设施算法工程师-Commercial AI的工作地点在哪里？

该职位工作地点位于上海市。工作形式为仅现场办公。

字节跳动的大模型与Agent评测基础设施算法工程师-Commercial AI有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

大模型与Agent评测基础设施算法工程师-Commercial AI

立即应聘

大模型与Agent评测基础设施算法工程师-Commercial AI

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

Pipeline

Sandbox

任务编排

大模型

工程化

系统设计

评测

Judge

AI 估算 · 30k–50k

大模型算法岗，字节大厂薪资竞争力强，月薪30k-50k，15薪，匹配高级经验与前沿方向。

职位详情

关于这个职位

该职位负责建设大模型与Agent的评测基础设施，将评估设计转化为稳定可扩展的执行系统，并设计自动化评测流水线

工作涉及复杂后端系统开发、任务编排和沙箱环境构建，需要扎实的工程能力与跨团队协作

适合有大模型或评测平台经验的技术专家，追求长期投入评估基础设施方向

最低要求

计算机相关专业，具备扎实软件系统与工程实现基础

熟练使用Python，有服务/平台开发、数据处理或Pipeline建设经验

有大模型、Agent、评测平台、仿真环境或复杂后端系统开发经验

重视代码质量、系统设计、稳定性、可维护性与线上可观测

能将研究方案工程化落地，擅长跨团队协作推进复杂项目

愿意长期建设评估基础设施，相关领域经验与开源成果优先

工作职责

参与建设面向大模型与Agent的评测基础设施，将评估设计转化为稳定、可扩展、可观测、可复用的执行系统

负责已定义评估方法的稳定运行及结果接入研发流程，重点建设可复用的评测流水线与任务编排能力，持续完善Judge、Sandbox、风险检测等关键执行组件，提升实验执行的稳定性、可观测性与结果追溯能力

参与将复杂任务流程和Agent交互过程抽象为可执行评估环境，设计并实现大模型/Agent自动评测流水线，工程化落地Judge system、Sandbox、风险检测等关键组件，支撑多模型、多策略、多环境配置下的大规模实验执行

日常工作中定位失败任务、排查模型调用链路、修复评分流程和提升实验可复现性，与研究员协作将评估想法拆分为任务定义、输入输出协议、执行逻辑和监控指标，在研究需求和系统稳定性间寻找平衡

优先资格

AI 洞察

优缺点分析

优点

参与大模型前沿技术，积累Agent评估和自动化测试的稀缺经验
团队注重工程质量和系统设计，利于个人技术成长
评测基础设施需要平衡研究灵活性与系统稳定性，技术深度和广度要求高
大模型领域迭代快，需持续跟进最新技术与方法
适合有后端工程基础、对AI评测有浓厚兴趣、追求技术深度和系统建设成就感的技术人才

缺点 / 挑战

字节跳动平台资源丰富，项目影响力大，技术挑战高
跨团队协作频繁，沟通成本较高

角色解读

在评测基础设施领域深耕，成为大模型质量保障与自动化评估的技术专家
横向扩展至AI Infra或模型训练平台，参与更广泛的AI系统架构设计
向技术管理方向发展，带领团队建设更完善的评测体系
设计和实现大模型与Agent的评测流水线，将评估方案转化为稳定可执行的系统
开发并维护Judge、Sandbox等关键组件，支持大规模实验的自动化执行与结果追溯
与研究员协作，拆解评估需求为任务定义和监控指标，平衡研究创新与系统稳定性
扎实的Python编程能力和系统设计能力，能构建高可用、可观测的后端服务
熟悉大模型、Agent或评测平台开发，有复杂Pipeline或仿真环境经验
重视代码质量与工程落地，能跨团队推动复杂项目

申请策略

在简历中明确体现对评测基础设施长期建设的热情，并准备相关的技术方案思考
了解字节跳动AI评估方向的产品（如豆包），思考其评测挑战
突出Python后端开发经验，尤其是大型系统或平台建设的项目
强调大模型、Agent或评测相关项目经历，包括开源贡献
展示系统设计能力，如可扩展性、稳定性、可观测性方面的实践
补充大模型API调用、Agent框架（如LangChain）的使用经验
学习任务编排系统（如Airflow、Prefect）和容器化技术（Docker、K8s）

面试指南

针对系统设计问题，可遵循需求分析、架构选择、关键组件（如Judge、Sandbox）、扩展性考量等步骤展开
对于排查问题，强调日志系统、监控指标、链路追踪的具体方法
对于平衡问题，可以提出解耦设计、配置化、灰度机制等策略
如何设计一个可扩展的大模型评测流水线？
如何保证评测结果的可复现性和可追溯性？
面对评测任务失败，排查思路是什么？
如何平衡研究需求与系统稳定性？
你参与过哪些AI相关系统的工程化落地？

职位点评

综合评分

大厂大模型评测基础设施，技术前沿发展好，薪资有竞争力，但WLB一般。

更适合这类人

适合优先看重技术成长和前沿方向，对薪资有较高预期，且能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值65

薪资福利

75中等

字节跳动薪资水平在行业内具有竞争力，但职位描述未明确薪资与福利，需在面试中确认。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

该职位聚焦大模型与Agent评测前沿技术，是AI领域的核心方向，技术成长空间巨大。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测、Pipeline、Sandbox、Judge

业务类型cost_center

工作生活

50较低

未提及远程或弹性办公，地点上海，互联网公司工作节奏可能较快，WLB不确定。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

65中等

大模型评测对AI安全与质量有重要意义，但职位本身偏基础设施，直接社会影响力一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型与Agent评测基础设施算法工程师-Commercial AI

立即应聘

大模型与Agent评测基础设施算法工程师-Commercial AI

发布于大约 2 个月前

普通员工/个人贡献者

上海市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

Pipeline

Sandbox

任务编排

大模型

工程化

系统设计

评测

Judge

AI 估算 · 30k–50k

大模型算法岗，字节大厂薪资竞争力强，月薪30k-50k，15薪，匹配高级经验与前沿方向。

职位详情

关于这个职位

该职位负责建设大模型与Agent的评测基础设施，将评估设计转化为稳定可扩展的执行系统，并设计自动化评测流水线

工作涉及复杂后端系统开发、任务编排和沙箱环境构建，需要扎实的工程能力与跨团队协作

适合有大模型或评测平台经验的技术专家，追求长期投入评估基础设施方向

最低要求

计算机相关专业，具备扎实软件系统与工程实现基础

熟练使用Python，有服务/平台开发、数据处理或Pipeline建设经验

有大模型、Agent、评测平台、仿真环境或复杂后端系统开发经验

重视代码质量、系统设计、稳定性、可维护性与线上可观测

能将研究方案工程化落地，擅长跨团队协作推进复杂项目

愿意长期建设评估基础设施，相关领域经验与开源成果优先

工作职责

参与建设面向大模型与Agent的评测基础设施，将评估设计转化为稳定、可扩展、可观测、可复用的执行系统

优先资格

AI 洞察

优缺点分析

优点

参与大模型前沿技术，积累Agent评估和自动化测试的稀缺经验
团队注重工程质量和系统设计，利于个人技术成长
评测基础设施需要平衡研究灵活性与系统稳定性，技术深度和广度要求高
大模型领域迭代快，需持续跟进最新技术与方法
适合有后端工程基础、对AI评测有浓厚兴趣、追求技术深度和系统建设成就感的技术人才

缺点 / 挑战

字节跳动平台资源丰富，项目影响力大，技术挑战高
跨团队协作频繁，沟通成本较高

角色解读

在评测基础设施领域深耕，成为大模型质量保障与自动化评估的技术专家
横向扩展至AI Infra或模型训练平台，参与更广泛的AI系统架构设计
向技术管理方向发展，带领团队建设更完善的评测体系
设计和实现大模型与Agent的评测流水线，将评估方案转化为稳定可执行的系统
开发并维护Judge、Sandbox等关键组件，支持大规模实验的自动化执行与结果追溯
与研究员协作，拆解评估需求为任务定义和监控指标，平衡研究创新与系统稳定性
扎实的Python编程能力和系统设计能力，能构建高可用、可观测的后端服务
熟悉大模型、Agent或评测平台开发，有复杂Pipeline或仿真环境经验
重视代码质量与工程落地，能跨团队推动复杂项目

申请策略

在简历中明确体现对评测基础设施长期建设的热情，并准备相关的技术方案思考
了解字节跳动AI评估方向的产品（如豆包），思考其评测挑战
突出Python后端开发经验，尤其是大型系统或平台建设的项目
强调大模型、Agent或评测相关项目经历，包括开源贡献
展示系统设计能力，如可扩展性、稳定性、可观测性方面的实践
补充大模型API调用、Agent框架（如LangChain）的使用经验
学习任务编排系统（如Airflow、Prefect）和容器化技术（Docker、K8s）

面试指南

针对系统设计问题，可遵循需求分析、架构选择、关键组件（如Judge、Sandbox）、扩展性考量等步骤展开
对于排查问题，强调日志系统、监控指标、链路追踪的具体方法
对于平衡问题，可以提出解耦设计、配置化、灰度机制等策略
如何设计一个可扩展的大模型评测流水线？
如何保证评测结果的可复现性和可追溯性？
面对评测任务失败，排查思路是什么？
如何平衡研究需求与系统稳定性？
你参与过哪些AI相关系统的工程化落地？

职位点评

综合评分

大厂大模型评测基础设施，技术前沿发展好，薪资有竞争力，但WLB一般。

更适合这类人

适合优先看重技术成长和前沿方向，对薪资有较高预期，且能接受一定工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展90

工作生活50

使命价值65

薪资福利

75中等

字节跳动薪资水平在行业内具有竞争力，但职位描述未明确薪资与福利，需在面试中确认。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

该职位聚焦大模型与Agent评测前沿技术，是AI领域的核心方向，技术成长空间巨大。

技术前沿前沿/新兴技术

技术栈大模型、Agent、评测、Pipeline、Sandbox、Judge

业务类型cost_center

工作生活

50较低

未提及远程或弹性办公，地点上海，互联网公司工作节奏可能较快，WLB不确定。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值

65中等

大模型评测对AI安全与质量有重要意义，但职位本身偏基础设施，直接社会影响力一般。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型与Agent评测基础设施算法工程师-Commercial AI

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型与Agent评测基础设施算法工程师-Commercial AI

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Industrial Engineering ES

Plastic welding Engineer - Process

飞控平台系统工程师

大模型算法工程师（多模态）

Coordinator Engineering Electric

字节跳动的其他在招职位

字节跳动的其他在招职位