字节跳动的大模型/Agent评测工程师-剪映薪资是多少？

该职位薪资范围为 25k–50k（人民币/月）。

大模型/Agent评测工程师-剪映的工作地点在哪里？

该职位工作地点位于深圳市。工作形式为仅现场办公。

字节跳动的大模型/Agent评测工程师-剪映有什么任职要求？

该职位要求本科学历及其它工作经验。

字节跳动

大模型/Agent评测工程师-剪映

立即应聘

大模型/Agent评测工程师-剪映

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

其它

全职员工

仅现场办公

本科

软件工程

Llm-As-A-Judge

Prompt Engineering

大模型

机器学习

评测体系

AI 估算 · 25k–50k

字节跳动大厂AI方向，薪资竞争力强，但技术深度要求高，月薪2.5-5万，15薪。

职位详情

关于这个职位

该职位负责大模型与Agent的评测体系建设，包括制定评测标准、构建评测集、开发评估能力，并对评测结果进行深度分析与归因，以推动模型能力的持续提升

你将与算法、产品等团队紧密协作，跟踪前沿评测技术，输出改进建议

适合对大模型技术有深入理解、热爱评测与质量保障的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、软件工程等相关专业

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

具备良好的业务理解能力、沟通与协作能力，能够与算法、产品、运营、研发团队高效协作，有技术判断力，逻辑思维清晰，学习能力强，能够推动评测体系在业务中的落地

坦诚清晰、积极乐观，责任心强、有主人翁意识，工作认真细致严谨，热爱技术，有较强的学习能力，有强烈的求知欲、好奇心和进取心，能及时关注和学习业界最新技术，对解决挑战性问题充满激情

工作职责

通用评测体系建设：包括评测标准，评测集，评估能力，评测结果分析与归因等系列能力建设，跟踪前沿评测技术与Benchmark趋势，开展技术调研与创新实践，推动评测体系升级

评测分析：基于评测结果进行分析与诊断，挖掘模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

优先资格

对大模型技术及其应用有浓厚兴趣，有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-Judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先

积极参与开源社区，有相关贡献者优先

AI 洞察

优缺点分析

优点

身处AI最热门的大模型赛道，技术前沿，能接触到最新的技术趋势和行业实践
字节跳动平台大，资源丰富，有完善的培训和技术氛围，个人成长快
评测岗位稀缺性强，积累的经验具有高价值，未来跳槽或转型都很有竞争力
工作强度较大，互联网大厂节奏快，可能需要应对紧急评测任务和频繁迭代
技术深度要求高，需要持续学习，快速跟进前沿论文和开源项目
评测工作有时被认为不如算法研发“核心”，需注意定位和发展
适合对大模型技术有浓厚兴趣、热爱钻研、注重细节、乐于通过评测推动技术进步的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

在AI评测领域深耕，成为评测技术专家，主导行业评测标准制定
横向拓展至模型训练、数据工程等方向，成长为全栈AI工程师或算法负责人
向管理路线发展，带领评测团队，负责QA与效能改进
设计和构建大模型与Agent的评测标准、数据集及自动化评估工具，确保模型能力的全面验证
对评测结果进行深度分析与归因，定位模型在推理、规划、代码执行等环节的缺陷，并提出改进方向
跟踪学术界和工业界的最新评测技术（如Benchmark、LLM-as-a-Judge），推动评测体系持续升级
扎实的机器学习和大模型基础，理解Transformer、RLHF等核心原理，熟悉常见评测方法论
优秀的工程能力，能使用Python等语言搭建评测框架，具备系统设计思维
良好的跨团队协作能力，能与算法、产品、运营高效沟通，推动问题闭环

申请策略

在面试中展现对大模型评测的深刻理解，并准备一个你设计的评测方案或对现有方法的改进建议
了解字节剪映的业务方向，将评测与产品实际场景结合，体现业务导向思维
重点突出你在NLP/大模型相关的项目经验，尤其是涉及评测、评估、Benchmark的经历
展示工程能力，列出你搭建的自动化测试框架、数据分析工具等
如果有开源贡献、技术博客或参加相关竞赛的经历，务必提及
强调跨团队协作和推动落地的案例，体现你的沟通和问题解决能力
尽快熟悉LLM-as-Judge、RLHF中的奖励模型评测等前沿方法
动手搭建一个简单的Agent评测Demo，例如用LangChain评估工具调用准确性

面试指南

对于评测设计问题：先明确评测目标（能力维度），再选择或构建评测集（覆盖常见/边缘场景），定义自动评估指标（准确率、鲁棒性、效率），最后设计人工抽检流程
对于分析问题：采用“数据-模型-场景”三层归因法，先检查测试数据质量，再分析模型输出模式，最后联系实际使用场景定位根因
你如何设计一个大模型在特定业务场景下的评测方案？请举例说明
请解释LLM-as-Judge的原理和局限性，如何提高其评估准确性？
当你发现模型在某个测试集上表现不佳时，如何分析原因并确定改进方向？
你参与过的项目中，评测体系遇到的最大挑战是什么？是如何解决的？
你对当前主流的Agent评测方法（如ToolBench、AgentBench）有什么看法？
深入学习至少一个主流大模型（如GPT、Llama、Qwen）的论文和评测报告，熟悉其能力边界

职位点评

综合评分

字节剪映大模型评测岗，前沿技术、薪资优厚，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术成长、看重薪资和行业前景、能接受高工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值80

薪资福利

85较高

字节跳动薪资福利在行业中处于领先水平，但JD未明确披露具体待遇，属于高潜岗位。

薪资信号未披露（AI估算：25K-50K/月）

成长发展

90较高

技术方向处于AI最前沿，涉及大模型和Agent，能快速积累核心技能，但JD未提及培训或晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、评测

业务类型ambiguous

工作生活

50较低

大厂常伴高强度工作，JD未提及工作弹性，且深圳办公地点多在核心区，通勤可能较远。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

80较高

AI行业整体高速增长，大模型评测对技术发展有正向推动作用，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

大模型/Agent评测工程师-剪映

立即应聘

大模型/Agent评测工程师-剪映

发布于大约 2 个月前

普通员工/个人贡献者

深圳市

其它

全职员工

仅现场办公

本科

软件工程

Llm-As-A-Judge

Prompt Engineering

大模型

机器学习

评测体系

AI 估算 · 25k–50k

字节跳动大厂AI方向，薪资竞争力强，但技术深度要求高，月薪2.5-5万，15薪。

职位详情

关于这个职位

你将与算法、产品等团队紧密协作，跟踪前沿评测技术，输出改进建议

适合对大模型技术有深入理解、热爱评测与质量保障的技术人才

最低要求

本科及以上学历，计算机科学、人工智能、软件工程等相关专业

对主流大模型的原理、能力边界及典型应用场景有较深入理解，熟悉大模型与Agent的常见评测方法

具备良好的工程基础，能够参与或主导评测框架、工具或平台的设计与实现

工作职责

评测分析：基于评测结果进行分析与诊断，挖掘模型或Agent在推理、规划、工具调用、代码执行等环节的问题，并输出改进建议

优先资格

对大模型技术及其应用有浓厚兴趣，有Agent及大模型评测体系建设经验、熟悉大模型训练、或熟悉LLM-as-a-Judge相关经验者优先

有Agent在复杂业务场景的落地经验或多Agent系统设计经验的优先

积极参与开源社区，有相关贡献者优先

AI 洞察

优缺点分析

优点

身处AI最热门的大模型赛道，技术前沿，能接触到最新的技术趋势和行业实践
字节跳动平台大，资源丰富，有完善的培训和技术氛围，个人成长快
评测岗位稀缺性强，积累的经验具有高价值，未来跳槽或转型都很有竞争力
工作强度较大，互联网大厂节奏快，可能需要应对紧急评测任务和频繁迭代
技术深度要求高，需要持续学习，快速跟进前沿论文和开源项目
评测工作有时被认为不如算法研发“核心”，需注意定位和发展
适合对大模型技术有浓厚兴趣、热爱钻研、注重细节、乐于通过评测推动技术进步的工程师

缺点 / 挑战

暂无明显挑战项

角色解读

在AI评测领域深耕，成为评测技术专家，主导行业评测标准制定
横向拓展至模型训练、数据工程等方向，成长为全栈AI工程师或算法负责人
向管理路线发展，带领评测团队，负责QA与效能改进
设计和构建大模型与Agent的评测标准、数据集及自动化评估工具，确保模型能力的全面验证
对评测结果进行深度分析与归因，定位模型在推理、规划、代码执行等环节的缺陷，并提出改进方向
跟踪学术界和工业界的最新评测技术（如Benchmark、LLM-as-a-Judge），推动评测体系持续升级
扎实的机器学习和大模型基础，理解Transformer、RLHF等核心原理，熟悉常见评测方法论
优秀的工程能力，能使用Python等语言搭建评测框架，具备系统设计思维
良好的跨团队协作能力，能与算法、产品、运营高效沟通，推动问题闭环

申请策略

在面试中展现对大模型评测的深刻理解，并准备一个你设计的评测方案或对现有方法的改进建议
了解字节剪映的业务方向，将评测与产品实际场景结合，体现业务导向思维
重点突出你在NLP/大模型相关的项目经验，尤其是涉及评测、评估、Benchmark的经历
展示工程能力，列出你搭建的自动化测试框架、数据分析工具等
如果有开源贡献、技术博客或参加相关竞赛的经历，务必提及
强调跨团队协作和推动落地的案例，体现你的沟通和问题解决能力
尽快熟悉LLM-as-Judge、RLHF中的奖励模型评测等前沿方法
动手搭建一个简单的Agent评测Demo，例如用LangChain评估工具调用准确性

面试指南

对于评测设计问题：先明确评测目标（能力维度），再选择或构建评测集（覆盖常见/边缘场景），定义自动评估指标（准确率、鲁棒性、效率），最后设计人工抽检流程
对于分析问题：采用“数据-模型-场景”三层归因法，先检查测试数据质量，再分析模型输出模式，最后联系实际使用场景定位根因
你如何设计一个大模型在特定业务场景下的评测方案？请举例说明
请解释LLM-as-Judge的原理和局限性，如何提高其评估准确性？
当你发现模型在某个测试集上表现不佳时，如何分析原因并确定改进方向？
你参与过的项目中，评测体系遇到的最大挑战是什么？是如何解决的？
你对当前主流的Agent评测方法（如ToolBench、AgentBench）有什么看法？
深入学习至少一个主流大模型（如GPT、Llama、Qwen）的论文和评测报告，熟悉其能力边界

职位点评

综合评分

字节剪映大模型评测岗，前沿技术、薪资优厚，但工作强度大、WLB一般。

更适合这类人

该职位最适合追求技术成长、看重薪资和行业前景、能接受高工作强度的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展90

工作生活50

使命价值80

薪资福利

85较高

字节跳动薪资福利在行业中处于领先水平，但JD未明确披露具体待遇，属于高潜岗位。

薪资信号未披露（AI估算：25K-50K/月）

成长发展

90较高

技术方向处于AI最前沿，涉及大模型和Agent，能快速积累核心技能，但JD未提及培训或晋升通道。

技术前沿前沿/新兴技术

技术栈大模型、Agent、LLM、评测

业务类型ambiguous

工作生活

50较低

大厂常伴高强度工作，JD未提及工作弹性，且深圳办公地点多在核心区，通勤可能较远。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

80较高

AI行业整体高速增长，大模型评测对技术发展有正向推动作用，但社会影响力中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

大模型/Agent评测工程师-剪映

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

大模型/Agent评测工程师-剪映

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

AI应用开发工程师（视频创作方向）(MJ035990)

数据加速高级开发工程师(深圳/北京/上海/杭州）

腾讯云DataBuddy-Agent研发专家

Camera嵌入式软件开发工程师-实习-2027届

Android研发工程师

字节跳动的其他在招职位

字节跳动的其他在招职位