字节跳动的Agent评测运营专家-文本大模型薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

Agent评测运营专家-文本大模型的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的Agent评测运营专家-文本大模型有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

Agent评测运营专家-文本大模型

立即应聘

Agent评测运营专家-文本大模型

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

Agent评测

Prompt Engineering

大模型

数据分析

AI工具

AI 估算 · 30k–50k

高级AI评测专家，大厂高薪，技能要求高，薪资竞争力强

职位详情

关于这个职位

该职位主要负责文本大模型的Agent评测体系构建与运营，需要深入分析Benchmark结果、管理评测库、扩展评测集并跟踪前沿评测方法，适合对AI技术有深入理解并具备数据分析能力的专业人才

最低要求

计算机科学、人工智能、数学、统计学或相关领域的本科及以上学历优先

熟悉提示工程、Function Call、Agent等基础概念和大模型自动评测，关注行业前沿动态

熟练使用Python和各类AI工具

具备运营和分析能力，对待数据认真负责

工作职责

评测分析：深入分析Agent Benchmark结果，解析评测体系设计逻辑和总结模型能力优缺点，形成分析报告

评测运营：和产品研发团队保持密切合作，管理Agent Benchmark库，梳理Agent Benchmark库更新规划

评测扩展：基于Benchmark框架，结合业务关注点，独立或组织扩展评测集和评测思路，保持评测质量持续在线

评测体系调研：参与前沿Agent Benchmark调研，结合业务关注点，提供评测体系构建新思路

AI 洞察

优缺点分析

优点

字节跳动平台，接触前沿大模型技术，积累宝贵经验
参与核心Agent评测工作，对行业发展趋势有深刻洞察
薪资福利优厚，职业发展空间大
大模型技术迭代快，需要持续学习最新进展
工作强度可能较大，需同时管理多个评测任务
对细节要求高，测试数据管理和分析需极其严谨
适合对AI评测有浓厚兴趣、具备技术背景且擅长数据分析和运营的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

成为大模型评测领域专家，主导评测体系设计
向AI产品/技术管理方向转型，负责模型质量把控
深入参与模型研发，从评测侧推动模型能力提升
分析Agent Benchmark结果，撰写评测报告，总结模型能力优缺点
管理并规划Agent Benchmark库的更新，与产品研发团队紧密协作
基于现有框架独立或组织扩展评测集，确保评测质量
跟踪前沿Agent Benchmark方法，为评测体系提供新思路
扎实的机器学习/自然语言处理基础，熟悉大模型及Agent原理
熟练使用Python进行数据处理和自动化脚本编写
具备运营和分析能力，能系统性管理Benchmark库
关注AI前沿动态，了解Prompt Engineering、Function Call等技术

申请策略

关注字节跳动AI Lab的公开成果，展示对公司的了解和热情
准备一个关于Agent评测的案例或思路，体现专业深度
突出大模型或Agent相关项目经验，尤其是评测或Benchmark相关工作
展示Python编程和数据处理能力，如使用Pandas、NumPy等
强调运营和分析能力，如管理过测试集或制定过评测方案
列出对Prompt Engineering、Function Call等技术点的理解
系统学习大模型自动评测方法，了解主流Benchmark（如MMLU、GSM8K等）
深入实践Agent框架（如LangChain、AutoGPT等），掌握评测流程

面试指南

对于设计评测方案，可以按'目标-指标-数据-流程'框架展开，先明确评测维度（如推理、工具使用），再选择或构建对应数据集
分析模型表现时，从整体分数到细粒度错误模式，结合错误样例总结原因，并提出针对性优化方向
如何设计一个Agent评测方案？请举例说明
你常用的大模型Benchmark有哪些？分别考察什么能力？
如何分析模型在某个Benchmark上的表现并给出改进建议？
描述一次你独立组织或扩展评测集的经历
你如何跟踪前沿Agent评测方法？请分享一个最新趋势
复习大模型评测经典论文和开源评测工具

职位点评

综合评分

大厂前沿技术岗，薪资高发展好，但工作强度可能较大且需现场办公。

更适合这类人

该职位最适合追求技术成长和前沿经验、对AI充满热情的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利

80较高

字节跳动薪资竞争力强，但JD未明确具体薪资福利，总体补偿性较好。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

90较高

职位涉及最前沿的大模型和Agent技术，技能成长空间极大，发展性动机满足度高。

技术前沿前沿/新兴技术

技术栈大模型、Agent、Prompt Engineering、Function Call、Benchmark

业务类型profit_center

工作生活

40较低

北京现场办公，JD未提及弹性或WLB，互联网大厂加班文化常见，生活方式满足有限。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

大模型是高速增长赛道，对AI发展有推动意义，但社会影响力偏向中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

Agent评测运营专家-文本大模型

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

Agent评测运营专家-文本大模型

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

软件技术规划SE/专家(手机海外方向)

AI Coding大模型/算法实习

Electrode

Process Engineering Intern

电池安全技师 Battery Safety Technician

字节跳动的其他在招职位

字节跳动的其他在招职位