Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型数据评测专家-AI数据与安全
立即应聘

大模型数据评测专家-AI数据与安全

发布于 大约 12 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
硕士
数据分析
SQL
自动化评估
大语言模型
小语种
Prompt设计
数据评测
评估方法论

AI 估算 · 30k–50k

大模型方向热门,字节跳动薪资竞争力强,硕士+经验要求,预计月薪3-5万,年终奖丰厚

职位详情

关于这个职位

该职位负责大语言模型在垂类场景下的评测体系搭建,包括设计高质量评估集、自动化评估流程,并通过负面案例分析驱动模型优化

适合具备数据分析、Python和Agent技术背景的AI从业者,能深入参与前沿大模型的质量保障与迭代

最低要求

硕士学位及以上,具备良好的逻辑分析、数据分析或研究能力

掌握Python,具备数据清洗、数据分析、数据预处理相关项目经验,熟悉SQL用法
熟悉大模型评估方法,能够围绕不同场景设计评估框架、拆解评估维度、制定评分标准,具备评估集构建、负面案例分析或自动化评估相关经验者优先
熟悉Agent的常见组件、编排流程及应用场景,如工具调用、规划、检索、记忆、长尾任务等
具备良好的逻辑分析能力、沟通协作能力,能够清晰、准确地表达问题、结论和改进建议,对AI技术和大模型应用场景有强烈兴趣,具备主动探索、快速学习和持续迭代的能力
英语水平流利,能用于日常工作交流

工作职责

参与大语言模型在不同垂类场景下的用户需求分析,设计并构建高质量评估集

基于大语言模型的调用链路、工具使用、回复结果等信息,进行负面案例分析、错误定位与归因
设计并完善大语言模型在基模、端到端、应用层场景下的自动化评估流程,包括数据预处理、Prompt设计、Agentic Workflow评估等
沉淀评估方法论、评价标准和分析报告,推动模型能力与产品体验持续优化

优先资格

计算机、人工智能、数据科学、统计学、数学等相关专业背景

达到下述任意小语种的C1及以上水平:印尼语、葡萄牙语(巴西)、阿拉伯语、越南语、马来语、泰语

AI 洞察

优缺点分析

优点

  • 大模型赛道高速发展,岗位技术壁垒高,职业前景广阔
  • 字节跳动全球化AI布局,资源丰富,能接触前沿技术和海量数据
  • 工作内容涉及评估方法论创新,个人技术沉淀价值高
  • 小语种加分项体现了国际化视野,有海外发展可能
  • 大模型评测领域尚不成熟,需要较强的探索和创新能力
  • 对技术广度和深度要求高,需持续学习最新模型和框架
  • 适合对AI评测有浓厚兴趣、具备数据分析背景、喜欢钻研模型细节的技术从业者,尤其是有Agent或大模型使用经验的人

缺点 / 挑战

  • 工作可能涉及高强度分析和重复性任务,需要耐心和细致

角色解读

  • 可向大模型评估专家或AI安全方向深入,参与模型全生命周期质量管控
  • 积累自动化评估和Agent方向经验后,可转型为AI应用架构师或技术负责人
  • 在字节跳动大平台下,有机会接触前沿AI技术,横向拓展到其他AI研发岗位
  • 分析大语言模型在不同垂类场景下的用户需求,设计高质量评估集来量化模型表现
  • 通过工具调用、回复结果等链路信息定位模型错误,进行负面案例归因分析
  • 构建自动化评估流程,包括数据预处理、Prompt设计和Agentic Workflow评估
  • 沉淀评估方法论和标准,输出分析报告以推动模型和产品体验优化
  • 扎实的Python编程和SQL能力,能独立完成数据清洗、分析和预处理
  • 熟悉大模型评估框架,能根据场景拆解维度、制定评分标准
  • 了解Agent常见组件(工具调用、规划、检索等)及其编排流程
  • 出色的逻辑分析和沟通能力,能清晰表达问题和改进建议

申请策略

  • 字节跳动注重实操,面试前可准备一个你主导过的评估或分析案例,展示完整思路
  • 了解字节跳动的大模型产品(如豆包)和其评估体系,在面试中体现对业务的理解
  • 突出Python和SQL相关项目经验,尤其是数据清洗、分析的实际案例
  • 强调大模型评估或Agent相关的工作经历,如构建过评测集或自动化流程
  • 展示逻辑分析能力,可用具体例子说明如何定位和归因模型错误
  • 若有小语种能力,务必在简历中明确标注等级
  • 深入学习LangChain、AutoGPT等Agent框架,熟悉其评估方法
  • 补充大模型评测相关知识,如BLEU、ROUGE等自动评估指标及人工评估方法论

面试指南

  • 对于评估设计类问题:先明确业务目标,再拆解评估维度(准确性、鲁棒性、安全性等),设计对应指标和数据集,最后说明如何执行和迭代
  • 对于问题定位类问题:采用“现象-链路-根因-建议”结构,先描述错误表现,追踪调用链路或数据异常,定位根因,给出可执行的优化建议
  • 如何为医疗垂域的大模型设计一套评估集?请说明维度、指标和流程
  • 描述一个你曾经遇到的模型负面案例,你是如何定位错误并给出改进建议的?
  • Agent中的工具调用经常失败,你会如何自动化评估工具调用的准确性?
  • 如何评估Prompt设计的效果?请举例说明你的评估框架
  • 你熟悉哪些大模型评估指标?它们的优缺点是什么?
  • 熟悉大模型常见评估框架(如MMLU、HumanEval、HELM等)及其适用场景

匹配度报告

70
综合匹配度

高薪、前沿技术栈、强技术成长,但WLB一般、节奏快

适合人群
优先追求技术成长和职业发展的求职者,适合能接受高强度工作、希望在前沿AI领域深耕的人。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值70

薪资福利匹配

80较高

字节跳动薪酬在行业内具有竞争力,大模型方向薪资偏高,但工作强度也相应较大。

薪资信号偏高 (30K-50K/月)

成长发展匹配

90较高

岗位涉及前沿大模型技术栈,能深度参与评估方法创新,成长空间大。

技术前沿前沿/新兴技术
技术栈大语言模型、Agent、Prompt设计、自动化评估
业务类型profit_center

工作生活匹配

40较低

字节跳动工作节奏较快,且北京办公,通勤压力大,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况明确要求弹性/高强度

使命价值匹配

70中等

大模型评测对AI安全与质量有直接贡献,具有一定社会意义,行业前景好。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 视觉设计师(运营方向)-飞书(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 15k-25k
  • 达人内容治理策略运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 大模型应用算法工程师(People)-集团信息系统

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 增长营销资深运营经理(供应商管理方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 搜索增长产品经理(AI创作方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • Coordinator Engineering Electric

    德科斯米尔 · 沈阳市
    AI 估算 · 10k-18k
  • Coordinator Engineering HS

    德科斯米尔 · 沈阳市
    AI 估算 · 10k-18k
  • 应用评估工程师

    埃克科林 · 上海市
    AI 估算 · 10k-18k
  • 大模型数据策略实习生(J99143)

    百度 · 北京市
    AI 估算 · 4k-6k
  • LongCat - 具身算法工程前沿研究

    美团 · 北京市
    AI 估算 · 30k-60k

字节跳动 的其他在招职位

  • 视觉设计师(运营方向)-飞书(杭州/上海)

    字节跳动 · 杭州市
    AI 估算 · 15k-25k
  • 达人内容治理策略运营-TikTok Shop

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 大模型应用算法工程师(People)-集团信息系统

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 增长营销资深运营经理(供应商管理方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • 搜索增长产品经理(AI创作方向)-TikTok

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • Coordinator Engineering Electric

    德科斯米尔 · 沈阳市
    AI 估算 · 10k-18k
  • Coordinator Engineering HS

    德科斯米尔 · 沈阳市
    AI 估算 · 10k-18k
  • 应用评估工程师

    埃克科林 · 上海市
    AI 估算 · 10k-18k
  • 大模型数据策略实习生(J99143)

    百度 · 北京市
    AI 估算 · 4k-6k
  • LongCat - 具身算法工程前沿研究

    美团 · 北京市
    AI 估算 · 30k-60k