Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
资深大语言模型评测研究员-TikTok
立即应聘

资深大语言模型评测研究员-TikTok

发布于 大约 14 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
硕士
数据分析
用户研究
LLM
自动化评估
AI评估
大模型评测
众测

AI 估算 · 30k–50k

字节跳动为互联网大厂,资深研究员月薪在3-5万之间,考虑15薪,技术难度高,市场竞争力强。

职位详情

关于这个职位

该职位主要负责大语言模型评测体系的构建与优化,通过专家评估、众测和自动化评测等方式,评估AI回复质量,识别体验短板并提出改进建议

适合有大模型评测或用户研究经验的专业人士,工作涉及与国际团队协作,推动评测计划落地

最低要求

硕士学位或以上,专业背景优先人工智能、计算机科学、认知科学、教育测量、社会科学定量研究

在大模型评测领域有3年及以上工作及研究经验,设计过AI理想态评估机制,有用户研究、数据分析等项目经历
工作细致有条理,逻辑清晰,沟通能力强,具备团队合作精神

工作职责

理解大模型能力,跟进大模型评测领域的前沿研究范式,掌握定性和定量的用户研究方法,探索不同场景下AI回复模型的理想态牵引体系

对Tako线上体验负责,综合内部专家评估、众测、LLM自动化评估等方式构建评测指标,找到体验短板并针对性地提出改进建议,帮团队量化和明确解决问题的优先级与方向
协同国际化运营团队推动评估计划的实施,包含评测集的维护&沉淀、Benchmark评测例行执行与分析

AI 洞察

优缺点分析

优点

  • 处于AI大模型前沿领域,技术积累价值高
  • 字节跳动平台大,资源丰富,国际化团队协作
  • 职位核心,直接影响AI产品体验,成就感强
  • 大模型评测领域快速变化,需持续学习新技术
  • 工作涉及多团队协作,沟通协调成本高
  • 评测标准难以量化,需要较强的判断力
  • 适合在AI评测或用户研究领域有经验,喜欢探索前沿技术,擅长数据驱动决策的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

  • 向AI评测专家或技术负责人方向发展,主导评估体系
  • 横向扩展到AI产品、用户研究或算法优化岗位
  • 在字节跳动内部可晋升为研究员或团队管理岗
  • 设计并实施大模型评测方案,包括专家评估、众测和自动化评测
  • 分析评测数据,识别AI回复的体验短板,提出改进建议
  • 协同国际化团队,管理评测数据集和Benchmark执行
  • 深入理解大模型能力和前沿评测范式
  • 掌握定性定量用户研究方法,如问卷、访谈、实验设计
  • 具备数据分析能力,能从评测数据中提炼洞察

申请策略

  • 在简历中附上评测案例,说明你如何发现问题并推动改进
  • 了解TikTok的AI产品,思考评测如何提升用户体验
  • 突出大模型评测项目经历,包括评估框架设计、指标构建
  • 强调用户研究经验,如定性访谈、定量问卷、实验分析
  • 展示数据分析能力,如使用Python/SQL处理评测数据
  • 学习最新LLM评测论文和方法,如Chatbot Arena、AlpacaEval
  • 强化统计学和实验设计知识,提升评测可靠性

面试指南

  • STAR法则(情境、任务、行动、结果)描述评测项目
  • 分维度讨论评测指标:准确、安全、有用、流畅等
  • 强调数据驱动和迭代优化,用具体数据说明效果
  • 请描述你设计过的一个大模型评测方案,包括指标和流程
  • 如何区分模型回复的准确性、安全性和有用性?
  • 面对模型幻觉,你会如何设计评测指标?
  • 你如何协调跨团队资源推动评测计划落地?
  • 复习大模型评测前沿论文,如MMLU、HumanEval、GPT-4评测

匹配度报告

74
综合匹配度

字节跳动AI核心岗位,前沿技术栈,高薪资高成长,但工作节奏快。

适合人群
适合追求技术成长和前沿领域,能接受一定工作强度的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展90
工作生活50
使命价值70

薪资福利匹配

85较高

字节跳动提供有竞争力的薪资和福利,尤其在AI核心岗位,薪资偏高。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

90较高

该职位涉及前沿LLM评测技术,技术成长空间大,且有国际化合作机会。

技术前沿前沿/新兴技术
技术栈大模型、LLM、评测、Benchmark、用户研究
业务类型profit_center

工作生活匹配

50较低

仅现场办公,字节跳动工作强度较高,但北京办公地点可能在核心区域。

工作模式仅现场办公
办公地点市区核心地段
加班情况JD含高强度暗示词

使命价值匹配

70中等

AI领域对社会影响大,但具体评测工作偏向技术落地,使命感一般。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k

字节跳动 的其他在招职位

  • 物流供应商管理专家-TikTok Shop

    字节跳动 · 珠海市
    AI 估算 · 25k-40k
  • 产品经理(广告信号方向)-国际商业化产品与技术(北京/上海)

    字节跳动 · 北京市
    AI 估算 · 25k-40k
  • 消息队列产品经理-Data

    字节跳动 · 杭州市
    AI 估算 · 30k-50k
  • 商家产品运营高级经理-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • CRM产品经理(AI方向)-抖音电商

    字节跳动 · 上海市
    AI 估算 · 30k-55k

相似职位推荐

  • 项目计划管理

    中国移动 · 长沙市
    AI 估算 · 8k-18k
  • 智能建模师

    中国移动 · 长沙市
    AI 估算 · 8k-15k
  • 大模型训练

    中国移动 · 长沙市
    AI 估算 · 3k-5k
  • 【REDstar】大模型 Efficient Inference Infra 工程师

    小红书 · 北京市
    AI 估算 · 30k-60k