Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型评测专家(世界模型方向)-AI数据与安全
立即应聘

大模型评测专家(世界模型方向)-AI数据与安全

发布于 2 天前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
LLM
游戏
VLM
LlamaIndex
世界模型
AutoGen
MCP协议
Agent框架
Crewai

AI 估算 · 30k–60k

大模型方向为当前热门领域,字节跳动薪资竞争力强,岗位要求高,经验丰富者薪酬优厚。

职位详情

关于这个职位

该职位负责构建世界模型在游戏等方向的评测体系,设计自动化评测流水线,联动算法和产品团队优化模型迭代

适合有大模型评测经验和游戏背景的技术专家

最低要求

本科及以上学历,计算机科学、人工智能、自然语言处理、机器学习等相关专业优先

良好的逻辑思维和理解能力,能将模糊的业务需求转化为清晰、可量化、可执行的评测方案,具备从真实业务中抽象评测任务的能力
有评测经验,熟悉主流LLM、VLM模型评测的主要评测标准,有Agent评测实战经验,有通过强模型进行自动化评分的实践经验
热爱游戏,游戏面广,包括国内外Steam游戏,主机游戏,App游戏、小游戏
愿意花大量时间体验游戏

工作职责

联动世界模型算法和产品团队,负责世界模型在游戏开发等方向的能力评测,参与评测体系设计与方法论建设:构建科学的评测体系、评测方法和评测流程

快速协调相关部门搭建或完善评测平台工具,提升评测效率,降低评测成本
独立负责数据供应商管理,协调相关部门按时完成模型评测任务
分阶段推进评测自动化,搭建基于主流Agent框架(LangChain、LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、MCP协议等)的自动化评测流水线,支持大规模、可复现的模型能力基准测试
依据评测数据,撰写评测报告,指导算法和产品团队调整模型迭代方向

优先资格

有游戏制作运营测评经验者优先

AI 洞察

优缺点分析

优点

  • 大模型评测是AI核心环节,技术前沿且需求旺盛,职业前景广阔
  • 字节跳动平台资源丰富,可接触世界级产品和海量数据
  • 岗位涉及自动化评测和框架搭建,技术深度和广度兼备
  • 游戏方向结合了兴趣与工作,适合游戏爱好者
  • 评测体系构建复杂,需要兼顾科学性与实用性,对抽象能力要求高
  • 跨团队协调沟通频繁,需要较强的项目管理能力
  • 游戏体验要求高,需投入大量时间尝试各类游戏
  • 适合有扎实AI评测基础、热爱游戏、擅长技术方案设计和跨团队协作的求职者

缺点 / 挑战

暂无明显挑战项

角色解读

  • 在AI评测领域深耕,成为评测体系架构师或技术专家
  • 横向拓展至模型训练、算法优化等方向,转型为算法工程师
  • 向团队管理方向发展,领导评测团队或数据安全团队
  • 构建世界模型在游戏等场景的评测体系,设计评测方法和流程
  • 搭建并优化自动化评测流水线,基于LangChain等Agent框架实现大规模基准测试
  • 撰写评测报告,为算法和产品团队提供模型迭代方向指导
  • 管理数据供应商,协调各方资源按时完成评测任务
  • 精通大模型评测方法论,熟悉LLM/VLM主流评测标准
  • 具备Agent评测实战经验,熟悉LangChain、LlamaIndex等框架
  • 强大的逻辑思维和抽象能力,能将业务需求转化为量化评测方案
  • 热爱游戏,对多种游戏平台和类型有广泛体验

申请策略

  • 提前了解字节跳动的游戏业务和世界模型方向,思考自身如何贡献
  • 在面试中展示对评测科学性的理解,可准备一个评测方案设计案例
  • 突出大模型评测经验,具体说明参与过的评测项目、方法论和成果
  • 强调Agent框架使用经验,如LangChain、AutoGen等,并附带相关项目链接
  • 展示游戏背景,列出热衷的游戏类型、平台或相关测评经历
  • 量化评测效率提升或成本降低的案例,用数据说话
  • 深入学习主流Agent框架(如LangChain、CrewAI)并动手实践
  • 加强自动化评测流水线搭建能力,学习CI/CD工具和分布式测试

面试指南

  • 对于评测设计题,先明确评测目标,再拆解维度、指标和数据集,最后说明评测流程和自动化方案
  • 对于局限性问题,可结合自身经验指出典型问题(如数据污染、指标片面),并提出针对性改进策略
  • 对于转化需求题,突出逻辑思维:需求分析→指标定义→数据生成→评测执行→迭代反馈
  • 请设计一个评测世界模型在游戏NPC对话能力上的方案
  • 如何实现评测自动化?请描述基于Agent框架的流水线架构
  • 你如何看待当前大模型评测的局限性?如何改进?
  • 请举例说明你如何将模糊的业务需求转化为量化评测指标
  • 你最喜欢的游戏是什么?从技术角度如何评测其AI表现?

匹配度报告

66
综合匹配度

AI大厂核心岗位,技术前沿、薪资优厚,但工作强度未知,现场办公。

适合人群
该职位最适合追求技术成长和前沿领域积累的求职者,对工作生活平衡要求较低。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利70
成长发展90
工作生活40
使命价值65

薪资福利匹配

70中等

薪资未在JD中明确,但字节跳动整体薪酬具有竞争力,且岗位技术含量高,预计薪酬处于行业高端水平。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

该岗位处于AI前沿领域,涉及大模型评测、Agent框架等新兴技术,成长空间巨大,但JD未明确提及晋升通道。

技术前沿前沿/新兴技术
技术栈大模型、世界模型、Agent、LangChain、LLM、VLM、自动化评测
业务类型profit_center

工作生活匹配

40较低

办公地点北京,无远程选项,且大厂工作强度普遍较大,JD未提及WLB信息。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

65中等

AI行业高速增长,但该岗位直接社会影响力一般,使命感信号不足。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 诉讼维权法务(民事方向)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • BDM-抖音生活服务(滁州)

    字节跳动 · 滁州市
    AI 估算 · 15k-25k
  • 高级后端开发工程师-剪映CapCut(广州)

    字节跳动 · 广州市
    AI 估算 · 30k-50k
  • 高级前端工程师-客服平台-电商(上海)

    字节跳动 · 上海市
    AI 估算 · 25k-40k
  • AI产品解决方案专家-AI工具运营

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • BLDC嵌入式软件开发工程师Embedded Development Engineer(平湖)

    舍弗勒 · 嘉兴市
    AI 估算 · 15k-25k
  • 无人机 - 飞行测试运营管理

    美团 · 北京市
    AI 估算 · 40k-60k
  • 座舱测评工程师

    中国汽研 · 重庆市
    AI 估算 · 15k-25k
  • Associate Engineer, RD Packaging & Module Engineering

    艾迈斯欧司朗 · 无锡市
    AI 估算 · 8k-15k
  • Technician, Lab Test

    特灵 · 苏州市
    AI 估算 · 7k-9k

字节跳动 的其他在招职位

  • 诉讼维权法务(民事方向)

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • BDM-抖音生活服务(滁州)

    字节跳动 · 滁州市
    AI 估算 · 15k-25k
  • 高级后端开发工程师-剪映CapCut(广州)

    字节跳动 · 广州市
    AI 估算 · 30k-50k
  • 高级前端工程师-客服平台-电商(上海)

    字节跳动 · 上海市
    AI 估算 · 25k-40k
  • AI产品解决方案专家-AI工具运营

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • BLDC嵌入式软件开发工程师Embedded Development Engineer(平湖)

    舍弗勒 · 嘉兴市
    AI 估算 · 15k-25k
  • 无人机 - 飞行测试运营管理

    美团 · 北京市
    AI 估算 · 40k-60k
  • 座舱测评工程师

    中国汽研 · 重庆市
    AI 估算 · 15k-25k
  • Associate Engineer, RD Packaging & Module Engineering

    艾迈斯欧司朗 · 无锡市
    AI 估算 · 8k-15k
  • Technician, Lab Test

    特灵 · 苏州市
    AI 估算 · 7k-9k