ByteDance logo
字节跳动
多模态评测工程师-Seed

多模态评测工程师-Seed

发布于 大约 11 小时前

普通员工/个人贡献者

北京市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
GO
大模型
音视频
ASR
TTS
Ai Coding
多模态评测

AI 估算 · 30k–60k

大厂核心AI团队,技术门槛高,薪资竞争力强,参考一线互联网AI岗位。

职位详情

关于这个职位

该职位负责构建和迭代多模态大模型的评测体系,涉及音视频、ASR、TTS、音乐生成等场景,通过开发自动化评测系统、分析模型能力、输出专业报告,为模型优化提供决策依据

适合对AI评测有深入理解、熟悉大模型技术栈的工程师,是前沿技术方向的核心岗位

最低要求

本科及以上学历,计算机、数学、人工智能等相关专业,在音视频、文本大模型等一个或多个领域有较深入的经验

熟练掌握C/C++、Python、Go等至少一门编程语言,具备扎实的开发Debug能力
熟练使用AI Coding工具,熟悉CLI、Skills、Agent相关技术栈

工作职责

音视频多模态大模型评测体系的搭建与迭代,覆盖ASR、TTS、音乐生成、多模态交互、Agent等核心场景,制定科学的评测方案、核心评测指标,构建高质量评测集,形成行业认可的评测基准

开发自动化、可扩展、高可靠的评测系统,持续提升自动评估占比,优化评测流程和性能,大幅缩短模型迭代周期,提升评测效率与准确性
深入分析模型能力表现,精准定位模型优势与缺陷,输出专业评测报告,为模型优化、迭代提供核心决策依据
结合Agent,构建“数据-模型-评测”闭环,驱动大模型快速迭代
持续追踪大模型及评测领域的前沿进展,主动探索新的评测方法、技术与工具,结合业务场景落地创新,推动评测能力持续升级

优先资格

有大模型评测经验,参与过有行业影响力的项目者优先

AI 洞察

优缺点分析

优点

  • 加入字节跳动Seed核心AI团队,接触前沿多模态大模型技术
  • 公司平台大,资源丰富,职业发展空间广阔
  • 薪资和福利待遇优厚,包括年终奖、股票等
  • 对技术广度要求高,需同时掌握音视频、文本、Agent等多领域知识
  • 大模型评测领域尚在快速发展,需要持续学习新技术
  • 适合对AI评测有浓厚兴趣、技术基础扎实、愿意深入钻研并推动技术标准化的工程师

缺点 / 挑战

  • 工作内容涉及评测体系搭建,具有技术挑战性和影响力
  • 评测工作需紧跟模型迭代,节奏较快,可能面临高强度压力

角色解读

  • 在AI评测领域深耕,成为评测专家,主导行业评测标准的制定
  • 横向扩展至模型训练、数据工程等方向,向全栈AI工程师发展
  • 晋升为技术负责人,带领评测团队,推动多模态技术迭代
  • 搭建和迭代音视频多模态大模型的评测体系,制定评测方案和指标
  • 开发自动化评测系统,提升评测效率和准确性
  • 分析模型表现,输出评测报告,为模型优化提供决策依据
  • 结合Agent技术,构建数据-模型-评测闭环,推动模型快速迭代
  • 精通至少一门编程语言(C/C++/Python/Go),具备扎实的开发和调试能力
  • 熟悉大模型评测方法和工具,有相关项目经验优先
  • 熟练使用AI Coding工具和Agent相关技术栈
  • 具备深入分析能力和良好的沟通协作能力

申请策略

  • 深入了解字节跳动Seed团队的技术方向和产品(豆包、即梦等),在面试中展示你对多模态评测趋势的见解
  • 准备一个详细的评测案例,说明你如何设计评测方案、分析问题并推动优化
  • 突出大模型评测相关项目经验,包括评测方案设计、数据集构建、自动化系统开发等
  • 展示编程能力和工具使用,如Python、C++、AI Coding工具、Agent框架
  • 如有行业影响力项目或论文发表,务必强调
  • 体现分析能力和结果导向,用数据说明评测如何推动模型改进
  • 补充多模态评测知识,学习ASR、TTS等领域的评测指标
  • 熟悉Agent相关技术栈,如LangChain、AutoGPT等

面试指南

  • 使用STAR法则:情境、任务、行动、结果,清晰展示项目贡献
  • 对于评测设计问题,从准确性、效率、覆盖率、自动化程度等维度展开,结合具体场景
  • 分析问题时,强调数据驱动和系统性思维,举例说明如何通过评测反馈优化模型
  • 如何设计一个多模态大模型的评测方案?考虑哪些指标?
  • 描述你过去参与的一个大模型评测项目,你负责什么,遇到了哪些挑战?
  • 如何评估生成式模型(如TTS、音乐生成)的质量?
  • 如果模型在某个评测集上表现优异但实际场景效果差,你会如何分析?
  • 谈谈你对Agent在评测中应用的看法

职位点评

74
综合评分

字节核心AI团队,前沿多模态评测,技术成长快,但工作强度大,WLB一般。

更适合这类人
最适合追求技术成长和职业发展,愿意接受高强度工作以换取前沿技术经验的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活50
使命价值70

薪资福利

85较高

字节跳动为上市巨头,薪资福利在行业内有竞争力,但JD未明确薪资,推测为市场水准以上。

薪资信号未披露(AI估算:30K-60K/月)

成长发展

90较高

Seed团队专注前沿AI,技术栈先进,有明确的评测创新方向,成长空间大。

技术前沿前沿/新兴技术
技术栈MLLM、GenMedia、ASR、TTS、Agent、多模态
业务类型profit_center

工作生活

50较低

北京现场办公,未提及弹性工时,互联网大厂通常加班较多,WLB一般。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

70中等

AI行业高速增长,但评测岗位间接支持而非直接创造社会价值,影响力中性。

行业发展高速增长赛道
社会影响中性/一般
使命信号为科技和社会发展作出贡献
创新程度积极采用新技术
Watch Jobs