
字节跳动
多模态评测工程师-Seed
多模态评测工程师-Seed
发布于 大约 11 小时前普通员工/个人贡献者
北京市
中级经验
全职员工
仅现场办公
本科
研究与开发 (研发)
GO
大模型
音视频
ASR
TTS
Ai Coding
多模态评测
AI 估算 · 30k–60k
大厂核心AI团队,技术门槛高,薪资竞争力强,参考一线互联网AI岗位。
职位详情
关于这个职位
该职位负责构建和迭代多模态大模型的评测体系,涉及音视频、ASR、TTS、音乐生成等场景,通过开发自动化评测系统、分析模型能力、输出专业报告,为模型优化提供决策依据
适合对AI评测有深入理解、熟悉大模型技术栈的工程师,是前沿技术方向的核心岗位
最低要求
本科及以上学历,计算机、数学、人工智能等相关专业,在音视频、文本大模型等一个或多个领域有较深入的经验
熟练掌握C/C++、Python、Go等至少一门编程语言,具备扎实的开发Debug能力
熟练使用AI Coding工具,熟悉CLI、Skills、Agent相关技术栈
工作职责
音视频多模态大模型评测体系的搭建与迭代,覆盖ASR、TTS、音乐生成、多模态交互、Agent等核心场景,制定科学的评测方案、核心评测指标,构建高质量评测集,形成行业认可的评测基准
开发自动化、可扩展、高可靠的评测系统,持续提升自动评估占比,优化评测流程和性能,大幅缩短模型迭代周期,提升评测效率与准确性
深入分析模型能力表现,精准定位模型优势与缺陷,输出专业评测报告,为模型优化、迭代提供核心决策依据
结合Agent,构建“数据-模型-评测”闭环,驱动大模型快速迭代
持续追踪大模型及评测领域的前沿进展,主动探索新的评测方法、技术与工具,结合业务场景落地创新,推动评测能力持续升级
优先资格
有大模型评测经验,参与过有行业影响力的项目者优先
AI 洞察
优缺点分析
优点
- 加入字节跳动Seed核心AI团队,接触前沿多模态大模型技术
- 公司平台大,资源丰富,职业发展空间广阔
- 薪资和福利待遇优厚,包括年终奖、股票等
- 对技术广度要求高,需同时掌握音视频、文本、Agent等多领域知识
- 大模型评测领域尚在快速发展,需要持续学习新技术
- 适合对AI评测有浓厚兴趣、技术基础扎实、愿意深入钻研并推动技术标准化的工程师
缺点 / 挑战
- 工作内容涉及评测体系搭建,具有技术挑战性和影响力
- 评测工作需紧跟模型迭代,节奏较快,可能面临高强度压力
角色解读
- 在AI评测领域深耕,成为评测专家,主导行业评测标准的制定
- 横向扩展至模型训练、数据工程等方向,向全栈AI工程师发展
- 晋升为技术负责人,带领评测团队,推动多模态技术迭代
- 搭建和迭代音视频多模态大模型的评测体系,制定评测方案和指标
- 开发自动化评测系统,提升评测效率和准确性
- 分析模型表现,输出评测报告,为模型优化提供决策依据
- 结合Agent技术,构建数据-模型-评测闭环,推动模型快速迭代
- 精通至少一门编程语言(C/C++/Python/Go),具备扎实的开发和调试能力
- 熟悉大模型评测方法和工具,有相关项目经验优先
- 熟练使用AI Coding工具和Agent相关技术栈
- 具备深入分析能力和良好的沟通协作能力
申请策略
- 深入了解字节跳动Seed团队的技术方向和产品(豆包、即梦等),在面试中展示你对多模态评测趋势的见解
- 准备一个详细的评测案例,说明你如何设计评测方案、分析问题并推动优化
- 突出大模型评测相关项目经验,包括评测方案设计、数据集构建、自动化系统开发等
- 展示编程能力和工具使用,如Python、C++、AI Coding工具、Agent框架
- 如有行业影响力项目或论文发表,务必强调
- 体现分析能力和结果导向,用数据说明评测如何推动模型改进
- 补充多模态评测知识,学习ASR、TTS等领域的评测指标
- 熟悉Agent相关技术栈,如LangChain、AutoGPT等
面试指南
- 使用STAR法则:情境、任务、行动、结果,清晰展示项目贡献
- 对于评测设计问题,从准确性、效率、覆盖率、自动化程度等维度展开,结合具体场景
- 分析问题时,强调数据驱动和系统性思维,举例说明如何通过评测反馈优化模型
- 如何设计一个多模态大模型的评测方案?考虑哪些指标?
- 描述你过去参与的一个大模型评测项目,你负责什么,遇到了哪些挑战?
- 如何评估生成式模型(如TTS、音乐生成)的质量?
- 如果模型在某个评测集上表现优异但实际场景效果差,你会如何分析?
- 谈谈你对Agent在评测中应用的看法
职位点评
74
综合评分
字节核心AI团队,前沿多模态评测,技术成长快,但工作强度大,WLB一般。
更适合这类人
最适合追求技术成长和职业发展,愿意接受高强度工作以换取前沿技术经验的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利85
成长发展90
工作生活50
使命价值70
薪资福利
85较高
字节跳动为上市巨头,薪资福利在行业内有竞争力,但JD未明确薪资,推测为市场水准以上。
薪资信号未披露(AI估算:30K-60K/月)
成长发展
90较高
Seed团队专注前沿AI,技术栈先进,有明确的评测创新方向,成长空间大。
技术前沿前沿/新兴技术
技术栈MLLM、GenMedia、ASR、TTS、Agent、多模态
业务类型profit_center
工作生活
50较低
北京现场办公,未提及弹性工时,互联网大厂通常加班较多,WLB一般。
工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)
使命价值
70中等
AI行业高速增长,但评测岗位间接支持而非直接创造社会价值,影响力中性。
行业发展高速增长赛道
社会影响中性/一般
使命信号为科技和社会发展作出贡献
创新程度积极采用新技术
字节跳动 的其他在招职位
相似职位推荐
Watch Jobs