Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
大模型算法工程师(评测方向)-抖音研发(北京/杭州/深圳/上海)
立即应聘

大模型算法工程师(评测方向)-抖音研发(北京/杭州/深圳/上海)

发布于 大约 17 小时前

普通员工/个人贡献者

北京市 / 杭州市
中级经验
全职员工
仅现场办公
本科
机器学习
深度学习
自然语言处理
LLM
多模态
大模型
评测
评测框架

AI 估算 · 30k–60k

大模型方向人才稀缺,字节跳动薪资竞争力强,中级算法工程师月薪30k-60k,16薪。

职位详情

关于这个职位

该职位隶属于字节跳动抖音研发团队,专注于大模型评测方向

你将负责评测技术体系建设,包括评测框架设计、评测模型训练与调优,并面向LLM、多模态、Agent等前沿场景探索科学评测方法论
适合有扎实AI基础、热爱技术挑战的算法工程师

最低要求

本科及以上学历,人工智能、计算机、数学等相关专业

具备扎实的机器学习、深度学习或自然语言处理基础,有大模型相关算法经验
能够将算法能力应用于实际评测场景,熟悉Python,有评测框架设计、评测模型训练部署或评测系统落地经验
具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题,有自主探索解决方案的能力
具有良好的沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新的AI技术,推进技术进步

工作职责

负责大模型评测技术建设,面向实际业务场景设计并落地实践,持续提升专业度、稳定性与效率

负责评测框架设计、评测模型的训练、部署和调优,分析模型表现与问题归因,沉淀评测洞察,支撑模型优化和版本迭代
面向LLM、多模态理解/生成、Agent、世界模型等场景,探索科学、可扩展的评测方法论与技术体系
持续关注和调研大模型领域的前沿技术或最佳实践,并在评测工作中落地创新

AI 洞察

优缺点分析

优点

  • 大模型是当前AI领域最前沿方向,技术积累价值高
  • 字节跳动提供海量业务场景和海量数据,实践机会丰富
  • 公司平台大,薪资福利有竞争力,职业发展路径清晰
  • 互联网大厂工作节奏快,可能存在一定加班
  • 适合热爱AI前沿技术、具有较强算法功底和钻研精神的工程师,尤其对模型评测有热情者

缺点 / 挑战

  • 大模型技术迭代迅速,需要持续学习跟进,压力较大
  • 评测工作对细致度和深度要求高,可能面临重复性调试

角色解读

  • 深入大模型评测领域,成为评测方向技术专家或负责人
  • 转向算法研发或AI平台架构岗位,拓宽技术广度
  • 随着大模型技术发展,可向AI科学家或技术管理岗位发展
  • 设计并落地大模型评测框架,持续提升评测的专业度与效率
  • 训练、部署和调优评测模型,分析模型表现并归因问题,输出评测洞察
  • 面向LLM、多模态、Agent等前沿场景,探索科学可扩展的评测方法论
  • 跟踪大模型领域前沿技术,在评测工作中应用创新
  • 扎实的机器学习、深度学习或自然语言处理基础,具备大模型算法经验
  • 熟练使用Python,有评测框架设计、模型训练部署或评测系统落地经验
  • 出色的分析和问题解决能力,能深入解决大模型训练与应用中的问题
  • 良好的沟通协作能力,能与团队高效合作推进技术落地

申请策略

  • 关注字节跳动技术博客和AI Lab动态,了解业务方向
  • 在简历中体现对评测科学性的思考,如如何设计公正稳定的评测指标
  • 突出大模型相关的项目经验,如LLM微调、评测数据集构建等
  • 展示算法竞赛、论文或开源贡献,体现技术深度
  • 强调Python编程能力和评测框架设计经验
  • 量化工作成果,如模型性能提升百分比、评测效率提高等
  • 深入学习主流大模型架构(如GPT、BERT、LLaMA)及评测方法
  • 补充强化学习、多模态等相关知识,拓宽技术面

面试指南

  • STAR法则:情境-任务-行动-结果,结构化描述项目经验
  • 先定义问题,再提出多个可选方案,比较优劣后选择最优
  • 注重量化结果和迭代思维,展示从数据到模型再到评测的闭环能力
  • 请介绍你参与过的大模型评测项目,包括设计思路和遇到的挑战
  • 如何评估一个LLM的生成质量?你会设计哪些评测指标?
  • 你如何判断评测数据集的覆盖性和公平性?
  • 当模型表现异常时,你会如何定位问题并改进评测流程?
  • 如何看待当前大模型评测方法的局限性?你有什么改进想法?

匹配度报告

78
综合匹配度

大厂高薪、前沿技术栈,成长空间极大,但WLB一般。

适合人群
该职位最适合追求技术成长和薪资回报、能够接受互联网工作节奏的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利85
成长发展95
工作生活50
使命价值80

薪资福利匹配

85较高

字节跳动薪资待遇在行业中处于头部水平,且已上市福利完善,补偿性动机能得到较好满足。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

95较高

大模型评测属于前沿技术领域,工作内容涉及LLM、多模态等新兴方向,成长空间极大。

技术前沿前沿/新兴技术
技术栈大模型、LLM、多模态、Agent、评测模型、Python
业务类型profit_center

工作生活匹配

50较低

工作地点为一线城市核心区域,但未提及弹性工作或WLB措施,互联网大厂通常工作强度较大。

工作模式未明确
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

80较高

AI大模型是高速增长赛道,对技术和社会发展有显著推动作用,获得感强。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 高级/资深前端研发工程师-Dev Infra

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 大数据后端开发工程师-内容质量

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • B端营销专家-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 多模态大模型数据策略专家-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • AI搜索评测运营(评测分析方向)-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 广告算法工程师

    京东 · 北京市
    AI 估算 · 30k-60k
  • 用户算法专家(北京/深圳)

    京东 · 北京市
    AI 估算 · 30k-60k
  • 先进技术开发岗

    一汽丰田 · 天津市
    AI 估算 · 15k-25k
  • 运筹优化算法高级工程师

    顺丰速运 · 深圳市
    AI 估算 · 30k-50k
  • Omni模型算法工程师

    腾讯 · 北京市
    AI 估算 · 35k-65k

字节跳动 的其他在招职位

  • 高级/资深前端研发工程师-Dev Infra

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 大数据后端开发工程师-内容质量

    字节跳动 · 北京市
    AI 估算 · 30k-50k
  • B端营销专家-抖音电商

    字节跳动 · 上海市
    AI 估算 · 25k-45k
  • 多模态大模型数据策略专家-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 40k-70k
  • AI搜索评测运营(评测分析方向)-AI数据与安全

    字节跳动 · 北京市
    AI 估算 · 25k-45k

相似职位推荐

  • 广告算法工程师

    京东 · 北京市
    AI 估算 · 30k-60k
  • 用户算法专家(北京/深圳)

    京东 · 北京市
    AI 估算 · 30k-60k
  • 先进技术开发岗

    一汽丰田 · 天津市
    AI 估算 · 15k-25k
  • 运筹优化算法高级工程师

    顺丰速运 · 深圳市
    AI 估算 · 30k-50k
  • Omni模型算法工程师

    腾讯 · 北京市
    AI 估算 · 35k-65k