Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
多模态内容理解算法专家-抖音直播(深圳/北京)
立即应聘

多模态内容理解算法专家-抖音直播(深圳/北京)

发布于 大约 9 小时前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
本科
模型训练
LLM
模型压缩
VLM
多模态学习
RL
DeepSpeed
CNN
Megatron
视觉Cot

AI 估算 · 30k–50k

大厂高级算法专家岗,多模态大模型方向稀缺,薪资竞争力强,叠加字节期权和年终,综合回报高。

职位详情

关于这个职位

作为抖音直播的多模态内容理解算法专家,你将负责打造业界领先的多模态内容理解大模型,涉及VLM、LLM、RL等前沿技术

你将从数据预处理到模型训练、微调、部署全链路参与,推动多模态对话、内容生成等创新应用在抖音直播场景落地
这是一个技术深度与业务影响力兼备的核心算法岗位

最低要求

本科及以上学历,计算机相关专业

在计算机视觉/多模态某领域有深入的研究或项目经验,在顶级学术会议有论文发表者或获得竞赛优胜者优先
熟悉多模态大模型(VLM)、大语言模型(LLM)、RL相关的算法技术,熟悉大模型相关的数据构造方法、Post Training算法,对多模态数据处理具备优秀的独立开发与调试能力
有大规模模型训练、压缩、蒸馏、微调等经验,熟悉Megatron、Deepspeed等框架者优先
对视觉CoT有研究经验者优先,对类GPT-4o实时对话的多模态流式计算有落地经验者优先
优秀的分析和解决问题的能力,对解决具有挑战性的问题充满激情,良好的沟通和团队合作能力

工作职责

负责抖音直播实时互动相关的多模态内容理解工作,打造业界领先的多模态内容理解大模型

基于CNN、VLM等技术推进模型训练、微调、评测及高效部署,推动模型在下游业务上的应用,包括并不限于多模态对话、多模态互动内容生成、Caption文本生成等,助力业务规模应用落地
规划实现并优化海量多模态数据的预处理、清洗、标注、特征提取及高效融合方法

AI 洞察

优缺点分析

优点

  • 前沿技术驱动:直接参与多模态大模型的核心研发,技术栈最新
  • 海量数据场景:抖音直播拥有大规模真实用户数据,模型落地价值高
  • 顶级团队平台:字节跳动技术氛围浓厚,资源充足,成长空间大
  • 竞争激烈:大厂内部晋升通道窄,需持续产出高水平成果

缺点 / 挑战

  • 技术难度高:多模态大模型训练、压缩、流式计算等极具挑战性
  • 业务压力大:直播场景对实时性、效果要求严苛,需快速迭代
  • 适合在CV/多模态领域有深厚积累、渴望挑战大规模实际场景并追求技术极致的算法工程师

角色解读

  • 技术纵深发展:成为多模态领域的顶级专家,主导前沿算法突破
  • 横向扩展:转向大模型全栈(数据、训练、推理、业务应用),或晋升技术Leader
  • 业务影响力:深入理解直播业务,推动AI技术驱动产品创新,逐步走向技术管理岗
  • 负责抖音直播实时多模态内容理解大模型的研发,包括数据构建、模型训练与部署
  • 基于VLM、LLM、RL等技术推动多模态对话、内容生成等业务应用落地
  • 优化海量多模态数据的处理流程,提升模型效果和效率
  • 深入掌握计算机视觉或多模态领域的算法,具备论文发表或竞赛经验
  • 熟悉多模态大模型(VLM)、大语言模型(LLM)及强化学习(RL)技术
  • 具备大规模模型训练、压缩、蒸馏、微调经验,熟悉Megatron、Deepspeed等框架

申请策略

  • 关注抖音直播业务场景,思考多模态技术如何提升用户体验
  • 准备一个完整的项目案例,阐述从数据到模型上线过程中的关键决策
  • 突出多模态相关论文、竞赛或项目,尤其是VLM、LLM应用经验
  • 强调大规模模型训练、分布式框架(Megatron/Deepspeed)的实际使用经历
  • 展示数据预处理、特征工程及模型部署的全链路能力
  • 补充强化学习(RL)和视觉CoT的实践经验
  • 熟悉实时流式计算框架(如Flink、Ray)与模型部署工具

面试指南

  • 技术问题:先明确问题和目标,再列出常用方法,并结合项目经验阐述选择理由
  • 设计题:从业务需求出发,分析数据特点,提出模型架构,讨论训练和部署可行性
  • 开放题:展示对前沿技术的关注,同时结合业务实践,体现思考深度
  • 请介绍一下你在多模态大模型方向的具体工作,遇到过哪些挑战?
  • 如何设计一个针对直播场景的多模态内容理解模型?
  • 在大规模模型训练过程中,你如何处理数据偏差和过拟合?
  • 你如何选择模型压缩策略(蒸馏、剪枝、量化)?
  • 请谈谈你对VLM和LLM结合的看法,以及可能的落地场景

匹配度报告

68
综合匹配度

大厂核心算法岗,前沿多模态技术,高薪酬高压力,适合技术极客。

适合人群
该职位最适合追求技术成长和职业发展、能接受高强度工作的求职者。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利75
成长发展95
工作生活40
使命价值60

薪资福利匹配

75中等

薪资在行业中偏高,字节提供有竞争力的薪酬和股票,但JD未提及具体福利,整体补偿性较好。

薪资信号未披露(AI估算:30K-50K/月)

成长发展匹配

95较高

岗位聚焦多模态大模型前沿技术,技术栈新且挑战大,能极大促进专业技能成长。字节内部有导师制和晋升通道,发展性极强。

技术前沿前沿/新兴技术
技术栈多模态、VLM、LLM、CNN、RL、Megatron、Deepspeed、模型训练、模型压缩
业务类型profit_center

工作生活匹配

40较低

大厂算法岗工作强度较大,JD未提及弹性办公或WLB,且北京现场办公,通勤成本高。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

60中等

直播内容理解能直接影响用户体验,有一定社会影响力,但总体属于娱乐产业,意义感中性。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • 服务器整机结构工程师-Data

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 内容营销经理(飞书AI/Agent方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 游戏动作设计组长/专家

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 后端研发工程师-客服平台(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 内容分发策略产品-红果短剧

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • PSIG_智能体算法工程师(J99389)

    百度 · 北京市
    AI 估算 · 25k-45k
  • Agent算法研究实习生(演化策略方向)(J100042)

    百度 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • 服务器整机结构工程师-Data

    字节跳动 · 杭州市
    AI 估算 · 25k-45k
  • 内容营销经理(飞书AI/Agent方向)-飞书

    字节跳动 · 上海市
    AI 估算 · 20k-35k
  • 游戏动作设计组长/专家

    字节跳动 · 深圳市
    AI 估算 · 25k-40k
  • 后端研发工程师-客服平台(成都)

    字节跳动 · 成都市
    AI 估算 · 20k-35k
  • 内容分发策略产品-红果短剧

    字节跳动 · 北京市
    AI 估算 · 20k-35k

相似职位推荐

  • PSIG_智能体算法工程师(J99389)

    百度 · 北京市
    AI 估算 · 25k-45k
  • Agent算法研究实习生(演化策略方向)(J100042)

    百度 · 北京市
    AI 估算 · 4k-8k