字节跳动的多模态内容理解算法专家-抖音直播（深圳/北京）薪资是多少？

该职位薪资范围为 30k–50k（人民币/月）。

多模态内容理解算法专家-抖音直播（深圳/北京）的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的多模态内容理解算法专家-抖音直播（深圳/北京）有什么任职要求？

该职位要求本科学历及高级经验工作经验。

字节跳动

多模态内容理解算法专家-抖音直播（深圳/北京）

立即应聘

多模态内容理解算法专家-抖音直播（深圳/北京）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

模型训练

LLM

模型压缩

VLM

多模态学习

DeepSpeed

CNN

Megatron

AI 估算 · 30k–50k

大厂高级算法专家岗，多模态大模型方向稀缺，薪资竞争力强，叠加字节期权和年终，综合回报高。

职位详情

关于这个职位

作为抖音直播的多模态内容理解算法专家，你将负责打造业界领先的多模态内容理解大模型，涉及VLM、LLM、RL等前沿技术

你将从数据预处理到模型训练、微调、部署全链路参与，推动多模态对话、内容生成等创新应用在抖音直播场景落地

这是一个技术深度与业务影响力兼备的核心算法岗位

最低要求

本科及以上学历，计算机相关专业

在计算机视觉/多模态某领域有深入的研究或项目经验，在顶级学术会议有论文发表者或获得竞赛优胜者优先

熟悉多模态大模型（VLM）、大语言模型（LLM）、RL相关的算法技术，熟悉大模型相关的数据构造方法、Post Training算法，对多模态数据处理具备优秀的独立开发与调试能力

有大规模模型训练、压缩、蒸馏、微调等经验，熟悉Megatron、Deepspeed等框架者优先

对视觉CoT有研究经验者优先，对类GPT-4o实时对话的多模态流式计算有落地经验者优先

优秀的分析和解决问题的能力，对解决具有挑战性的问题充满激情，良好的沟通和团队合作能力

工作职责

负责抖音直播实时互动相关的多模态内容理解工作，打造业界领先的多模态内容理解大模型

基于CNN、VLM等技术推进模型训练、微调、评测及高效部署，推动模型在下游业务上的应用，包括并不限于多模态对话、多模态互动内容生成、Caption文本生成等，助力业务规模应用落地

规划实现并优化海量多模态数据的预处理、清洗、标注、特征提取及高效融合方法

AI 洞察

优缺点分析

优点

前沿技术驱动：直接参与多模态大模型的核心研发，技术栈最新
海量数据场景：抖音直播拥有大规模真实用户数据，模型落地价值高
顶级团队平台：字节跳动技术氛围浓厚，资源充足，成长空间大
竞争激烈：大厂内部晋升通道窄，需持续产出高水平成果

缺点 / 挑战

技术难度高：多模态大模型训练、压缩、流式计算等极具挑战性
业务压力大：直播场景对实时性、效果要求严苛，需快速迭代
适合在CV/多模态领域有深厚积累、渴望挑战大规模实际场景并追求技术极致的算法工程师

角色解读

技术纵深发展：成为多模态领域的顶级专家，主导前沿算法突破
横向扩展：转向大模型全栈（数据、训练、推理、业务应用），或晋升技术Leader
业务影响力：深入理解直播业务，推动AI技术驱动产品创新，逐步走向技术管理岗
负责抖音直播实时多模态内容理解大模型的研发，包括数据构建、模型训练与部署
基于VLM、LLM、RL等技术推动多模态对话、内容生成等业务应用落地
优化海量多模态数据的处理流程，提升模型效果和效率
深入掌握计算机视觉或多模态领域的算法，具备论文发表或竞赛经验
熟悉多模态大模型（VLM）、大语言模型（LLM）及强化学习（RL）技术
具备大规模模型训练、压缩、蒸馏、微调经验，熟悉Megatron、Deepspeed等框架

申请策略

关注抖音直播业务场景，思考多模态技术如何提升用户体验
准备一个完整的项目案例，阐述从数据到模型上线过程中的关键决策
突出多模态相关论文、竞赛或项目，尤其是VLM、LLM应用经验
强调大规模模型训练、分布式框架（Megatron/Deepspeed）的实际使用经历
展示数据预处理、特征工程及模型部署的全链路能力
补充强化学习（RL）和视觉CoT的实践经验
熟悉实时流式计算框架（如Flink、Ray）与模型部署工具

面试指南

技术问题：先明确问题和目标，再列出常用方法，并结合项目经验阐述选择理由
设计题：从业务需求出发，分析数据特点，提出模型架构，讨论训练和部署可行性
开放题：展示对前沿技术的关注，同时结合业务实践，体现思考深度
请介绍一下你在多模态大模型方向的具体工作，遇到过哪些挑战？
如何设计一个针对直播场景的多模态内容理解模型？
在大规模模型训练过程中，你如何处理数据偏差和过拟合？
你如何选择模型压缩策略（蒸馏、剪枝、量化）？
请谈谈你对VLM和LLM结合的看法，以及可能的落地场景

职位点评

综合评分

大厂核心算法岗，前沿多模态技术，高薪酬高压力，适合技术极客。

更适合这类人

该职位最适合追求技术成长和职业发展、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值60

薪资福利

75中等

薪资在行业中偏高，字节提供有竞争力的薪酬和股票，但JD未提及具体福利，整体补偿性较好。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

95较高

岗位聚焦多模态大模型前沿技术，技术栈新且挑战大，能极大促进专业技能成长。字节内部有导师制和晋升通道，发展性极强。

技术前沿前沿/新兴技术

技术栈多模态、VLM、LLM、CNN、RL、Megatron、Deepspeed、模型训练、模型压缩

业务类型profit_center

工作生活

40较低

大厂算法岗工作强度较大，JD未提及弹性办公或WLB，且北京现场办公，通勤成本高。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

直播内容理解能直接影响用户体验，有一定社会影响力，但总体属于娱乐产业，意义感中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

字节跳动

多模态内容理解算法专家-抖音直播（深圳/北京）

立即应聘

多模态内容理解算法专家-抖音直播（深圳/北京）

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

模型训练

LLM

模型压缩

VLM

多模态学习

DeepSpeed

CNN

Megatron

AI 估算 · 30k–50k

大厂高级算法专家岗，多模态大模型方向稀缺，薪资竞争力强，叠加字节期权和年终，综合回报高。

职位详情

关于这个职位

作为抖音直播的多模态内容理解算法专家，你将负责打造业界领先的多模态内容理解大模型，涉及VLM、LLM、RL等前沿技术

你将从数据预处理到模型训练、微调、部署全链路参与，推动多模态对话、内容生成等创新应用在抖音直播场景落地

这是一个技术深度与业务影响力兼备的核心算法岗位

最低要求

本科及以上学历，计算机相关专业

在计算机视觉/多模态某领域有深入的研究或项目经验，在顶级学术会议有论文发表者或获得竞赛优胜者优先

有大规模模型训练、压缩、蒸馏、微调等经验，熟悉Megatron、Deepspeed等框架者优先

对视觉CoT有研究经验者优先，对类GPT-4o实时对话的多模态流式计算有落地经验者优先

优秀的分析和解决问题的能力，对解决具有挑战性的问题充满激情，良好的沟通和团队合作能力

工作职责

负责抖音直播实时互动相关的多模态内容理解工作，打造业界领先的多模态内容理解大模型

规划实现并优化海量多模态数据的预处理、清洗、标注、特征提取及高效融合方法

AI 洞察

优缺点分析

优点

前沿技术驱动：直接参与多模态大模型的核心研发，技术栈最新
海量数据场景：抖音直播拥有大规模真实用户数据，模型落地价值高
顶级团队平台：字节跳动技术氛围浓厚，资源充足，成长空间大
竞争激烈：大厂内部晋升通道窄，需持续产出高水平成果

缺点 / 挑战

技术难度高：多模态大模型训练、压缩、流式计算等极具挑战性
业务压力大：直播场景对实时性、效果要求严苛，需快速迭代
适合在CV/多模态领域有深厚积累、渴望挑战大规模实际场景并追求技术极致的算法工程师

角色解读

技术纵深发展：成为多模态领域的顶级专家，主导前沿算法突破
横向扩展：转向大模型全栈（数据、训练、推理、业务应用），或晋升技术Leader
业务影响力：深入理解直播业务，推动AI技术驱动产品创新，逐步走向技术管理岗
负责抖音直播实时多模态内容理解大模型的研发，包括数据构建、模型训练与部署
基于VLM、LLM、RL等技术推动多模态对话、内容生成等业务应用落地
优化海量多模态数据的处理流程，提升模型效果和效率
深入掌握计算机视觉或多模态领域的算法，具备论文发表或竞赛经验
熟悉多模态大模型（VLM）、大语言模型（LLM）及强化学习（RL）技术
具备大规模模型训练、压缩、蒸馏、微调经验，熟悉Megatron、Deepspeed等框架

申请策略

关注抖音直播业务场景，思考多模态技术如何提升用户体验
准备一个完整的项目案例，阐述从数据到模型上线过程中的关键决策
突出多模态相关论文、竞赛或项目，尤其是VLM、LLM应用经验
强调大规模模型训练、分布式框架（Megatron/Deepspeed）的实际使用经历
展示数据预处理、特征工程及模型部署的全链路能力
补充强化学习（RL）和视觉CoT的实践经验
熟悉实时流式计算框架（如Flink、Ray）与模型部署工具

面试指南

技术问题：先明确问题和目标，再列出常用方法，并结合项目经验阐述选择理由
设计题：从业务需求出发，分析数据特点，提出模型架构，讨论训练和部署可行性
开放题：展示对前沿技术的关注，同时结合业务实践，体现思考深度
请介绍一下你在多模态大模型方向的具体工作，遇到过哪些挑战？
如何设计一个针对直播场景的多模态内容理解模型？
在大规模模型训练过程中，你如何处理数据偏差和过拟合？
你如何选择模型压缩策略（蒸馏、剪枝、量化）？
请谈谈你对VLM和LLM结合的看法，以及可能的落地场景

职位点评

综合评分

大厂核心算法岗，前沿多模态技术，高薪酬高压力，适合技术极客。

更适合这类人

该职位最适合追求技术成长和职业发展、能接受高强度工作的求职者。

表现最好

成长发展

相对薄弱

工作生活

薪资福利75

成长发展95

工作生活40

使命价值60

薪资福利

75中等

薪资在行业中偏高，字节提供有竞争力的薪酬和股票，但JD未提及具体福利，整体补偿性较好。

薪资信号未披露（AI估算：30K-50K/月）

成长发展

95较高

岗位聚焦多模态大模型前沿技术，技术栈新且挑战大，能极大促进专业技能成长。字节内部有导师制和晋升通道，发展性极强。

技术前沿前沿/新兴技术

技术栈多模态、VLM、LLM、CNN、RL、Megatron、Deepspeed、模型训练、模型压缩

业务类型profit_center

工作生活

40较低

大厂算法岗工作强度较大，JD未提及弹性办公或WLB，且北京现场办公，通勤成本高。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

60中等

直播内容理解能直接影响用户体验，有一定社会影响力，但总体属于娱乐产业，意义感中性。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多模态内容理解算法专家-抖音直播（深圳/北京）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

多模态内容理解算法专家-抖音直播（深圳/北京）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Senior Principal Scientist I, Translational Disease Biology

腾讯游戏-大模型评测专家

预研动作手游-资深文案策划（角色方向）

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型训练框架研发工程师/专家

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

Senior Principal Scientist I, Translational Disease Biology

腾讯游戏-大模型评测专家

预研动作手游-资深文案策划（角色方向）

腾讯游戏-大模型智能评测算法工程师

腾讯游戏-大模型训练框架研发工程师/专家

字节跳动的其他在招职位

字节跳动的其他在招职位