字节跳动的多模态识别算法工程师-抖音直播薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

多模态识别算法工程师-抖音直播的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的多模态识别算法工程师-抖音直播有什么任职要求？

该职位要求学历未注明学历及高级经验工作经验。

字节跳动

多模态识别算法工程师-抖音直播

立即应聘

多模态识别算法工程师-抖音直播

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

学历未注明

研究与开发 (研发)

分布式训练

图像识别

多模态

深度学习

视频理解

计算机视觉

LLM

NLP

PyTorch

AI 估算 · 30k–60k

大厂算法岗，多模态前沿方向，薪资具有竞争力，匹配高级工程师水平。

职位详情

关于这个职位

该职位主要负责抖音直播的多模态内容理解与识别算法研发，包括计算机视觉、音频、文本大模型的优化与迭代

你将深入参与直播场景下的前沿技术探索，如LLM智能助手，推动内容供给与增长

适合在CV、NLP、多模态领域有扎实基础并追求技术突破的工程师

最低要求

在计算机视觉、 NLP、多模态、深度学习某个领域有较深入的研究，包括但不限于：图像视频理解、检测、分割、动作识别、多模态、RAG、少样本学习等

熟悉PyTorch/TensorFlow其中一种或多种框架模型的训练和部署，了解混合精度训练、分布式训练、TensorRT部署等

有较强的模型开发和调优能力，在视频内容理解或多模态检索方向有项目经验者优先，在Kaggle、COCO、ActivityNet、ICPC、NOI/IOI等比赛获奖者优先

优秀的理解沟通和团队协作能力，积极主动有热情

工作职责

负责直播业务的主播多模态内容理解、内容识别和内容挖掘的模型建设，提升直播侧内容供给和增长

负责直播场景下计算机视觉、音频、文本大模型的优化与迭代，包括直播间画面识别和检测、文本语义理解和总结，大模型智能助手等

探索计算机视觉、多模态、LLM等前沿技术，负责算法模型的设计开发和调优

优先资格

在视频内容理解或多模态检索方向有项目经验者优先

在Kaggle、COCO、ActivityNet、ICPC、NOI/IOI等比赛获奖者优先

AI 洞察

优缺点分析

优点

字节跳动作为互联网巨头，拥有海量数据与丰富场景，有助于快速积累算法落地经验
聚焦多模态、LLM等前沿技术，技术氛围浓厚，可保持行业竞争力
直播业务处于高速增长期，算法创新空间大，成果易于量化
技术深度与广度要求高，需同时掌握CV、NLP、多模态等多领域知识
竞争激烈，需持续跟踪学术前沿，保持自身技术领先
适合对多模态算法有浓厚兴趣、具备扎实深度学习基础且渴望在工业界前沿场景中快速成长的求职者

缺点 / 挑战

工作强度较高，互联网大厂通常节奏快，需要适应加班与快速迭代

角色解读

技术专家路线：深耕多模态/图像理解领域，成为团队核心算法贡献者，主导关键技术突破
管理路线：积累项目经验后转向技术Leader，负责算法团队方向规划与人才培养
横向拓展：转向AI产品、平台架构或接入业务运营等复合型岗位
负责构建和优化直播场景下的多模态内容理解模型，例如主播画面识别、音频事件检测与文本语义分析
参与大模型（如LLM）的微调与部署，开发智能助手等创新功能，直接提升用户内容体验
持续跟进CV、多模态、LLM等前沿技术，推动算法在业务中的落地与迭代
扎实的计算机视觉、NLP或多模态深度学习基础，熟悉常见模型架构（如CNN、Transformer）
熟练使用PyTorch或TensorFlow，掌握混合精度训练、分布式训练及TensorRT部署
具备优秀的模型调优能力，有视频内容理解或多模态检索项目经验
良好的沟通协作能力，能跨团队推动技术方案落地

申请策略

准备一段与直播或多模态相关的项目讲解，突出业务理解与算法创新
关注字节跳动抖音技术团队的公开分享，了解团队技术栈与方向
突出计算机视觉、NLP或多模态相关的项目经历，尤其是视频内容理解、图像检索等方向
量化模型效果提升（如准确率、召回率等），展示调优能力
如有竞赛获奖（Kaggle、COCO等）或顶会论文，需重点标注
强调分布式训练、模型部署等工程化经验
补充多模态模型（如CLIP、BLIP）及LLM微调（如LoRA）的相关实践
熟悉TensorRT和模型量化等部署优化技术

面试指南

使用STAR法则（情境、任务、行动、结果）结构化描述项目
技术问题先阐述基础概念，再结合实际经验说明选择原因
系统设计题采用“需求-数据-模型-评估”框架，分步骤推进
请详细讲解你参与的一个多模态项目，包括模型架构、数据构建及优化过程
Transformer在视觉任务中的应用？相比CNN有哪些优势和不足？
如何设计一个直播画面违规内容识别系统？
混合精度训练的原理？你如何选择混合精度策略？
在多模态检索中，如何平衡检索速度与准确率？

职位点评

综合评分

字节跳动核心算法岗，前沿多模态技术，薪资竞争力强但工作强度大。

更适合这类人

适合以技术成长和前沿探索为核心动机的求职者，对薪资和职业发展有较高期望，能接受高强度工作节奏。

表现最好

成长发展

相对薄弱

工作生活

薪资福利80

成长发展90

工作生活40

使命价值70

薪资福利

80较高

字节跳动薪酬体系在行业中具有竞争力，且算法岗位通常薪资较高，但具体薪资未在JD中披露。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

职位聚焦多模态、LLM等前沿技术，提供丰富的探索空间和技术成长机会，是典型的利润中心型算法岗。

技术前沿前沿/新兴技术

技术栈计算机视觉、多模态、NLP、深度学习、PyTorch、TensorFlow、LLM

成长机会探索

业务类型profit_center

工作生活

40较低

工作地点为北京，仅现场办公，互联网大厂通常加班较多，无明确WLB信号。

工作模式仅现场办公

办公地点市区核心地段

加班情况未提及（无法判断）

使命价值

70中等

互联网直播行业处于高速增长赛道，技术应用具有正面社会影响，但JD未明确提及使命感或社会价值。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

多模态识别算法工程师-抖音直播

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

多模态识别算法工程师-抖音直播

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动 的其他在招职位

短剧安全应急处置负责人-CQC

服饰KA商业化（男装）-抖音电商

成长型客户销售经理（AI&企业服务）-火山引擎

策略运营（主播运营方向）-TikTok直播

高级前端开发工程师（直播活动研发方向）-TikTok直播

相似职位推荐

腾讯云DataBuddy -大模型算法专家

灰境行者-资深数值策划

Agent算法实习生-2027届

顶尖应届-广告算法工程师-互联网

AI软件开发工程师实习生-2027届

字节跳动的其他在招职位

字节跳动的其他在招职位