字节跳动的多模态视频理解大模型算法工程师-视频与边缘薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

多模态视频理解大模型算法工程师-视频与边缘的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

字节跳动的多模态视频理解大模型算法工程师-视频与边缘有什么任职要求？

该职位要求硕士学历及高级经验工作经验。

字节跳动

多模态视频理解大模型算法工程师-视频与边缘

立即应聘

多模态视频理解大模型算法工程师-视频与边缘

发布于大约 2 个月前

普通员工/个人贡献者

北京市

高级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

Internvl

多模态

大模型

强化学习

视频Caption

视频理解

NLP

Qwen-VL

AI 估算 · 30k–60k

大厂核心算法岗，技能门槛高，市场竞争力强，薪资处于行业高位。

职位详情

关于这个职位

该职位专注于多模态视频理解大模型的前沿探索与落地，涉及长视频理解、Token压缩、全模态高光理解等方向

你将参与大规模模型训练、Post-training算法优化，并探索视频剪辑Agent及直播流式实时解说

适合对CV/NLP/多模态有深厚积累、热爱技术创新且具备自驱力的算法工程师

最低要求

获得硕士及以上学位，计算机科学、人工智能、自动化等专业优先

熟练掌握Python/C++，熟悉NLP、CV、多模态中的1-2个领域，熟悉大模型训练、RL算法者优先

强烈的技术热爱和好奇心与自主探索能力，优秀的分析和解决问题的能力

工作职责

探索多模态视频理解大模型技术前沿，长视频理解、Token压缩、影视视频剧本还原、全模态高光理解、流式视频理解、理解和生成统一等技术方向，创新性优化相关算法

全模态大模型（文本、图像、语音）的Post-training算法，同时结合用户消费行为持续优化模型效果，结合LongCoT和RL自主探索学习，探索多模态感知能力的边界

探索视频剪辑Agent相关的研发和应用，研究高质量数据的挖掘和合成、大模型的对齐效率、多目标融合的学习，Agent全链路优化的方法等等

探索直播流式场景比如体育、游戏等实时解说，解决工业级效率和效果难题，支持多语言服务全球化

发表相关技术创新成果，比如顶会论文、专利或比赛

优先资格

熟悉Qwen-VL、InternVL、InternVideo等模型，有基于视频Caption、视频Grounding、视频摘要、视频问答、美学评价、高光检测、动作识别、视频编辑、视频风格化等项目落地经验者加分

发表过CV/NLP/多模态相关顶会论文（比如CVPR/ICLR/ICCV/PAMI/ACL等）或ACM等竞赛获奖

AI 洞察

优缺点分析

优点

接触最前沿的多模态大模型技术，参与从研究到落地的全流程
有机会发表顶会论文、申请专利，提升个人学术影响力
薪资福利优厚，股票期权等长期激励
工作强度高，可能需要应对快速迭代和紧急项目
技术难度大，需要持续学习最新论文和模型
竞争激烈，需在团队中保持高效的产出和创新
适合对多模态大模型有浓厚兴趣、具备强自驱力和抗压能力，且渴望在技术前沿取得突破的算法工程师

缺点 / 挑战

字节跳动提供海量数据和丰富业务场景，技术挑战大，成长快

角色解读

技术专家路线，深入多模态大模型前沿，成为领域权威
项目负责人路线，带领团队攻克技术难题，推动业务落地
跨领域拓展，从算法研究延伸至AI agent、流媒体等方向
研究多模态视频理解大模型的前沿算法，如长视频理解、Token压缩、全模态高光理解等
优化大模型的Post-training流程，结合用户行为数据和强化学习提升模型效果
开发视频剪辑Agent，探索数据合成、模型对齐和全链路优化
解决直播流式场景（如体育、游戏）的实时解说问题，支持多语言全球化服务
精通Python和C++，具备扎实的编程能力
深入理解NLP、CV或多模态领域，熟悉大模型训练和强化学习
熟悉主流多模态模型（如Qwen-VL、InternVL），有视频理解相关项目经验
具备独立研究能力，能发表高水平论文或参与竞赛获奖

申请策略

关注字节跳动视频业务（如抖音、剪映）的算法挑战，在面试中展示业务理解
准备一个完整的项目案例，从问题定义、方案设计到效果评估，体现系统性思考
突出多模态或视频理解相关的项目经验，尤其是大规模模型训练和优化
列出顶会论文、专利或竞赛获奖，证明研究能力
强调Python/C++编程能力，以及RL、Post-training等具体技术
若有视频Caption、Grounding等落地经验，务必详细描述
深入学习Qwen-VL、InternVL等开源模型的架构和训练细节
熟悉强化学习（RL）在大模型中的应用，如RLHF、LongCoT

面试指南

使用STAR法则（情境、任务、行动、结果）描述项目经验，突出个人贡献
对于开放性问题，先定义问题边界，再提出解决方案，最后评估优劣
展示技术深度时，引用相关论文或工作，并对比其优缺点
描述你参与过的多模态大模型项目，遇到了哪些挑战，如何解决的？
你如何设计一个视频高光检测模型？从数据构建到模型训练详细说明
谈谈你对强化学习在视频理解中应用的理解，有哪些可行的方向？
如何评估视频Caption模型的质量？有哪些改进思路？
你如何看待多模态大模型的Token压缩问题？有什么创新想法？

职位点评

综合评分

字节跳动核心算法岗，前沿技术栈，发展空间大，但工作强度高，WLB一般。

从薪资福利、成长空间、工作节奏和岗位方向综合评估，方便横向比较。

更适合这类人

最适合追求技术成长、渴望在AI前沿领域做出成果的求职者，对工作强度和稳定性要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利70

成长发展90

工作生活40

使命价值70

薪资福利

70中等

字节跳动作为行业头部公司，薪资水平具有竞争力，但职位描述未明确薪资范围，福利也未提及，因此补偿性动机满足程度中等偏上。

薪资信号未披露（AI估算：30K-60K/月）

成长发展

90较高

职位涉及多模态大模型前沿技术，鼓励发表顶会论文和专利，强调自主探索和学习，发展性动机得到高度满足。

技术前沿前沿/新兴技术

技术栈多模态、大模型、强化学习、视频理解、Token压缩、LongCoT、RL

成长机会顶会论文、专利、比赛

业务类型profit_center

工作生活

40较低

要求现场办公，未提及弹性工作或远程可能，且互联网大厂通常工作强度较高，因此生活化动机满足程度较低。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

AI行业处于高速增长赛道，技术本身具有前瞻性，但职位描述未强调社会使命，意义感动机满足程度中等。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

字节跳动的其他在招职位

相似职位推荐

Watch Jobs

多模态视频理解大模型算法工程师-视频与边缘

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

AI大模型架构师

游戏AI化管线建设负责人

在研剑来IP单机游戏-资深战斗策划

顶尖实习-具身大模型算法研究员-机器人事业部-实习1

表面分析工程师(J13249)

字节跳动的其他在招职位

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

相似职位推荐

AI大模型架构师

游戏AI化管线建设负责人

在研剑来IP单机游戏-资深战斗策划

顶尖实习-具身大模型算法研究员-机器人事业部-实习1

表面分析工程师(J13249)

多模态视频理解大模型算法工程师-视频与边缘

职位详情

关于这个职位

最低要求

工作职责

优先资格

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

字节跳动 的其他在招职位

技术支持架构师-云安全 - 安全与风控

C端产品运营（内容编辑与消费体验） - 抖音运营

大模型应用开发工程师-飞书项目

AI应用研发工程师（电商治理）-服务体验与治理

红果短剧监制Leader-体验与服务

相似职位推荐

AI大模型架构师

游戏AI化管线建设负责人

在研剑来IP单机游戏-资深战斗策划

顶尖实习-具身大模型算法研究员-机器人事业部-实习1

表面分析工程师(J13249)

字节跳动的其他在招职位