Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告探索企业定价
我的收藏免费试用登录注册

ByteDance logo
字节跳动
多模态识别算法工程师-抖音直播
立即应聘

多模态识别算法工程师-抖音直播

发布于 1 天前

普通员工/个人贡献者

北京市
高级经验
全职员工
仅现场办公
学历未注明
深度学习
NLP
PyTorch
计算机视觉
TensorFlow
LLM
多模态
分布式训练
视频理解
图像识别

AI 估算 · 30k–60k

大厂算法岗,多模态前沿方向,薪资具有竞争力,匹配高级工程师水平。

职位详情

关于这个职位

该职位主要负责抖音直播的多模态内容理解与识别算法研发,包括计算机视觉、音频、文本大模型的优化与迭代

你将深入参与直播场景下的前沿技术探索,如LLM智能助手,推动内容供给与增长
适合在CV、NLP、多模态领域有扎实基础并追求技术突破的工程师

最低要求

在计算机视觉、 NLP、多模态、深度学习某个领域有较深入的研究,包括但不限于:图像视频理解、检测、分割、动作识别、多模态、RAG、少样本学习等

熟悉PyTorch/TensorFlow其中一种或多种框架模型的训练和部署,了解混合精度训练、分布式训练、TensorRT部署等
有较强的模型开发和调优能力,在视频内容理解或多模态检索方向有项目经验者优先,在Kaggle、COCO、ActivityNet、ICPC、NOI/IOI等比赛获奖者优先
优秀的理解沟通和团队协作能力,积极主动有热情

工作职责

负责直播业务的主播多模态内容理解、内容识别和内容挖掘的模型建设,提升直播侧内容供给和增长

负责直播场景下计算机视觉、音频、文本大模型的优化与迭代,包括直播间画面识别和检测、文本语义理解和总结,大模型智能助手等
探索计算机视觉、多模态、LLM等前沿技术,负责算法模型的设计开发和调优

优先资格

在视频内容理解或多模态检索方向有项目经验者优先

在Kaggle、COCO、ActivityNet、ICPC、NOI/IOI等比赛获奖者优先

AI 洞察

优缺点分析

优点

  • 字节跳动作为互联网巨头,拥有海量数据与丰富场景,有助于快速积累算法落地经验
  • 聚焦多模态、LLM等前沿技术,技术氛围浓厚,可保持行业竞争力
  • 直播业务处于高速增长期,算法创新空间大,成果易于量化
  • 技术深度与广度要求高,需同时掌握CV、NLP、多模态等多领域知识
  • 竞争激烈,需持续跟踪学术前沿,保持自身技术领先
  • 适合对多模态算法有浓厚兴趣、具备扎实深度学习基础且渴望在工业界前沿场景中快速成长的求职者

缺点 / 挑战

  • 工作强度较高,互联网大厂通常节奏快,需要适应加班与快速迭代

角色解读

  • 技术专家路线:深耕多模态/图像理解领域,成为团队核心算法贡献者,主导关键技术突破
  • 管理路线:积累项目经验后转向技术Leader,负责算法团队方向规划与人才培养
  • 横向拓展:转向AI产品、平台架构或接入业务运营等复合型岗位
  • 负责构建和优化直播场景下的多模态内容理解模型,例如主播画面识别、音频事件检测与文本语义分析
  • 参与大模型(如LLM)的微调与部署,开发智能助手等创新功能,直接提升用户内容体验
  • 持续跟进CV、多模态、LLM等前沿技术,推动算法在业务中的落地与迭代
  • 扎实的计算机视觉、NLP或多模态深度学习基础,熟悉常见模型架构(如CNN、Transformer)
  • 熟练使用PyTorch或TensorFlow,掌握混合精度训练、分布式训练及TensorRT部署
  • 具备优秀的模型调优能力,有视频内容理解或多模态检索项目经验
  • 良好的沟通协作能力,能跨团队推动技术方案落地

申请策略

  • 准备一段与直播或多模态相关的项目讲解,突出业务理解与算法创新
  • 关注字节跳动抖音技术团队的公开分享,了解团队技术栈与方向
  • 突出计算机视觉、NLP或多模态相关的项目经历,尤其是视频内容理解、图像检索等方向
  • 量化模型效果提升(如准确率、召回率等),展示调优能力
  • 如有竞赛获奖(Kaggle、COCO等)或顶会论文,需重点标注
  • 强调分布式训练、模型部署等工程化经验
  • 补充多模态模型(如CLIP、BLIP)及LLM微调(如LoRA)的相关实践
  • 熟悉TensorRT和模型量化等部署优化技术

面试指南

  • 使用STAR法则(情境、任务、行动、结果)结构化描述项目
  • 技术问题先阐述基础概念,再结合实际经验说明选择原因
  • 系统设计题采用“需求-数据-模型-评估”框架,分步骤推进
  • 请详细讲解你参与的一个多模态项目,包括模型架构、数据构建及优化过程
  • Transformer在视觉任务中的应用?相比CNN有哪些优势和不足?
  • 如何设计一个直播画面违规内容识别系统?
  • 混合精度训练的原理?你如何选择混合精度策略?
  • 在多模态检索中,如何平衡检索速度与准确率?

匹配度报告

70
综合匹配度

字节跳动核心算法岗,前沿多模态技术,薪资竞争力强但工作强度大。

适合人群
适合以技术成长和前沿探索为核心动机的求职者,对薪资和职业发展有较高期望,能接受高强度工作节奏。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展90
工作生活40
使命价值70

薪资福利匹配

80较高

字节跳动薪酬体系在行业中具有竞争力,且算法岗位通常薪资较高,但具体薪资未在JD中披露。

薪资信号未披露(AI估算:30K-60K/月)

成长发展匹配

90较高

职位聚焦多模态、LLM等前沿技术,提供丰富的探索空间和技术成长机会,是典型的利润中心型算法岗。

技术前沿前沿/新兴技术
技术栈计算机视觉、多模态、NLP、深度学习、PyTorch、TensorFlow、LLM
成长机会探索
业务类型profit_center

工作生活匹配

40较低

工作地点为北京,仅现场办公,互联网大厂通常加班较多,无明确WLB信号。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值匹配

70中等

互联网直播行业处于高速增长赛道,技术应用具有正面社会影响,但JD未明确提及使命感或社会价值。

行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k

字节跳动 的其他在招职位

  • AI平台研发工程师-集团信息系统

    字节跳动 · 深圳市
    AI 估算 · 25k-45k
  • 国际业务内容商务拓展专家-Dola

    字节跳动 · 北京市
    AI 估算 · 35k-65k
  • 商业化营销策略专家-抖音生活服务

    字节跳动 · 北京市
    AI 估算 · 25k-45k
  • HRBP-中国公共职能(北京)

    字节跳动 · 北京市
    AI 估算 · 20k-30k
  • 产品经理(导航/路线/路况)-地理位置中台

    字节跳动 · 北京市
    AI 估算 · 25k-40k

相似职位推荐

  • 开发工程师

    中国移动 · 贵阳市
    AI 估算 · 12k-20k
  • Dots-【Ace顶尖实习生】Long Horizon Agentic Task 能力提升研究

    小红书 · 北京市
    AI 估算 · 4k-8k