Bilibili logo
哔哩哔哩
【B-UP】模型工程开发工程师-搜推(校招)

【B-UP】模型工程开发工程师-搜推(校招)

发布于 大约 15 小时前

普通员工/个人贡献者

上海市
无经验要求
全职员工
仅现场办公
本科
软件工程
PyTorch
TensorFlow
XLA
推荐系统
TensorRT
分布式训练
TVM
Dnn模型
Gpu高性能计算

AI 估算 · 20k–30k

B站校招推荐工程岗,技术栈前沿,薪资具有竞争力,参考互联网大厂校招水平。

职位详情

关于这个职位

这是一个面向2027届毕业生的校招职位,加入B站搜推工程团队,深度参与亿级用户推荐系统的核心模型工程开发

你将负责大规模离散DNN模型的训练平台与推理框架设计,涉及分布式训练、GPU高性能计算、超长序列建模等前沿技术,直接影响内容分发效率
适合对深度学习工程化有热情、希望挑战高并发低延迟系统的技术人才

最低要求

计算机相关专业本科及以上学历,具备扎实的C++/Python编程功底

有大规模搜广推模型训练或推理的成功经验,了解PyTorch/TensorFlow等框架的底层原理
有异构计算经验,熟悉GPU高性能计算,熟悉编译优化技术(TVM、TensorRT、XLA等)在模型推理中的应用
深入理解千亿参数DNN模型的分布式训练和高性能推理技术,有超长序列建模(用户行为序列10K+)、参数scaling up等技术的实战经验

工作职责

深度参与B站社区生态建设,通过深度学习技术直接影响亿级用户的推荐体验和内容分发效率

主要负责B站社区推搜系统大规模离散DNN模型训练平台与推理框架的设计和演进
参与多目标搜推模型的分布式训练框架设计,提升训练效率和稳定性
设计支撑毫秒级延迟、高QPS的在线推理服务架构,满足社区实时搜推需求
突破超大Embedding表的存储/更新/检索技术瓶颈,优化存储和计算效率
优化GPU多卡/多机训练和推理的可扩展性,支持超长行为序列建模和参数scaling up的持续迭代
搜推工程团队致力于构建下一代智能内容分发系统,让用户发现更多“感兴趣”的内容
加入我们,用技术创造快乐,一起构建支撑亿万年轻人内容消费的智能引擎,在B站实现你的技术理想

AI 洞察

优缺点分析

优点

  • 职位涉及前沿技术(分布式训练、GPU优化、超长序列建模),能快速积累高含金量的工程经验
  • 公司技术氛围浓厚,团队致力于构建智能内容分发系统,有技术理想实现的平台
  • 职位对工程能力要求高,需要同时掌握模型训练、推理优化、系统设计等多方面技能,学习曲线陡峭
  • 推荐系统在线服务对延迟和QPS要求苛刻,问题排查和性能调优难度大

缺点 / 挑战

  • B站作为头部视频社区,用户基数大,推荐系统直接影响用户体验,技术挑战高,成长空间大
  • 作为校招职位,可能面临较大的工作强度和项目压力,需要快速适应和成长
  • 适合对深度学习工程化有强烈兴趣、喜欢挑战高并发和复杂系统、希望在推荐系统领域深入发展的技术人才

角色解读

  • 可在模型工程方向深入,成为分布式训练或推理优化专家,主导下一代推荐系统架构
  • 可横向拓展至搜推算法方向,理解业务模型并推动算法与工程的协同创新
  • 技术管理路径:从个人贡献者成长为技术负责人,带领团队解决复杂工程问题
  • 设计和演进大规模离散DNN模型的训练平台与推理框架,提升训练效率和在线服务性能
  • 参与多目标搜推模型的分布式训练框架设计,确保模型能够高效稳定地训练
  • 优化GPU多卡/多机训练和推理的可扩展性,支持超长用户行为序列建模和参数规模扩展
  • 突破超大Embedding表的存储、更新和检索技术瓶颈,优化存储和计算效率
  • 扎实的C++/Python编程功底,熟练掌握至少一种深度学习框架(PyTorch/TensorFlow)的底层原理
  • 深入理解分布式训练和高性能推理技术,包括GPU异构计算和编译优化工具(TVM、TensorRT、XLA等)
  • 有大规模搜广推模型工程经验,熟悉千亿参数DNN模型和超长序列建模的挑战与解决方案
  • 具备系统设计能力,能设计毫秒级延迟、高QPS的在线推理服务架构

申请策略

  • 在面试中展现对推荐系统全链路(数据、特征、模型、训练、推理)的理解,而不仅仅是单个组件
  • 关注B站技术博客和开源项目,了解团队的技术栈和方向,准备有针对性的问题
  • 重点突出在搜广推模型训练或推理方面的项目经验,尤其是大规模分布式训练或高性能推理优化相关
  • 强调C++/Python编程能力和系统设计能力,可附上GitHub或技术博客链接
  • 如果有GPU编程、CUDA、TensorRT等相关经验,务必详细描述
  • 展示对深度学习框架底层原理的理解,如PyTorch的分布式数据并行或模型并行
  • 提前系统学习分布式训练框架(如Horovod、DeepSpeed)和推理优化工具(TensorRT、ONNX Runtime)
  • 动手实践推荐系统的模型工程,例如复现一个简单的DNN推荐模型并优化其训练和推理性能

面试指南

  • 使用STAR(Situation-Task-Action-Result)方法描述项目经验,突出技术难点和你的贡献
  • 对于系统设计问题,先明确约束(延迟、QPS、数据量),然后分模块阐述架构(如训练框架、推理引擎、存储层),最后讨论可扩展性和容错
  • 对于原理性问题,先给出核心概念,然后结合具体工具或框架分析优缺点,最后联系实际场景
  • 请描述你在之前项目中如何设计和优化大规模DNN模型的分布式训练流程?
  • 面对高QPS推荐请求,如何设计在线推理服务以保证毫秒级延迟?
  • 解释一下TVM或TensorRT在模型推理中的作用,并举例如何优化一个模型
  • 超大Embedding表在分布式训练中会遇到哪些挑战?如何解决?
  • 如何评估和提升推荐系统的内容分发效率?从工程角度如何支撑?

职位点评

64
综合评分

B站校招推荐工程岗,前沿技术栈、发展空间大,但工作强度较高,需上海现场办公。

更适合这类人
适合追求技术成长、愿意投入时间和精力学习前沿工程技术的应届生,不介意一定的生活平衡牺牲。
表现最好
成长发展
相对薄弱
工作生活
薪资福利65
成长发展90
工作生活40
使命价值60

薪资福利

65中等

薪资未在JD中明确,但B站作为上市大厂,校招薪资具有竞争力,福利体系完善;但上海生活成本较高,整体补偿性中等。

薪资信号未披露(AI估算:20K-30K/月)

成长发展

90较高

职位涉及深度学习前沿技术(分布式训练、GPU优化、超长序列),技术栈现代,成长空间极大,且公司提供亿级用户平台,发展性极强。

技术前沿前沿/新兴技术
技术栈分布式训练、GPU高性能计算、DNN模型、推理优化、TVM、TensorRT、XLA、超长序列建模
业务类型profit_center

工作生活

40较低

上海现场办公,通勤可能较长;推荐系统团队可能面临较高工作强度和紧急需求,生活平衡一般。JD未提及弹性工作或远程。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

60中等

B站作为内容社区,推荐系统直接影响用户体验,有一定社会价值(让用户发现感兴趣内容),但商业驱动较强,意义感中等。

行业发展稳定成熟行业
社会影响中性/一般
使命信号用技术创造快乐、支撑亿万年轻人内容消费
创新程度积极采用新技术
Watch Jobs