百度的自动驾驶语义理解算法实习生（J98243）薪资是多少？

该职位薪资范围为 8k–15k（人民币/月）。

自动驾驶语义理解算法实习生（J98243）的工作地点在哪里？

该职位工作地点位于北京市、上海市。工作形式为仅现场办公。

该职位要求学历未注明学历及初级经验工作经验。

🤖 AI 估测：¥8K-15K

发布时间：22 天前

这是一个面向自动驾驶领域的算法实习岗位，你将专注于利用多模态大模型（如Qwen-VL、InternVL）来提升自动驾驶系统的语义理解能力

主要工作包括设计语义理解架构，将传统感知模型升级为VLM架构，并构建自动化数据标注流程

你将有机会接触前沿技术，解决复杂场景下的识别难题，并探索语义理解与端到端驾驶系统的融合

基于多模态大模型（如Qwen-VL、InternVL等）设计面向自动驾驶的语义理解架构，实现红绿灯状态识别、箭头灯语义解析、交通标志OCR与语义理解等任务的性能跃升

参与将现有基于CNN的传统感知模型向VLM架构迁移，通过知识蒸馏、高效微调等技术，在保持模型轻量化的同时大幅提升复杂场景（极端天气、遮挡、罕见标志）的识别准确率

构建基于VLM的自动化数据标注与质量验证 pipeline，利用大模型的零样本/少样本能力挖掘长尾Corner Case，建立“数据挖掘-模型迭代-线上验证”的闭环优化机制

探索将VLM语义理解能力与端到端驾驶系统融合，实现从像素级感知到高层语义推理的直接映射，提升决策规划的可解释性

熟练使用AI Coding进行高效开发，能够快速借助AI理解VLM代码库、实现复杂的多模态数据 pipeline、调试分布式训练脚本，并具备对AI生成代码的架构审查与性能优化能力

熟悉VLM的基本架构，了解CLIP对比学习、指令微调、RLHF在视觉任务中的应用

扎实的Python基础，精通PyTorch，熟悉HuggingFace Transformers库，具备多机多卡训练或模型量化部署

熟悉计算机视觉中的目标检测、图像分类、语义分割，对红绿灯识别、交通标志检测等自动驾驶语义任务有基本了解

有VLM/MLLM在自动驾驶或机器人场景下的实际项目经验者优先

掌握多模态数据工程（Image-Text Pair构建、Data Filtering、Instruction Data Generation）者优先

在CVPR、ECCV、NeurIPS等顶会发表过多模态学习或自动驾驶相关论文者优先

自动驾驶语义理解算法实习生（J98243）

🤖 AI 估测：¥8K-15K

发布时间：22 天前