Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫
Watch Jobs
浏览职位数据统计洞察报告招聘观察探索企业购买与订阅
我的收藏免费试用登录注册

Pony AI logo
小马智行
软件工程师 - 大模型端侧优化和部署
立即应聘

软件工程师 - 大模型端侧优化和部署

发布于 大约 9 小时前

普通员工/个人贡献者

北京市 / 广州市
中级经验
全职员工
仅现场办公
本科
软件工程
LLM
自动驾驶
CUDA
SGLang
vLLM
TensorRT-LLM
Nvidia Orin

AI 估算 · 25k–55k

自动驾驶和AI大模型方向热门,要求高端技能,北京/上海/广州薪资较高,中级经验,月薪25k-55k合理。

职位详情

关于这个职位

作为软件工程师,你将负责将大模型部署到自动驾驶车端的 NVIDIA Orin/Thor 平台,进行极致的性能、内存与能效优化

工作涉及推理引擎定制、核心算子开发和运行时管理,推动大模型在端到端决策和场景理解中的规模化落地
适合对系统性能优化和 AI 工程化有热情的工程师

最低要求

计算机、电子工程、人工智能、自动化等相关专业,本科及以上学历

具备 2 年以上 AI 推理部署、端侧AI、系统性能优化或模型工程化相关经验
精通 C/C++ 与 Python,具备扎实的计算机体系结构知识,熟悉 Linux 下的开发与调试
深入理解 Transformer / LLM / VLM 推理机制,熟悉 prefill、decode、KV Cache、attention、batching、streaming 等关键概念
精通至少一种推理框架(TensorRT-LLM / vLLM / SGLang / ONNX Runtime 等),具备引擎定制、算子开发或 graph 优化经验
精通大模型核心算子(Attention、FFN/MoE、LayerNorm/RMSNorm)的底层实现与性能优化方法

工作职责

适配、移植与深度优化车端推理引擎/运行时(TensorRT-LLM、TensorRT Edge-LLM、vLLM、SGLang 等),通过计算图优化、算子融合、高性能 CUDA 算子开发及 KV Cache、投机采样等优化,充分发挥 Orin / Thor 平台算力,满足实时性要求

建立 Benchmark 与 Profiling 体系,跟踪首字延迟(TTFT)、吞吐、内存峰值、冷启动、模型切换、cache 命中率、长稳与抖动等车端核心指标
支持场景理解、Function Calling、结构化输出、流式输出、多模态推理等核心场景的低延迟落地

优先资格

有 Qwen 等主流开源大模型的部署经验

有在 NVIDIA Orin / Thor 等车端平台部署大模型的经验(熟悉 TensorRT Edge-LLM 等工具链,了解 Orin 支持 FP16/INT8/INT4、Thor 支持 FP8/NVFP4 等平台特性差异)
有自动驾驶大模型量产落地经验,有端到端自动驾驶大模型或多模态大模型部署优化经验

AI 洞察

优缺点分析

优点

  • 直接参与自动驾驶大模型量产落地,技术前沿且应用价值高
  • 接触NVIDIA最新车端芯片Orin/Thor,积累稀缺的工程优化经验
  • 工作内容涉及全栈优化,技能树全面,职业竞争力强
  • 车端资源(算力、内存、功耗)严格受限,优化难度高
  • 需要跟进快速演进的大模型和推理框架技术,学习成本高
  • 适合对系统性能优化充满热情、有扎实的C++/CUDA基础,并希望在自动驾驶和AI芯片领域深耕的工程师

缺点 / 挑战

  • 对实时性和稳定性要求极高,调试压力大

角色解读

  • 成为自动驾驶AI推理优化专家,深入车载芯片底层技术
  • 晋升为技术Leader,带领团队攻克全栈优化难题
  • 横向拓展到更广泛的端侧AI部署或AI芯片设计方向
  • 将大模型推理引擎移植到车端NVIDIA Orin/Thor芯片,并做极致性能优化
  • 开发高性能CUDA算子,优化Attention、FFN等核心模块的计算效率
  • 建立车端推理的Benchmark和Profiling体系,监控延迟、吞吐等关键指标
  • 与自动驾驶算法团队合作,确保模型在端到端决策场景中的实时性和稳定性
  • 精通C/C++和Python,以及Linux系统开发调试
  • 深入理解Transformer/LLM推理机制,熟悉prefill、decode、KV Cache等
  • 掌握至少一种推理框架(TensorRT-LLM、vLLM等)并有引擎定制经验
  • 熟悉GPU编程(CUDA)和大模型核心算子优化方法

申请策略

  • 准备一个完整的端侧大模型部署优化案例,从方案设计到落地指标
  • 了解小马智行的技术栈和自动驾驶业务方向,展现匹配度
  • 突出AI推理引擎定制或算子开发的实战项目,尤其是针对NVIDIA GPU的优化
  • 量化展示性能优化成果(如延迟降低X倍,吞吐提升Y%)
  • 强调自动驾驶或端侧部署经验,展示对实时性和资源约束的理解
  • 深入学习和实践TensorRT-LLM或vLLM的源码,特别是图优化和算子融合部分
  • 熟悉NVIDIA Orin/Thor平台的编程模型和性能分析工具(Nsight)
  • 补充自动驾驶系统知识,理解端到端模型对部署的约束

面试指南

  • 结构化回答:问题描述→现有方案→你的优化思路→量化效果
  • 技术细节要深入但清晰,体现对底层原理的理解
  • 遇到困难时,展示分析问题和权衡决策的过程
  • 如何优化Transformer推理在Orin上的首字延迟(TTFT)?
  • 描述你在TensorRT-LLM中定制算子的经历,遇到过什么问题?
  • 在车端有限内存下,如何管理KV Cache并保证推理稳定性?
  • 自动驾驶端到端模型相比通用LLM部署有哪些特殊挑战?
  • 解释prefill和decode阶段的优化策略差异

职位点评

69
综合评分

自动驾驶大模型端侧优化前沿岗位,技术成长极佳,但工作强度和WLB一般。

更适合这类人
最看重技术成长和前沿挑战、能承受一定工作强度的工程师。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活40
使命价值75

薪资福利

70中等

薪资待遇面议,但根据行业和技能稀缺性,预计薪资有竞争力。但未提及具体福利,补偿性满足中等偏上。

薪资信号面议 (25K-55K/月)

成长发展

90较高

技术前沿,涉及大模型和自动驾驶核心优化,成长空间巨大。JD明确要求全栈优化经验,发展性满足高。

技术前沿前沿/新兴技术
技术栈TensorRT-LLM、vLLM、CUDA、NVIDIA Orin、Transformer、KV Cache
业务类型profit_center

工作生活

40较低

工作地点在北京/广州/上海写字楼,但自动驾驶行业可能加班较多,JD未提及WLB,生活化动机满足度低。

工作模式仅现场办公
办公地点市区核心地段
加班情况未提及(无法判断)

使命价值

75中等

自动驾驶大模型落地对社会有积极影响(提升出行安全),行业高速增长。但职位描述偏技术实现,使命感信号中等。

行业发展高速增长赛道
社会影响正向社会影响力较高
创新程度积极采用新技术
Watch Jobs
Watch Jobs

我们专注于实时追踪各企业最新职位动态,帮助您节省求职时间,快速找到理想工作机会。

探索

  • 浏览职位
  • 数据统计
  • 洞察报告
  • 数据方法论
  • 探索企业

订阅

  • 免费试用
  • 价格方案
  • 常见问题
  • 隐私政策

关注我们

微信公众号小红书淘宝店铺

© 2026 Watch Jobs. 保留所有权利

Created by jianglicat - 讲礼猫

小马智行 的其他在招职位

  • 软件开发实习生-C++/Python

    小马智行 · 上海市
    AI 估算 · 4k-8k
  • 机械结构设计工程师

    小马智行 · 广州市
    AI 估算 · 20k-35k
  • 线束工程师

    小马智行 · 广州市
    AI 估算 · 18k-28k
  • Robotaxi运营项目经理

    小马智行 · 广州市
    AI 估算 · 20k-35k
  • 自动驾驶测试工程师(26届校招)

    小马智行 · 广州市
    AI 估算 · 15k-25k

相似职位推荐

  • 高级/资深安卓工程师-深圳

    希音 · 深圳市
    AI 估算 · 25k-40k
  • 资深算法工程师(商家方向)

    希音 · 全球运营中心
    AI 估算 · 35k-55k
  • 高级/资深IOS工程师-深圳

    希音 · 上海市
    AI 估算 · 20k-40k
  • 平台开发工程师

    中国移动 · 北京市
    AI 估算 · 20k-35k
  • Telephony RIL Modem平台化架构师-豆包手机助手(北京/深圳)

    字节跳动 · 北京市
    AI 估算 · 40k-70k

小马智行 的其他在招职位

  • 软件开发实习生-C++/Python

    小马智行 · 上海市
    AI 估算 · 4k-8k
  • 机械结构设计工程师

    小马智行 · 广州市
    AI 估算 · 20k-35k
  • 线束工程师

    小马智行 · 广州市
    AI 估算 · 18k-28k
  • Robotaxi运营项目经理

    小马智行 · 广州市
    AI 估算 · 20k-35k
  • 自动驾驶测试工程师(26届校招)

    小马智行 · 广州市
    AI 估算 · 15k-25k

相似职位推荐

  • 高级/资深安卓工程师-深圳

    希音 · 深圳市
    AI 估算 · 25k-40k
  • 资深算法工程师(商家方向)

    希音 · 全球运营中心
    AI 估算 · 35k-55k
  • 高级/资深IOS工程师-深圳

    希音 · 上海市
    AI 估算 · 20k-40k
  • 平台开发工程师

    中国移动 · 北京市
    AI 估算 · 20k-35k
  • Telephony RIL Modem平台化架构师-豆包手机助手(北京/深圳)

    字节跳动 · 北京市
    AI 估算 · 40k-70k