小马智行的算法工程师 - 视频生成薪资是多少？

该职位薪资范围为 30k–60k（人民币/月）。

算法工程师 - 视频生成的工作地点在哪里？

该职位工作地点位于广州市、上海市、北京市。工作形式为仅现场办公。

小马智行的算法工程师 - 视频生成有什么任职要求？

该职位要求本科学历及高级经验工作经验。

小马智行

算法工程师 - 视频生成

立即应聘

算法工程师 - 视频生成

发布于大约 2 个月前

普通员工/个人贡献者

广州市 / 上海市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

PyTorch

视频生成

DeepSpeed

RLHF

DiT

DPO

Megatron

Diffusion Models

AI 估算 · 30k–60k

视频生成算法为前沿技术，人才稀缺，小马智行作为自动驾驶头部公司，薪资竞争力强，参考一线大厂算法岗水平。

职位详情

关于这个职位

该职位负责视频生成基础模型（Text-to-Video等）的核心算法研发与优化，涉及大规模预训练、SFT、RLHF等全链路训练，以及数据清洗和推理加速

你将参与打造物理世界模拟器级别的生成效果，适合对生成式AI有深厚兴趣和工程落地能力的技术极客

最低要求

计算机/人工智能/数学等相关专业，本科及以上学历

熟练掌握 Python 及常用数据结构，具备扎实的算法底子与优秀的工程实现能力

熟悉主流深度学习框架（PyTorch），具备大规模分布式训练（如 DeepSpeed, Megatron, FSDP）的实操、调参及系统性的踩坑经验

掌握主流生成式视觉算法与基础理论：深刻理解 Diffusion Models（扩散模型）、Transformer/DiT 架构原理，熟悉主流图像/视频生成算法及底座

具备极强的数据敏感度，熟悉多模态大模型（如 Qwen-VL, GPT-4o 等）的应用，对复杂真实场景数据的提纯、清洗规则设计和 Prompt 体系构建有实战经验

强烈的工程落地导向，关注生成内容的逼真程度、动态细节及物理合理性，熟悉相关质量指标（如 FVD, 运动平滑度评估），能独立解析和修改前沿开源代码

具备快速学习能力与良好的沟通协作能力，有技术极客精神

工作职责

基础模型研发：负责视频生成基础模型（Text-to-Video, Image-to-Video, Video Inpainting 等）的核心算法研发、架构探索与生成效果迭代

全链路训练与优化：深入参与生成模型的全生命周期研发，包括大规模预训练、SFT、人类偏好对齐（RLHF/DPO 等强化学习方法）

追求生成内容的真实感（Photorealism），大幅提升模型对客观物理规律的理解、时空连贯性以及复杂真实物理世界的还原能力（打造 Physical World Simulator 级别效果）

数据闭环与清洗：搭建并完善高质量视频数据工程流水线，主导基于多模态大模型（VLM）的海量视频数据自动化清洗、多维度标注、过滤与质量评估，构建高质量的训练数据集

推理加速与落地：结合业务需求，开展模型轻量化、显存优化及推理加速工作，提升云端推理吞吐效率与生成速度，保障算法的高效工程落地

优先资格

具备从零到一主导或深度参与大规模视频生成/图像生成基础模型训练经验者优先

在生成模型的强化学习（RLHF/DPO）与真实偏好对齐方向有深入研究或实际落地经验者优先

有自动驾驶仿真、世界模型（World Models）或物理世界模拟视频生成相关研发经验者极大加分

在开源社区活跃，对知名生成式项目有过核心代码贡献者优先

在 CVPR, ICCV, ECCV, NeurIPS 等顶级会议发表过生成方向高质量论文者优先

AI 洞察

优缺点分析

优点

前沿技术方向：视频生成和世界模型是AI领域最热门的方向之一，技术积累价值高
公司平台好：小马智行是自动驾驶头部企业，技术氛围浓厚，资源充足
全链路参与：从研究到工程落地，能全面锻炼算法研发和工程能力
薪资竞争力强：该岗位薪资水平在行业内处于高位，且公司融资良好
技术难度大：需要深入理解扩散模型、强化学习等复杂算法，对数学和工程能力要求高
适合对生成式AI有强烈热情、具备扎实算法功底和工程能力、追求技术前沿的资深算法工程师

缺点 / 挑战

工作强度可能较高：作为核心算法岗，项目节奏快，可能需要加班
竞争激烈：该岗位吸引大量顶尖人才，面试和入职后压力较大

角色解读

技术纵深发展：从视频生成算法专家成长为多模态生成领域的技术带头人
横向拓展：可转向自动驾驶仿真、世界模型等更广泛的AI应用领域
管理路线：积累项目经验后，可晋升为技术团队负责人或算法总监
研发视频生成基础模型，包括Text-to-Video、Image-to-Video等，探索新架构并迭代生成效果
参与全链路训练，从大规模预训练到SFT和RLHF/DPO，提升生成内容的真实感和物理合理性
搭建数据工程流水线，利用多模态大模型进行视频数据清洗、标注和质量评估
进行模型轻量化、显存优化和推理加速，确保算法高效落地到业务场景
扎实的编程和算法基础，精通Python和PyTorch，熟悉分布式训练框架如DeepSpeed、Megatron
深入理解Diffusion Models、Transformer/DiT等生成式视觉算法原理
具备数据敏感度，熟悉多模态大模型应用，能设计数据清洗规则和Prompt体系
工程落地能力强，关注生成质量指标如FVD，能独立修改开源代码

申请策略

在简历中量化项目成果，如生成视频的FVD指标提升、训练效率提升等
了解小马智行的业务方向，特别是自动驾驶仿真对视频生成的需求，在面试中展示相关性
突出视频/图像生成相关项目经验，尤其是从零到一训练大模型的经验
强调分布式训练实操经历，包括DeepSpeed、Megatron等框架的使用和调优
展示数据清洗和Prompt工程的具体成果，如构建高质量数据集
列出顶会论文或开源贡献，证明技术影响力
深入学习Diffusion Models和Transformer/DiT的论文及代码实现
动手实践RLHF/DPO在生成模型中的应用，了解偏好对齐技术

面试指南

对于原理性问题，先给出核心概念，再逐步深入细节，结合公式或图表说明
对于项目经验问题，采用STAR法则：情境、任务、行动、结果，突出个人贡献和量化成果
对于开放性问题，展示系统性思考，从多个维度（数据、模型、评估）给出方案
请详细解释Diffusion Models的原理，包括前向和反向过程
描述你参与过的一个大规模分布式训练项目，如何解决数据并行和模型并行中的问题？
如何设计一个数据清洗流水线来提升视频生成模型的质量？
RLHF在生成模型中如何应用？请举例说明
你如何评估视频生成模型的质量？除了FVD还有哪些指标？

匹配度报告

综合匹配度

前沿视频生成算法岗，高薪高成长，但工作强度可能较大。

适合人群

最适合追求技术成长和前沿创新的求职者，对工作生活平衡要求不高。

最强匹配

成长发展匹配

最弱匹配

工作生活匹配

薪资福利75

成长发展95

工作生活40

使命价值80

薪资福利匹配

75中等

薪资水平较高，但JD未明确福利，整体补偿性较好。

薪资信号偏高 (30K-60K/月)

成长发展匹配

95较高

前沿技术方向，全链路研发，成长空间极大。

技术前沿前沿/新兴技术

技术栈Python、PyTorch、Diffusion Models、Transformer、DiT、DeepSpeed、Megatron、RLHF、DPO、视频生成

业务类型profit_center

工作生活匹配

40较低

仅现场办公，未提及WLB，可能工作强度较大。

工作模式仅现场办公

办公地点科技园/产业园

加班情况未提及（无法判断）

使命价值匹配

80较高

视频生成技术应用于自动驾驶仿真，具有行业变革意义，使命感较强。

行业发展高速增长赛道

社会影响正向社会影响力较高

创新程度开拓性创新（行业首创）

Watch Jobs

小马智行

算法工程师 - 视频生成

立即应聘

算法工程师 - 视频生成

发布于大约 2 个月前

普通员工/个人贡献者

广州市 / 上海市

高级经验

全职员工

仅现场办公

本科

研究与开发 (研发)

PyTorch

视频生成

DeepSpeed

RLHF

DiT

DPO

Megatron

Diffusion Models

AI 估算 · 30k–60k

视频生成算法为前沿技术，人才稀缺，小马智行作为自动驾驶头部公司，薪资竞争力强，参考一线大厂算法岗水平。