美团的视觉生成基座算法专家薪资是多少？

该职位薪资范围为 45k–80k（人民币/月）。

视觉生成基座算法专家的工作地点在哪里？

该职位工作地点位于北京市。工作形式为仅现场办公。

该职位要求学历未注明学历及专家级经验工作经验。

🤖 AI 估测：¥45K-80K

发布时间：29 天前

该职位是美团基础研发平台的核心算法岗位，专注于视觉生成领域

你将负责研发面向图像、视频、音视频等全模态的生成基座模型，探索包括扩散模型、自回归模型、世界模型在内的前沿生成架构，并致力于提升模型的训练与推理效率，以支持游戏、虚拟人、直播增强等实际业务应用

负责视觉生成基座模型及应用的整体研发工作，面向图像生成、视频生成及音视频生成等全模态生成场景，构建行业先进的通用视觉生成能力

主要工作包括但不限于：

视觉全模态生成基座模型：设计和优化适用于图像、视频、音视频等多模态场景的统一生成基座模型架构

开展多模态、多任务联合训练与对齐（如图文、视听、动作等），提升模型的通用性与泛化能力

针对不同应用场景（如图像视频内容生成与编辑等）进行模型能力扩展与定制化优化

高效图像/视频Autoencoder与Tokenizer：研发高效压缩比、低失真度的图像/视频Autoencoder、Tokenizer 等表征模型，支持大规模训练与高吞吐推理

探索适用于长视频、多视角视频等场景的结构化表征方式（如时空Token、分层编码等），平衡压缩率与生成质量

高效生成与下一代生成架构探索：研究和实现高效的生成范式，包括但不限于扩散模型、自回归模型等，并在大规模数据与大模型场景下优化训练与推理效率

探索稀疏架构、MoE（Mixture-of-Experts）等新型大模型结构，提高模型参数利用率与可扩展性

针对不同延迟与成本要求，设计分级推理与加速方案（如多阶段生成、粗到细生成、裁剪与蒸馏等）

面向世界模型（World Model）的长视频与实时生成：探索对复杂时空动态、因果关系与交互逻辑的建模方法，支撑长时长视频、连续场景生成

研发支持长视频叙事、一致角色与连贯环境的生成技术，解决长时依赖建模、记忆与控制等难题

构建低延迟、高稳定性的实时生成方案，支持交互式生成、实时驱动内容（如游戏、虚拟人、直播增强等）应用

熟练掌握模式识别和计算机视觉领域的基础理论和方法，在一个或多个领域有深入研究：扩散模型、图像/视频生成与编辑、跨模态理解与生成、大规模数据处理与训练等

在机器学习和深度学习方面具备扎实的理论基础和工程能力，熟悉Pytorch等主流框架

优秀的分析和解决问题的能力，项目推动力和团队协作能力

视觉生成基座算法专家

🤖 AI 估测：¥45K-80K

发布时间：29 天前