腾讯的混元VLM 预训练数据算法工程师（北京/深圳/上海）薪资是多少？

该职位薪资范围为 25k–40k（人民币/月）。

混元VLM 预训练数据算法工程师（北京/深圳/上海）的工作地点在哪里？

该职位工作地点位于北京市、深圳市、上海市。工作形式为仅现场办公。

腾讯的混元VLM 预训练数据算法工程师（北京/深圳/上海）有什么任职要求？

该职位要求硕士学历及中级经验工作经验。

腾讯

混元VLM 预训练数据算法工程师（北京/深圳/上海）

立即应聘

混元VLM 预训练数据算法工程师（北京/深圳/上海）

发布于大约 15 小时前

普通员工/个人贡献者

北京市 / 深圳市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

多模态

VLM

DeepSpeed

数据增强

CLIP

自动标注

AI 估算 · 25k–40k

腾讯北京/深圳，算法岗位，硕士1年+经验，市场竞争力强，技术难度高，薪资位于大厂中上水平。

职位详情

关于这个职位

该职位负责构建和优化多模态大模型（VLM）的预训练数据体系，包括数据采集、清洗、标注、对齐算法及数据策略

你将参与前沿技术攻关，与模型训练团队协作，提升模型效果与训练效率

适合对多模态理解和数据算法有热情、具备工程能力的算法工程师

最低要求

计算机科学、人工智能、自动化等相关专业硕士及以上学历，1年以上多模态大模型或计算机视觉领域研发经验

扎实的算法基础：精通深度学习、计算机视觉与自然语言处理核心理论，深入理解 Transformer 架构、模态对齐原理及多模态预训练机制

工程能力突出：熟练掌握 Python 编程语言，精通 PyTorch 框架及 HuggingFace 生态，具备大规模数据处理（Spark/Flink）与分布式训练（DDP/FSDP/DeepSpeed）经验

数据处理实战经验：具备 VLM 预训练数据构建全流程经验，熟悉图像去重、图文匹配、自动标注、数据增强等关键技术，有亿级规模多模态数据集构建案例者优先

工作职责

多模态数据体系构建：设计并实现 VLM 预训练数据的采集、清洗、标注全流程方案，涵盖通用图文对、OCR 数据、Visual Grounding/Counting 数据、3D 空间理解数据及视频时序数据等多类型数据，建立数据质量评估体系（如 CLIP 相似度过滤、标注一致性校验）

数据算法创新设计：研发多模态数据对齐算法，优化视觉 - 语言模态映射策略

设计高效数据增强方案，包括图像形变、文本扰动、跨模态混合增强等，提升模型鲁棒性与场景适应性

探索自动标注与数据合成技术（如 Grounding DINO 自动框标注、LLM 辅助问答生成），降低标注成本

预训练数据策略优化：结合 VLM 预训练目标（模态对齐、上下文学习、复杂推理），设计数据配比方案与训练数据筛选策略

迭代优化数据配方，解决数据冗余、分布偏差等问题，提升训练效率与模型效果

工程化落地与协作：搭建高吞吐率数据处理流水线，支持大规模多模态数据的并行处理与分布式训练适配

与模型训练团队协作，打通数据 - 训练 - 评测闭环，提供定制化数据解决方案

跟进 NVILA、InternVL 等前沿技术，推动数据算法的工程化落地

技术沉淀与创新：跟踪 VLM 领域数据相关前沿研究（如预训练数据设计、模态融合策略），主导技术攻关与专利申请

输出可复用的数据处理算法组件与技术文档，建立团队数据算法基准体系

AI 洞察

优缺点分析

优点

腾讯平台强大，资源丰富，能接触海量多模态数据和前沿VLM技术
岗位专注数据算法，技术深度高，是VLM竞争的关键环节，成长空间大
团队技术氛围浓厚，可跟进NVILA、InternVL等前沿研究，产出论文和专利
对数据理解和算法设计能力要求高，需要同时掌握工程和算法技能
适合对多模态大模型数据算法有浓厚兴趣、具备扎实算法和工程能力、希望在技术深度上持续突破的算法工程师

缺点 / 挑战

预训练数据工作迭代快，可能面临高强度研发节奏和多任务并行压力
需要持续跟踪最新研究，保持技术先进性，学习成本较高

角色解读

深耕多模态数据算法，成为数据策略专家，主导下一代预训练数据范式
向模型训练方向拓展，成为全栈多模态大模型研究员，参与核心模型研发
晋升技术Leader，带领团队攻克数据算法难题，推动工程化落地与技术创新
设计和实现多模态数据（图文、视频、3D等）的采集、清洗、标注全流程方案，并建立质量评估体系
研发数据对齐算法与增强技术，优化视觉-语言模态映射，提升模型鲁棒性
结合预训练目标优化数据配比与筛选策略，解决数据冗余和分布偏差问题
搭建高吞吐率数据处理流水线，与训练团队协作打通数据-训练-评测闭环
精通深度学习、CV、NLP核心理论，深入理解Transformer和模态对齐
熟练掌握Python、PyTorch、HuggingFace生态，具备大规模数据处理（Spark/Flink）经验
掌握分布式训练（DDP/FSDP/DeepSpeed），有亿级多模态数据集构建经验者优先
熟悉数据增强、自动标注、图像去重、图文匹配等关键技术

申请策略

在简历中量化数据规模（如处理过10亿图文对）和效果提升（如训练效率提升30%）
提前了解混元大模型的技术方向，面试中展示对VLM数据策略的思考
突出多模态数据处理经验，如亿级图文对构建、自动标注、数据增强等具体项目
强调工程能力，特别是Spark/Flink大规模数据处理和PyTorch分布式训练经验
展示算法创新成果，如数据对齐算法、配比优化策略相关的论文或专利
建议补充3D视觉数据（如点云、空间理解）处理经验，以覆盖JD中的3D数据要求
可深入研究Grounding DINO、LLM辅助标注等自动标注技术，提升竞争力

面试指南

回答技术问题时：先阐述核心原理，再结合自身项目经验，最后总结效果和思考
对于开放性问题：给出结构化方案（如数据配比按任务比例、难度曲线等），并说明权衡
展示工程能力时：强调系统性思维，包括数据流设计、异常处理、性能优化等
请详细描述你处理过的一个大规模多模态数据集构建流程，包括遇到的挑战和解决方案
如何设计VLM预训练数据的配比？请举例说明你的思路
你如何评估数据质量？使用过哪些过滤或校验方法？
介绍一下你熟悉的数据增强技术，并说明在VLM中的适用场景
请解释DeepSpeed的ZeRO优化原理，并说明在数据预处理流水线中如何适配分布式训练

职位点评

综合评分

腾讯VLM预训练数据算法岗，前沿技术栈，薪资竞争力强，但WLB一般。

更适合这类人

适合追求技术前沿、高强度成长、高回报的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展92

工作生活40

使命价值70

薪资福利

85较高

腾讯作为行业巨头，提供具有竞争力的薪酬和福利，薪资属于市场高水平，且上市公司的稳定性强。

薪资信号未披露（AI估算：25K-40K/月）

成长发展

92较高

该职位深度聚焦VLM预训练数据这一前沿方向，技术栈先进（Transformer、DeepSpeed等），且有明确的创新和专利产出要求，成长空间巨大。

技术前沿前沿/新兴技术

技术栈VLM、Transformer、PyTorch、DeepSpeed、NVILA、InternVL、CLIP、Grounding DINO

成长机会主导技术攻关与专利申请、建立团队数据算法基准体系

业务类型profit_center

工作生活

40较低

工作地点在北京/深圳/上海，需现场办公，JD未提及弹性工作或远程，且预训练项目可能面临高强度迭代，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

多模态大模型是人工智能的前沿领域，对技术进步有推动作用，但社会影响力偏中性，主要服务于商业应用。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

腾讯

混元VLM 预训练数据算法工程师（北京/深圳/上海）

立即应聘

混元VLM 预训练数据算法工程师（北京/深圳/上海）

发布于大约 15 小时前

普通员工/个人贡献者

北京市 / 深圳市

中级经验

全职员工

仅现场办公

硕士

研究与开发 (研发)

PyTorch

多模态

VLM

DeepSpeed

数据增强

CLIP

自动标注

AI 估算 · 25k–40k

腾讯北京/深圳，算法岗位，硕士1年+经验，市场竞争力强，技术难度高，薪资位于大厂中上水平。

职位详情

关于这个职位

该职位负责构建和优化多模态大模型（VLM）的预训练数据体系，包括数据采集、清洗、标注、对齐算法及数据策略

你将参与前沿技术攻关，与模型训练团队协作，提升模型效果与训练效率

适合对多模态理解和数据算法有热情、具备工程能力的算法工程师

最低要求

计算机科学、人工智能、自动化等相关专业硕士及以上学历，1年以上多模态大模型或计算机视觉领域研发经验

扎实的算法基础：精通深度学习、计算机视觉与自然语言处理核心理论，深入理解 Transformer 架构、模态对齐原理及多模态预训练机制

工程能力突出：熟练掌握 Python 编程语言，精通 PyTorch 框架及 HuggingFace 生态，具备大规模数据处理（Spark/Flink）与分布式训练（DDP/FSDP/DeepSpeed）经验

工作职责

数据算法创新设计：研发多模态数据对齐算法，优化视觉 - 语言模态映射策略

设计高效数据增强方案，包括图像形变、文本扰动、跨模态混合增强等，提升模型鲁棒性与场景适应性

探索自动标注与数据合成技术（如 Grounding DINO 自动框标注、LLM 辅助问答生成），降低标注成本

预训练数据策略优化：结合 VLM 预训练目标（模态对齐、上下文学习、复杂推理），设计数据配比方案与训练数据筛选策略

迭代优化数据配方，解决数据冗余、分布偏差等问题，提升训练效率与模型效果

工程化落地与协作：搭建高吞吐率数据处理流水线，支持大规模多模态数据的并行处理与分布式训练适配

与模型训练团队协作，打通数据 - 训练 - 评测闭环，提供定制化数据解决方案

跟进 NVILA、InternVL 等前沿技术，推动数据算法的工程化落地

技术沉淀与创新：跟踪 VLM 领域数据相关前沿研究（如预训练数据设计、模态融合策略），主导技术攻关与专利申请

输出可复用的数据处理算法组件与技术文档，建立团队数据算法基准体系

AI 洞察

优缺点分析

优点

腾讯平台强大，资源丰富，能接触海量多模态数据和前沿VLM技术
岗位专注数据算法，技术深度高，是VLM竞争的关键环节，成长空间大
团队技术氛围浓厚，可跟进NVILA、InternVL等前沿研究，产出论文和专利
对数据理解和算法设计能力要求高，需要同时掌握工程和算法技能
适合对多模态大模型数据算法有浓厚兴趣、具备扎实算法和工程能力、希望在技术深度上持续突破的算法工程师

缺点 / 挑战

预训练数据工作迭代快，可能面临高强度研发节奏和多任务并行压力
需要持续跟踪最新研究，保持技术先进性，学习成本较高

角色解读

深耕多模态数据算法，成为数据策略专家，主导下一代预训练数据范式
向模型训练方向拓展，成为全栈多模态大模型研究员，参与核心模型研发
晋升技术Leader，带领团队攻克数据算法难题，推动工程化落地与技术创新
设计和实现多模态数据（图文、视频、3D等）的采集、清洗、标注全流程方案，并建立质量评估体系
研发数据对齐算法与增强技术，优化视觉-语言模态映射，提升模型鲁棒性
结合预训练目标优化数据配比与筛选策略，解决数据冗余和分布偏差问题
搭建高吞吐率数据处理流水线，与训练团队协作打通数据-训练-评测闭环
精通深度学习、CV、NLP核心理论，深入理解Transformer和模态对齐
熟练掌握Python、PyTorch、HuggingFace生态，具备大规模数据处理（Spark/Flink）经验
掌握分布式训练（DDP/FSDP/DeepSpeed），有亿级多模态数据集构建经验者优先
熟悉数据增强、自动标注、图像去重、图文匹配等关键技术

申请策略

在简历中量化数据规模（如处理过10亿图文对）和效果提升（如训练效率提升30%）
提前了解混元大模型的技术方向，面试中展示对VLM数据策略的思考
突出多模态数据处理经验，如亿级图文对构建、自动标注、数据增强等具体项目
强调工程能力，特别是Spark/Flink大规模数据处理和PyTorch分布式训练经验
展示算法创新成果，如数据对齐算法、配比优化策略相关的论文或专利
建议补充3D视觉数据（如点云、空间理解）处理经验，以覆盖JD中的3D数据要求
可深入研究Grounding DINO、LLM辅助标注等自动标注技术，提升竞争力

面试指南

回答技术问题时：先阐述核心原理，再结合自身项目经验，最后总结效果和思考
对于开放性问题：给出结构化方案（如数据配比按任务比例、难度曲线等），并说明权衡
展示工程能力时：强调系统性思维，包括数据流设计、异常处理、性能优化等
请详细描述你处理过的一个大规模多模态数据集构建流程，包括遇到的挑战和解决方案
如何设计VLM预训练数据的配比？请举例说明你的思路
你如何评估数据质量？使用过哪些过滤或校验方法？
介绍一下你熟悉的数据增强技术，并说明在VLM中的适用场景
请解释DeepSpeed的ZeRO优化原理，并说明在数据预处理流水线中如何适配分布式训练

职位点评

综合评分

腾讯VLM预训练数据算法岗，前沿技术栈，薪资竞争力强，但WLB一般。

更适合这类人

适合追求技术前沿、高强度成长、高回报的求职者，对工作生活平衡要求不高。

表现最好

成长发展

相对薄弱

工作生活

薪资福利85

成长发展92

工作生活40

使命价值70

薪资福利

85较高

腾讯作为行业巨头，提供具有竞争力的薪酬和福利，薪资属于市场高水平，且上市公司的稳定性强。

薪资信号未披露（AI估算：25K-40K/月）

成长发展

92较高

该职位深度聚焦VLM预训练数据这一前沿方向，技术栈先进（Transformer、DeepSpeed等），且有明确的创新和专利产出要求，成长空间巨大。

技术前沿前沿/新兴技术

技术栈VLM、Transformer、PyTorch、DeepSpeed、NVILA、InternVL、CLIP、Grounding DINO

成长机会主导技术攻关与专利申请、建立团队数据算法基准体系

业务类型profit_center

工作生活

40较低

工作地点在北京/深圳/上海，需现场办公，JD未提及弹性工作或远程，且预训练项目可能面临高强度迭代，WLB一般。

工作模式仅现场办公

办公地点未明确

加班情况未提及（无法判断）

使命价值

70中等

多模态大模型是人工智能的前沿领域，对技术进步有推动作用，但社会影响力偏中性，主要服务于商业应用。

行业发展高速增长赛道

社会影响中性/一般

创新程度积极采用新技术

Watch Jobs

混元VLM 预训练数据算法工程师（北京/深圳/上海）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

混元VLM 预训练数据算法工程师（北京/深圳/上海）

职位详情

关于这个职位

最低要求

工作职责

AI 洞察

优缺点分析

角色解读

申请策略

面试指南

职位点评

薪资福利

成长发展

工作生活

使命价值

腾讯 的其他在招职位

腾讯云大数据-高级产品架构师

智慧零售算法工程师

Project W-AI游戏工具策划

混元Agent后训练算法工程师（北京/上海/深圳）

微信读书/输入法/秒剪-大模型后台开发工程师

相似职位推荐

上车体布置集成工程师-人机工程方向

算法工程师-大模型

人形机器人全身运动控制算法工程师（强化学习方向）

Senior Algorithm Engineer

Advanced Physics & Algorithm Engineer

腾讯 的其他在招职位

腾讯云大数据-高级产品架构师

智慧零售算法工程师

Project W-AI游戏工具策划

混元Agent后训练算法工程师（北京/上海/深圳）

微信读书/输入法/秒剪-大模型后台开发工程师

相似职位推荐

上车体布置集成工程师-人机工程方向

算法工程师-大模型

人形机器人全身运动控制算法工程师（强化学习方向）

Senior Algorithm Engineer

Advanced Physics & Algorithm Engineer

腾讯的其他在招职位

腾讯的其他在招职位