
腾讯
混元大语言数据工程师(北京/深圳)
混元大语言数据工程师(北京/深圳)
发布于 3 天前普通员工/个人贡献者
深圳市
高级经验
全职员工
仅现场办公
硕士
NLP
数据工程
PyTorch
计算机视觉
TensorFlow
文档解析
大模型
AI 估算 · 30k–50k
腾讯大厂高级岗位,深圳一线城市,大模型前沿领域,薪资竞争力强,但需硕士且经验丰富。
职位详情
关于这个职位
加入腾讯混元大模型团队,负责文档数据处理的全链路工程实现,包括存储计算、解析、去重、质量筛选等环节
你将参与十亿级数据的大规模处理,推动大模型预训练与多模态理解,是核心技术岗位
最低要求
硕士及以上学历,计算机视觉、自然语言处理或多模态方向背景优先
熟练掌握深度学习框架(如PyTorch、TensorFlow),熟悉模型训练及数据处理经验,具备优秀的独立开发与分析调研能力
能handle十亿量级的数据处理,对常用的数据工程技术如spark、hadoop、ray,文件存储系统有实践经验
具备良好的团队协作能力,具备强烈的自我驱动力,能够独立完成系统分析与优化,落地大模型应用
动手能力强,能熟练使用Agent及AI coding工具高效完成工作
工作职责
负责文档数据处理的全链路工程实现,包括负责支持文档数据存储计算处理、解析、去重、质量筛选等数据处理环节
有丰富的文档解析或大模型预训练数据处理经验、基于Agent的数据生产链路研发经验优先
有多模态理解数据处理经验优先
优先资格
有丰富的文档解析或大模型预训练数据处理经验优先
有多模态理解数据处理经验优先
有丰富的数据工程架构设计经验优先
有基于Agent的数据生产链路研发经验优先
AI 洞察
优缺点分析
优点
- 深度参与国内顶级大模型项目,技术前沿,成长空间大
- 腾讯平台资源丰富,与顶尖AI团队合作,学习机会多
- 高薪资高福利,大厂背书,职业发展路径清晰
- 大模型领域竞争激烈,需要持续学习前沿技术
- 适合有较强数据工程和深度学习背景、热爱技术、渴望在大模型领域深耕的求职者
缺点 / 挑战
- 处理十亿级数据对技术深度和工程能力要求高,压力较大
- 文档解析和多模态数据处理复杂度高,挑战性强
角色解读
- 向大模型数据专家方向深耕,成为数据工程架构师
- 可转向大模型训练或推理优化,拓展为全栈AI工程师
- 在腾讯混元团队内积累经验,未来可晋升为技术Leader或数据工程负责人
- 负责大语言模型训练数据的全链路处理,包括数据采集、存储、解析、去重和质量筛选
- 设计并实现十亿级数据的高效处理流程,使用Spark、Hadoop、Ray等大数据技术
- 参与文档解析、多模态理解等前沿数据处理任务,优化大模型预训练数据质量
- 应用Agent和AI编码工具提升数据处理管道的自动化程度
- 扎实的深度学习基础,熟练使用PyTorch或TensorFlow,有模型训练经验
- 大数据工程能力,精通Spark、Hadoop、Ray等分布式计算框架
- 优秀的独立开发和分析调研能力,能处理十亿级数据量
- 良好的团队协作和自驱力,能独立完成系统分析与优化
申请策略
- 了解腾讯混元大模型背景和业务方向,在面试中展示对数据质量影响模型效果的理解
- 准备1-2个复杂数据工程问题的解决方案,体现系统设计能力
- 突出大规模数据处理经验,尤其是Spark、Hadoop、Ray等技术的实际项目
- 强调深度学习框架使用经历,附带具体的训练或数据处理案例
- 如果有文档解析、多模态数据处理或大模型预训练相关经验,务必重点描述
- 展示使用Agent或AI编码工具提升效率的实例
- 系统学习大模型预训练数据管道设计,关注业界最佳实践
- 掌握Ray等新兴分布式计算框架,补充数据工程架构知识
面试指南
- 针对技术方案类问题,使用STAR法则:背景-任务-行动-结果,突出数据量级、技术选型和效果
- 对于开放性问题,先拆解问题关键点,再分点回答,体现系统性思维
- 遇到不熟悉的问题,坦诚说明但展示学习意愿和解决思路
- 请描述一次处理十亿级数据的工程经验,包括技术选型和挑战
- 如何使用Spark进行大规模数据去重?请讲出具体实现方案
- 大模型训练数据中,数据质量如何影响模型效果?你有哪些优化方法?
- 多模态数据处理中,如何对齐文本和图像数据?
- 你如何用Agent或AI工具自动化的一个数据处理流程?请举例
匹配度报告
70
综合匹配度
腾讯大模型核心数据岗位,前沿技术栈,高成长但工作强度可能大。
适合人群
最适合追求技术前沿和高速成长的求职者,对WLB要求不高。
最强匹配
成长发展匹配
最弱匹配
工作生活匹配
薪资福利80
成长发展92
工作生活40
使命价值70
薪资福利匹配
80较高
腾讯大厂薪资福利有竞争力,但JD未披露具体薪资,需要面试沟通。
薪资信号未披露(AI估算:30K-50K/月)
成长发展匹配
92较高
前沿大模型技术栈,任务涉及十亿级数据处理和Agent应用,成长空间极大。
技术前沿前沿/新兴技术
技术栈PyTorch、TensorFlow、Spark、Hadoop、Ray、大模型、多模态、Agent
业务类型profit_center
工作生活匹配
40较低
JD未提及工作模式和福利,且大厂数据岗位通常强度较高,WLB一般。
工作模式未明确
办公地点科技园/产业园
加班情况未提及(无法判断)
使命价值匹配
70中等
大模型赛道高速增长,对社会智能化有推动作用,但使命感信号不明显。
行业发展高速增长赛道
社会影响中性/一般
创新程度积极采用新技术
腾讯 的其他在招职位
相似职位推荐
Watch Jobs