PINGAN logo
中国平安
算法工程师

算法工程师

发布于 大约 14 小时前

普通员工/个人贡献者

深圳市
中级经验
全职员工
仅现场办公
硕士
研究与开发 (研发)
PyTorch
预训练
LLM
SFT
DeepSpeed
多模态大模型
RLHF
CLIP
ViT

AI 估算 · 25k–45k

多模态大模型方向热门,人才稀缺,结合深圳大厂平台,薪资竞争力强。

职位详情

关于这个职位

该职位负责多模态大模型的完整算法研发,从预训练到业务落地,涉及模型结构设计、跨模态对齐、指令微调等核心技术

你将跟踪前沿技术,并探索大模型与Agent的融合应用,解决文档智能、图表推理等业务难题
适合有深厚大模型实战经验、热爱技术创新的人才

最低要求

硕士及以上学历,计算机、人工智能、模式识别、计算机视觉、NLP相关专业

年及以上多模态大模型研发实战经验,完整深度参与过至少一款多模态理解模型从预训练、微调至业务落地全流程项目
精通多模态大模型底层原理,熟练掌握LLM预训练、增量训练、模态编码器设计、跨模态对齐、SFT微调、RLHF/DPO对齐全套技术
熟悉ViT、CLIP、Qwen-VL、LLaVA等主流多模态架构
具备文档智能研发经验,熟悉OCR、DocVQA、图表理解、长文本长文档推理优化技术栈
熟练使用PyTorch深度学习框架,掌握Megatron-LM、vLLM、DeepSpeed等大模型训练、分布式推理工具,具备完整的数据治理、数据构建、模型训练、部署优化工程能力
具备良好技术调研、方案论证、问题排查能力,善于拆解复杂技术难题,良好沟通协作与项目推进能力

工作职责

负责多模态大模型(MLLM)全流程算法研发,完成模型持续预训练、增量后训练、指令微调SFT、偏好对齐Alignment全链路工作

开展模型结构设计、模态融合方案设计、损失函数设计优化、训练策略迭代制定,提升模型综合能力
攻坚跨模态语义对齐、多模态特征融合、异构图文/图表/文档数据解析理解等核心技术难点,优化模型在跨模态检索、视觉问答VQA、Chart/DocVQA、图文理解、长文档逻辑推理、图文生成等任务效果
跟踪全球多模态大模型前沿技术演进,结合业务场景输出技术路线规划,主导模型迭代优化、技术难点攻关,沉淀可复用技术方案
深耕业务场景,探索多模态模型与智能体Agent融合落地,围绕文档智能解析、grounding,图表推理、专业内容问答、复杂逻辑推理搭建垂域应用方案,实现算法技术和业务深度融合
牵头多模态模型项目完整研发、迭代与落地交付,针对业务痛点定制模型优化方案,持续验证、复盘提升模型线上表现

优先资格

博士优先

有顶会论文、模型开源产出优先
了解多模态Agent应用搭建思路优先

AI 洞察

优缺点分析

优点

  • 多模态大模型是当前AI最热门方向,技术前沿,积累的经验有很高的市场价值
  • 平安作为大型金融集团,业务场景丰富,模型落地机会多,能锻炼工程化能力
  • 团队技术氛围浓厚,有顶会论文和开源产出机会,利于个人品牌建设
  • 业务落地过程中可能面临数据质量、模型泛化等实际问题,需要较强的解决问题能力
  • 适合有2-5年大模型经验、对多模态技术有热情、希望深耕前沿算法并推动技术落地的技术型人才

缺点 / 挑战

  • 技术迭代快,需要持续学习跟踪最新论文和开源项目,学习压力较大
  • 工作强度可能较高,涉及多个项目并行,需要良好的时间管理和沟通协作能力

角色解读

  • 技术专家路线:深耕多模态大模型,成为领域顶尖算法专家,主导前沿技术研究
  • 技术管理路线:从技术负责人逐步晋升为团队Leader或技术总监,带领团队攻克难题
  • 业务架构路线:结合业务场景,转型为AI解决方案架构师,推动大模型在行业落地
  • 负责多模态大模型的完整研发,包括预训练、微调、对齐等全链路工作
  • 攻克跨模态语义对齐、多模态特征融合等核心技术难点,优化模型在视觉问答、文档理解等任务的表现
  • 跟踪前沿技术,规划技术路线,并探索大模型与Agent融合的业务应用
  • 牵头项目研发与落地,针对业务痛点定制优化方案并持续迭代
  • 精通多模态大模型原理与主流架构(如ViT、CLIP、Qwen-VL、LLaVA)
  • 熟练掌握LLM训练全流程技术,包括预训练、SFT、RLHF/DPO等
  • 具备扎实的工程能力,熟练使用PyTorch、Megatron-LM、DeepSpeed等工具
  • 有文档智能或视觉理解相关项目经验,熟悉OCR、DocVQA等

申请策略

  • 了解平安的业务场景(金融、保险、医疗),思考多模态大模型如何在这些领域落地
  • 准备一个完整的项目复盘,包括遇到的问题、解决方案和最终效果
  • 突出多模态大模型全流程项目经验,尤其是从预训练到落地的完整案例
  • 强调顶会论文、开源贡献等学术成果,体现技术深度
  • 详细描述在模型结构设计、训练策略优化、跨模态对齐等方面的具体工作
  • 展示工程能力,如使用PyTorch、DeepSpeed等工具进行大规模分布式训练的经验
  • 复习多模态大模型前沿论文,尤其是2024-2025年的新架构(如LLaVA-NeXT、Qwen2-VL等)
  • 熟悉Agent与多模态结合的应用框架,如LangChain、AutoGen等

面试指南

  • 采用STAR法则(情境-任务-行动-结果)来回答项目经验问题
  • 对于技术比较类问题,先说明各自原理,再对比优劣,最后结合实际经验谈选择
  • 对于方案设计问题,先明确业务目标和约束,再提出多个候选方案并分析取舍
  • 请详细描述你参与的一个多模态大模型项目,从数据准备到模型部署的完整流程
  • 如何设计跨模态对齐的损失函数?对比学习与生成式对齐的优缺点是什么?
  • 解释LLaVA模型的结构,它与BLIP-2有何异同?
  • 如果要将多模态大模型应用到文档智能场景,你会如何设计技术方案?
  • 如何处理长文档的推理?例如超过上下文长度时如何优化?

职位点评

69
综合评分

前沿多模态大模型研发岗,技术成长空间大,但工作地点固定,薪资面议。

更适合这类人
最适合追求技术成长、热爱前沿算法、愿意投入时间钻研技术的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活50
使命价值65

薪资福利

70中等

薪资面议但根据市场行情,大厂算法工程师待遇优厚,福利完善,但具体数字需谈判。

薪资信号面议 (25K-45K/月)

成长发展

90较高

前沿技术方向,能接触多模态大模型全流程研发,成长空间极大,有论文和开源机会。

技术前沿前沿/新兴技术
技术栈多模态大模型、LLM、预训练、SFT、RLHF、ViT、CLIP、DeepSpeed
业务类型profit_center

工作生活

50较低

深圳现场办公,未提及弹性工作,大厂可能有一定加班压力,WLB一般。

工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)

使命价值

65中等

金融科技领域,AI赋能业务有一定社会价值,但主要服务于公司商业目标。

行业发展稳定成熟行业
社会影响中性/一般
创新程度积极采用新技术
Watch Jobs