
中国平安
算法工程师
算法工程师
发布于 大约 14 小时前普通员工/个人贡献者
深圳市
中级经验
全职员工
仅现场办公
硕士
研究与开发 (研发)
PyTorch
预训练
LLM
SFT
DeepSpeed
多模态大模型
RLHF
CLIP
ViT
AI 估算 · 25k–45k
多模态大模型方向热门,人才稀缺,结合深圳大厂平台,薪资竞争力强。
职位详情
关于这个职位
该职位负责多模态大模型的完整算法研发,从预训练到业务落地,涉及模型结构设计、跨模态对齐、指令微调等核心技术
你将跟踪前沿技术,并探索大模型与Agent的融合应用,解决文档智能、图表推理等业务难题
适合有深厚大模型实战经验、热爱技术创新的人才
最低要求
硕士及以上学历,计算机、人工智能、模式识别、计算机视觉、NLP相关专业
年及以上多模态大模型研发实战经验,完整深度参与过至少一款多模态理解模型从预训练、微调至业务落地全流程项目
精通多模态大模型底层原理,熟练掌握LLM预训练、增量训练、模态编码器设计、跨模态对齐、SFT微调、RLHF/DPO对齐全套技术
熟悉ViT、CLIP、Qwen-VL、LLaVA等主流多模态架构
具备文档智能研发经验,熟悉OCR、DocVQA、图表理解、长文本长文档推理优化技术栈
熟练使用PyTorch深度学习框架,掌握Megatron-LM、vLLM、DeepSpeed等大模型训练、分布式推理工具,具备完整的数据治理、数据构建、模型训练、部署优化工程能力
具备良好技术调研、方案论证、问题排查能力,善于拆解复杂技术难题,良好沟通协作与项目推进能力
工作职责
负责多模态大模型(MLLM)全流程算法研发,完成模型持续预训练、增量后训练、指令微调SFT、偏好对齐Alignment全链路工作
开展模型结构设计、模态融合方案设计、损失函数设计优化、训练策略迭代制定,提升模型综合能力
攻坚跨模态语义对齐、多模态特征融合、异构图文/图表/文档数据解析理解等核心技术难点,优化模型在跨模态检索、视觉问答VQA、Chart/DocVQA、图文理解、长文档逻辑推理、图文生成等任务效果
跟踪全球多模态大模型前沿技术演进,结合业务场景输出技术路线规划,主导模型迭代优化、技术难点攻关,沉淀可复用技术方案
深耕业务场景,探索多模态模型与智能体Agent融合落地,围绕文档智能解析、grounding,图表推理、专业内容问答、复杂逻辑推理搭建垂域应用方案,实现算法技术和业务深度融合
牵头多模态模型项目完整研发、迭代与落地交付,针对业务痛点定制模型优化方案,持续验证、复盘提升模型线上表现
优先资格
博士优先
有顶会论文、模型开源产出优先
了解多模态Agent应用搭建思路优先
AI 洞察
优缺点分析
优点
- 多模态大模型是当前AI最热门方向,技术前沿,积累的经验有很高的市场价值
- 平安作为大型金融集团,业务场景丰富,模型落地机会多,能锻炼工程化能力
- 团队技术氛围浓厚,有顶会论文和开源产出机会,利于个人品牌建设
- 业务落地过程中可能面临数据质量、模型泛化等实际问题,需要较强的解决问题能力
- 适合有2-5年大模型经验、对多模态技术有热情、希望深耕前沿算法并推动技术落地的技术型人才
缺点 / 挑战
- 技术迭代快,需要持续学习跟踪最新论文和开源项目,学习压力较大
- 工作强度可能较高,涉及多个项目并行,需要良好的时间管理和沟通协作能力
角色解读
- 技术专家路线:深耕多模态大模型,成为领域顶尖算法专家,主导前沿技术研究
- 技术管理路线:从技术负责人逐步晋升为团队Leader或技术总监,带领团队攻克难题
- 业务架构路线:结合业务场景,转型为AI解决方案架构师,推动大模型在行业落地
- 负责多模态大模型的完整研发,包括预训练、微调、对齐等全链路工作
- 攻克跨模态语义对齐、多模态特征融合等核心技术难点,优化模型在视觉问答、文档理解等任务的表现
- 跟踪前沿技术,规划技术路线,并探索大模型与Agent融合的业务应用
- 牵头项目研发与落地,针对业务痛点定制优化方案并持续迭代
- 精通多模态大模型原理与主流架构(如ViT、CLIP、Qwen-VL、LLaVA)
- 熟练掌握LLM训练全流程技术,包括预训练、SFT、RLHF/DPO等
- 具备扎实的工程能力,熟练使用PyTorch、Megatron-LM、DeepSpeed等工具
- 有文档智能或视觉理解相关项目经验,熟悉OCR、DocVQA等
申请策略
- 了解平安的业务场景(金融、保险、医疗),思考多模态大模型如何在这些领域落地
- 准备一个完整的项目复盘,包括遇到的问题、解决方案和最终效果
- 突出多模态大模型全流程项目经验,尤其是从预训练到落地的完整案例
- 强调顶会论文、开源贡献等学术成果,体现技术深度
- 详细描述在模型结构设计、训练策略优化、跨模态对齐等方面的具体工作
- 展示工程能力,如使用PyTorch、DeepSpeed等工具进行大规模分布式训练的经验
- 复习多模态大模型前沿论文,尤其是2024-2025年的新架构(如LLaVA-NeXT、Qwen2-VL等)
- 熟悉Agent与多模态结合的应用框架,如LangChain、AutoGen等
面试指南
- 采用STAR法则(情境-任务-行动-结果)来回答项目经验问题
- 对于技术比较类问题,先说明各自原理,再对比优劣,最后结合实际经验谈选择
- 对于方案设计问题,先明确业务目标和约束,再提出多个候选方案并分析取舍
- 请详细描述你参与的一个多模态大模型项目,从数据准备到模型部署的完整流程
- 如何设计跨模态对齐的损失函数?对比学习与生成式对齐的优缺点是什么?
- 解释LLaVA模型的结构,它与BLIP-2有何异同?
- 如果要将多模态大模型应用到文档智能场景,你会如何设计技术方案?
- 如何处理长文档的推理?例如超过上下文长度时如何优化?
职位点评
69
综合评分
前沿多模态大模型研发岗,技术成长空间大,但工作地点固定,薪资面议。
更适合这类人
最适合追求技术成长、热爱前沿算法、愿意投入时间钻研技术的求职者。
表现最好
成长发展
相对薄弱
工作生活
薪资福利70
成长发展90
工作生活50
使命价值65
薪资福利
70中等
薪资面议但根据市场行情,大厂算法工程师待遇优厚,福利完善,但具体数字需谈判。
薪资信号面议 (25K-45K/月)
成长发展
90较高
前沿技术方向,能接触多模态大模型全流程研发,成长空间极大,有论文和开源机会。
技术前沿前沿/新兴技术
技术栈多模态大模型、LLM、预训练、SFT、RLHF、ViT、CLIP、DeepSpeed
业务类型profit_center
工作生活
50较低
深圳现场办公,未提及弹性工作,大厂可能有一定加班压力,WLB一般。
工作模式仅现场办公
办公地点未明确
加班情况未提及(无法判断)
使命价值
65中等
金融科技领域,AI赋能业务有一定社会价值,但主要服务于公司商业目标。
行业发展稳定成熟行业
社会影响中性/一般
创新程度积极采用新技术
中国平安 的其他在招职位
相似职位推荐
Watch Jobs